# NLP
-
Learning to Reason with LLMs -- OpenAI o1 论文详解
OpenAI o1使用强化学习训练模型,通过Chain of Thought思维链来进行推理。最重要的是它指出了新的方向。虽然只是思维链,模型本身没什么提升,但这意味着你可以堆算力来产出高质量的问答。然后把这些问答再喂给更小的模型。然后再用更小的模型微调大模型。然后大模型再继续cot产出更好的问答。这就是一个指数性的爆发。原本以为ai很难又再大的模型突破,但现在看来应该会沿着势头继续下去。
-
GPT-4 Technical Report论文阅读
我们创建了 GPT-4,这是 OpenAI 在扩展深度学习方面努力的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟律师考试,分数大约在考生的前 10% 左右;相比之下,GPT-3.5 的分数大约在最低 10% 左右。我们花了 6 个月的时间,利用我们的对抗性测试计划和 ChatGPT 的经验教训,迭代调整 GPT-4 ,从而在事实性、可指导性和拒绝越过护栏方面取得了有史以来最好的结果(尽管远非完美)。
-
Encoder-Decoder框架与Attention机制
本书详细介绍了Encoder-Decoder框架及其在聊天机器人中的应用。首先,解释了Encoder-Decoder的基本概念和工作原理,接着展示了其在聊天机器人中的具体应用,包括数据预处理、训练模型和模型应用的步骤。 Attention机制部分深入探讨了计算相似度矩阵的不同方式,比较了论文提出的方法和更常用的方法。书中还介绍了Self-Attention机制和多头注意力(Multi-Head Attention),并分析了Attention与Self-Attention的区别。最后,书中展示了在Self-Attention机制下构建一个Encoder的详细过程。
-
ERNIE3.0论文解读
这篇文章解读了ERNIE3.0论文,首先回顾了从ERNIE 1.0开始的知识集成和模型架构,包括数据规模和预训练任务。接着,介绍了ERNIE 2.0的预训练任务、模型结构及其与BERT的比较。然后,深入解析了ERNIE 3.0的模型总览、预训练任务和实验结果。最后,讨论了fine-tune实验的结果,全面展示了ERNIE模型的演进和在自然语言处理中的应用效果。
-
Bertopic主题模型原理详解
这篇文章介绍了Bertopic主题建模的关键技术,包括Nearest-Neighbor-Descent算法用于构建K近邻图、UMAP降维算法学习高维空间中的流形结构并构造Loss函数使高维和低维表示相近。然后,解释了TF-IDF算法的原理及其在Sklearn中的实现,并讨论了其不足之处。文章还介绍了c-TF-ICF创建文本表示的方法和MMR(Maximal Marginal Relevance)算法,全面展示了Bertopic主题建模的技术细节和实现方法。
-
文本建模PLSA与LDA模型
这篇文章介绍了文本建模中的PLSA与LDA模型。首先,讨论了文本生成过程,包括Unigram Model和n-gram model。接着,详细介绍了PLSA(概率潜在语义分析)模型和LDA(潜在狄利克雷分配)模型,并解释了选择这些分布的原因。文章还提供了Python实现的步骤,包括文本预处理(分词)、LDA分析和结果展示。最后,讨论了通过困惑度(Perplexity)选择主题数目的方法,全面展示了PLSA与LDA在文本建模中的应用和效果。
-
transfromer-XL论文详解
这篇文章详细解析了Transformer-XL论文。首先介绍了基础的Vanilla Transformer,并解释了其局限性。接着,介绍了Transformer-XL的Segment-Level Recurrence机制,该机制通过在段级别循环状态来克服长序列依赖问题。然后,讨论了相对位置编码(Relative Position Encodings)的重要性及其实现方法,以提高模型在处理长序列时的效率和准确性。最后,文章总结了Transformer-XL的创新点及其在长序列建模中的优势,全面展示了该模型的技术细节和应用效果。
-
transformer机制
这篇文章详细介绍了Transformer机制。首先,解释了应用残差思想的自注意力(self-Attention)编码器,并介绍了如何加入位置信息(Position Embedding)。接着,深入解析Transformer模型的结构,包括解码器(Decoder)的第一层和第二层自注意力机制。最后,解释了为什么第二层不需要做mask的原因。通过这些内容,全面展示了Transformer在自然语言处理中的创新和技术细节。
-
Word2Vec进阶 - GPT2
这篇文章介绍了Word2Vec的进阶技术——GPT-2。首先,讨论了GPT-2的网络结构和预训练任务。接着,介绍了GPT-2在机器翻译、自动摘要生成和阅读理解中的应用,并讨论了其在Zero-shot、One-shot和Few-shot学习中的表现。最后,分析了BERT与GPT-2的区别,详细解释了两者在模型架构和应用场景上的不同。通过这些内容,全面展示了GPT-2在自然语言处理中的创新和优势。
-
Word2Vec进阶 - Bert
这篇文章介绍了Word2Vec的进阶技术——BERT。首先介绍了BERT及其结构,包括BERT的输入和输出形式。然后详细讨论了BERT的两个预训练任务:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。最后总结了BERT的优势,并简要介绍了ERNIE和ERNIE2.0,以及预训练的连续学习方法。通过这些内容,全面展示了BERT在自然语言处理中的创新与应用。