# 深度学习
-
文本建模PLSA与LDA模型
这篇文章介绍了文本建模中的PLSA与LDA模型。首先,讨论了文本生成过程,包括Unigram Model和n-gram model。接着,详细介绍了PLSA(概率潜在语义分析)模型和LDA(潜在狄利克雷分配)模型,并解释了选择这些分布的原因。文章还提供了Python实现的步骤,包括文本预处理(分词)、LDA分析和结果展示。最后,讨论了通过困惑度(Perplexity)选择主题数目的方法,全面展示了PLSA与LDA在文本建模中的应用和效果。
-
transfromer-XL论文详解
这篇文章详细解析了Transformer-XL论文。首先介绍了基础的Vanilla Transformer,并解释了其局限性。接着,介绍了Transformer-XL的Segment-Level Recurrence机制,该机制通过在段级别循环状态来克服长序列依赖问题。然后,讨论了相对位置编码(Relative Position Encodings)的重要性及其实现方法,以提高模型在处理长序列时的效率和准确性。最后,文章总结了Transformer-XL的创新点及其在长序列建模中的优势,全面展示了该模型的技术细节和应用效果。
-
transformer机制
这篇文章详细介绍了Transformer机制。首先,解释了应用残差思想的自注意力(self-Attention)编码器,并介绍了如何加入位置信息(Position Embedding)。接着,深入解析Transformer模型的结构,包括解码器(Decoder)的第一层和第二层自注意力机制。最后,解释了为什么第二层不需要做mask的原因。通过这些内容,全面展示了Transformer在自然语言处理中的创新和技术细节。
-
Word2Vec进阶 - GPT2
这篇文章介绍了Word2Vec的进阶技术——GPT-2。首先,讨论了GPT-2的网络结构和预训练任务。接着,介绍了GPT-2在机器翻译、自动摘要生成和阅读理解中的应用,并讨论了其在Zero-shot、One-shot和Few-shot学习中的表现。最后,分析了BERT与GPT-2的区别,详细解释了两者在模型架构和应用场景上的不同。通过这些内容,全面展示了GPT-2在自然语言处理中的创新和优势。
-
Word2Vec进阶 - Bert
这篇文章介绍了Word2Vec的进阶技术——BERT。首先介绍了BERT及其结构,包括BERT的输入和输出形式。然后详细讨论了BERT的两个预训练任务:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。最后总结了BERT的优势,并简要介绍了ERNIE和ERNIE2.0,以及预训练的连续学习方法。通过这些内容,全面展示了BERT在自然语言处理中的创新与应用。
-
Word2Vec进阶 - ELMO
这篇文章介绍了Word2Vec进阶技术——ELMO(Embeddings from Language Models)。首先解释了ELMO的原理和整体架构,包括Char Encoder Layer和BiLSTM的设计。接着,讨论了ELMO词向量的生成过程,并展示了实验结果。最后,总结了ELMO在词向量表示中的优势和应用效果,全面展示了ELMO在自然语言处理中的创新和性能提升。
-
命名实体识别BiLSTM-CRF代码实现
这篇文章介绍了命名实体识别(NER)的BiLSTM-CRF代码实现。首先概述了条件随机场(CRF),通过直观的例子解释其特征函数,并与逻辑回归和隐马尔可夫模型(HMM)进行对比。 接着,详细讲解了BiLSTM-CRF在NER中的代码实现,包括数据预处理、模型训练和模型应用。特别是,文章介绍了如何使用维特比算法在模型应用中进行序列预测。通过这些内容,全面展示了BiLSTM-CRF在NER中的实现步骤和关键技术。
-
命名实体识别BiLSTM-CRF
这篇文章介绍了命名实体识别(NER)的BiLSTM-CRF方法。首先讨论了标注策略,回顾了早期方法和基于统计学习的方法。接着,介绍了深度学习方法,重点是BiLSTM-CRF模型。文章解释了如果不加CRF层的效果,以及CRF层从训练数据中学习限制的能力。 详细讲解了CRF层的两个关键分数:Emission score(发射分数)和Transition score(转移分数),并介绍了Loss函数的计算。最后,文章解释了在训练阶段和推理阶段使用动态规划的方法。通过这些内容,全面展示了BiLSTM-CRF在命名实体识别中的应用和优势。
-
N-gram语言模型
这篇文章介绍了N-gram语言模型及其扩展和相关概念。首先,解释了语言模型和N-gram的基本概念、概率模型以及马尔科夫假设,并讨论了选取N的技巧和OOV(超出词汇表)问题及其平滑处理。然后,介绍了NPLM(神经概率语言模型)和N-gram神经语言模型的网络结构及其优势,特别是词向量的应用。接着,详细讲解了Word2Vec的两种模型:CBOW和Skip-gram,以及这两种模型的训练方式,包括哈夫曼树、分层Softmax和负采样。最后,总结了这些模型在自然语言处理中的应用和优劣。
-
Word2Vec实战
这篇文章介绍了Word2Vec的实战过程。首先回顾了词向量算法,重点是Skip-gram模型。接着,详细讲解了Word2Vec的代码实现,包括拉取和解压数据、数据处理、构造训练样本并查看结果。然后,构建计算图并实现画图函数。最后,通过训练模型(Trian!)并展示结果,全面展示了Word2Vec的实际应用步骤和效果。