# 深度学习
-
Learning to Reason with LLMs -- OpenAI o1 论文详解
OpenAI o1使用强化学习训练模型,通过Chain of Thought思维链来进行推理。最重要的是它指出了新的方向。虽然只是思维链,模型本身没什么提升,但这意味着你可以堆算力来产出高质量的问答。然后把这些问答再喂给更小的模型。然后再用更小的模型微调大模型。然后大模型再继续cot产出更好的问答。这就是一个指数性的爆发。原本以为ai很难又再大的模型突破,但现在看来应该会沿着势头继续下去。
-
GPT-4 Technical Report论文阅读
我们创建了 GPT-4,这是 OpenAI 在扩展深度学习方面努力的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟律师考试,分数大约在考生的前 10% 左右;相比之下,GPT-3.5 的分数大约在最低 10% 左右。我们花了 6 个月的时间,利用我们的对抗性测试计划和 ChatGPT 的经验教训,迭代调整 GPT-4 ,从而在事实性、可指导性和拒绝越过护栏方面取得了有史以来最好的结果(尽管远非完美)。
-
Encoder-Decoder框架与Attention机制
本书详细介绍了Encoder-Decoder框架及其在聊天机器人中的应用。首先,解释了Encoder-Decoder的基本概念和工作原理,接着展示了其在聊天机器人中的具体应用,包括数据预处理、训练模型和模型应用的步骤。 Attention机制部分深入探讨了计算相似度矩阵的不同方式,比较了论文提出的方法和更常用的方法。书中还介绍了Self-Attention机制和多头注意力(Multi-Head Attention),并分析了Attention与Self-Attention的区别。最后,书中展示了在Self-Attention机制下构建一个Encoder的详细过程。
-
RNN循环神经网络(AI写唐诗)
本书涵盖了循环神经网络(RNN)及其变种的原理和应用。首先介绍了RNN的数学表达式,随后展示了RNN在手写数字识别中的应用以及拼接操作。接着,书中详细解释了长短时记忆网络(LSTM)的原理,包括其数学表达和在手写数字识别中的应用,并介绍了双向LSTM和门控循环单元(GRU)。书中还探讨了RNN中应用的拓扑结构。 在应用部分,书中介绍了如何利用AI写唐诗,包括数据预处理、RNN网络结构设计、训练模型、调用模型及查看结果的全过程。这些内容全面覆盖了RNN及其变种的理论基础和实际应用,为读者提供了深入理解和实践的指南。
-
DeepAR代码详析(pytorch版)实现用电量预测
本书详细解析了使用PyTorch实现的DeepAR模型用于用电量预测的代码。首先介绍了数据集的内容和结构。接着,展示了数据预处理代码,包括数据清洗、归一化和特征工程等步骤。在构造模型部分,详细解释了模型架构和各个组件的实现方法。Loss函数部分介绍了用于模型训练的损失函数的定义。评估指标相关章节讲解了评估模型性能的各类指标。utils工具类章节提供了一些辅助函数和工具类代码。最后,训练模型部分详述了训练流程和模型优化的方法,帮助读者掌握用DeepAR进行用电量预测的全过程。
-
图神经网络入门
本书介绍了图神经网络(GNN)的工作原理,首先回顾了图的基本概念,探讨了如何将图片、文本、分子结构和社交网络表示成图。在神经网络中表示图的部分,书中介绍了图层面、节点层面和边层面的三种任务。关于GNN的结构,书中详细解释了如何构造一个最简单的GNN,并应用于顶点分类任务和缺失数据预测任务,强调了在GNN中加入信息传递和全局信息的重要性。实验部分总结了超参数设置,并讨论了其他与GNN相关的问题,包括其他类型的图和对图进行采样和批处理的方法。总结部分概述了GNN的关键点和应用前景。
-
知识图谱--知识抽取
本书涵盖了知识抽取领域的多个关键方面,内容包括实体识别与分类、实体识别解码策略和指针网络等基础知识。关系抽取部分探讨了基于模板的方法、机器学习模型以及深度学习模型。属性补全和概念抽取章节分别讨论了模板抽取、百科抽取和机器学习抽取的方法。事件识别与抽取部分详细介绍了模式匹配及各种机器学习技术,包括基于特征、结构和神经网络的方法。最后,书中探讨了知识抽取的前沿技术,如少样本、零样本和终身知识抽取,提供了对该领域未来发展的洞见。
-
知识图谱-推理
本文涵盖了知识图谱推理的多个方法和技术。首先介绍了基于符号逻辑和本体的推理方法,包括Tableaux算法和基于Datalog的推理。接着讨论了基于产生式规则的RETE算法及其应用。其次,探讨了基于表示学习的推理方法,特别是嵌入学习在知识图谱中的应用,同时提到了稀疏性问题及其挑战。接下来,分析了基于规则的关系推理模型和Ontology Embedding的相关概念层推理,包括EL Embedding和其他模型的总结。
-
知识图谱入门
知识图谱是一种结构化的知识表示方法,用于描述实体之间的关系和属性。它在多个领域有广泛应用,如智能搜索、推荐系统和自然语言处理。知识图谱的学科属性涵盖逻辑推理、语义网络和图论等技术要素。知识表示是将现实世界的信息抽象为计算机能够处理的形式,涵盖了一阶逻辑、描述逻辑和产生式系统等。基于图的知识表示包括属性图和基于三元组的RDF模型,以及用于本体表达的OWL语言。最后,知识图谱的向量表示利用模型如TransE和DistMult,通过向量空间方法将实体和关系映射为低维度向量,以便进行机器学习和深度学习处理。
-
深度学习激活函数与正则化问题
这篇文章详细介绍了深度学习中的激活函数与正则化问题。首先,讨论了梯度消失问题(Vanishing Gradients)和Relu的缺点及其变形。接着,探讨了参数初始化问题,包括预训练(pre-training)和随机初始化(random initialization),并通过代码验证了Xavier初始化法,最后总结了参数初始化问题。文章还分析了梯度爆炸问题及其解决方案,如Normalization方法。 特别地,详细介绍了Batch Normalization(BN),包括其必要性、使用位置、算法过程、作用及存在的问题。最后,介绍了Layer Normalization、Instance Normalization和Group Normalization,全面展示了这些技术在深度学习中的应用及其解决问题的能力。