Word2Vec实战

作者: pdnbplus | 发布时间: 2024/06/18 | 阅读量: 152

Word2Vec实战 -- 潘登同学的NLP学习笔记

回顾词向量算法

Skip-gram

在这里插入图片描述

Word2Vec代码实现

这里采用Skip-gram方法生成词向量

拉取数据

在这里插入图片描述

解压数据

将数据转成list

在这里插入图片描述

数据处理

主要有4个处理目标(不常见单词统一处理为UNK)

  • count: 计算每个单词出现的频数
  • dictionary: 将单词与索引号对应上
  • reversed_dictionary: 将索引号与单词也对应上
  • data: 将语料库的文章按照单词的索引号进行转换

在这里插入图片描述

构造训练样本

构造训练样本最重要的就是确定上下文长度,然后用一个队列去做滑动窗口,然后将一个input构造len(滑动窗口)-1个训练样本

查看构造结果

在这里插入图片描述

构造计算图

在这里插入图片描述

画图函数

在这里插入图片描述

Trian!

在这里插入图片描述

结果

在这里插入图片描述