Word2Vec实战 -- 潘登同学的NLP学习笔记
回顾词向量算法
Skip-gram
Word2Vec代码实现
这里采用Skip-gram方法生成词向量
拉取数据
解压数据
将数据转成list
数据处理
主要有4个处理目标(不常见单词统一处理为UNK)
- count: 计算每个单词出现的频数
- dictionary: 将单词与索引号对应上
- reversed_dictionary: 将索引号与单词也对应上
- data: 将语料库的文章按照单词的索引号进行转换
构造训练样本
构造训练样本最重要的就是确定上下文长度,然后用一个队列去做滑动窗口,然后将一个input构造len(滑动窗口)-1
个训练样本