利用python实现词向量训练----

python的一堆工具包

https://www.lfd.uci.edu/~gohlke/pythonlibs/

------------------------------------------------------------------------

貌似遇见了自然语言处理的行家

我们参考以下的链接

https://www.jianshu.com/u/c5df9e229a67

https://www.jianshu.com/p/05800a28c5e4

----------------------------------------------------------------------------

1.需要下载维基百科的中文语料 1.2个G 下载很慢  下载链接如下   https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

2.下载完 需要用process_wiki.py脚本来解析xml文件

3.将这两个文件(下载的语料和process_wiki.py)放在同一个目录下,

执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text:执行结果类似(当时没有截图,借用下):

4.解析完毕后需要(1)繁简转化(2)统一为UTF-8编码(3)分词

5.然后开始训练需要文件:train_word2vec_model.py

执行:python train_word2vec_model.py wiki.zh.text wiki.zh.text.model wiki.zh.text.vector

----------------------------------------------维基语料下载太慢  直接利用https://blog.csdn.net/thriving_fcl/article/details/51406780 下载了链接中的原始语料 和训练语料

语料

 原始语料 http://pan.baidu.com/s/1nviuFc1

训练语料 http://pan.baidu.com/s/1kVEmNTd

首先:

我们需要安装一些依赖库,有numpy、scipy以及gensim,安装gensim依赖于scipy,安装scipy依赖于numpy。

1.安装pip ,如果安装的是python3.4版本以上的,就不需要重新安装。自带有pip

2.安装numpy 参见程序:https://blog.csdn.net/Katrina_ALi/article/details/64922107

wheel已经安装完毕   https://www.cnblogs.com/cysblog/p/7675713.html

安装numpy的时候一直说版本不对应,出现以下错误

查询资料后才知道下载页面numpy的参数表示:

cp3.6是python3.6版本,win_amd64是window系统64位。需要注意numpy是要下载有mkl的版本的,因为scipy安装需要在numpy+mkl才能成功。 安装。首先因为scipy安装需要在numpy+mkl才能成功。所以需要先安装numpy+mkl

a. 前面的表示numpy的版本号,一般选择最新版本就好
b. 中间的cp35,表示的就是Python 3.5.*
c. 最后选择和自己电脑位数匹配的版本
3. 将下载后的numpy安装包放到任意文件夹
4. 打开控制台,进入到保存numpy安装包的文件夹
5. 输入安装指令

 经测试,终于安装成功。

安装numpy之后安装scipy,仍然使用命令pip install scipy安装完scipy以后,接下来使用命令 pip install gensim 即可。

带所有的环境安装成功以后。开始下载语料太慢,我直接用了上面说的训练语料 别人已经处理好的 开始训练词向量

训练文件执行到上图所示的部分,是否训练成功????

执行到此 表示训练成功。

-----------------------待分析

简书上也有详细步骤https://www.jianshu.com/p/05800a28c5e4

https://blog.csdn.net/grafx/article/details/78575850

https://blog.csdn.net/thriving_fcl/article/details/51406780

https://www.jianshu.com/p/98d84854f7a3

https://www.cnblogs.com/helloever/p/5280891.html

https://www.jianshu.com/p/05800a28c5e4

 

posted on 2018-08-15 14:33  毛无语666  阅读(1079)  评论(0编辑  收藏  举报

导航