2017 年 5月 31 日随笔档案 - 右介

2017年5月31日

摘要： # -*- coding: utf-8 -*- import gensim # 导入模型 model = gensim.models.KeyedVectors.load_word2vec_format('vectors.bin', binary=True) # 得到两组词的相似度 list1 = [u'核能'] list2 = [u'电能'] list3 = [u'电力'] list... 阅读全文

posted @ 2017-05-31 10:34 右介阅读(13291) 评论(2) 推荐(0)

python实现word2vec训练结果bin文件转txt文件

摘要：经理让我把word2vec训练后得到的bin文件转为txt文件，目前还不知道txt文件用来干什么。其实word2vec训练语料时可以选择训练处出bin文件或者txt文件，但是训练出bin文件时过程太漫长，我怕直接训练出txt文件也一样慢，所以还是自己想办法做这个事情了。我用到了gensim，这个需阅读全文

posted @ 2017-05-31 10:13 右介阅读(7105) 评论(0) 推荐(0)

非常不错的停用词词表

摘要： ,?、。“”《》！，：；？人民末##末啊阿哎哎呀哎哟唉俺俺们按按照吧吧哒把罢了被本本着比比方比如鄙人彼彼此边别别的别说并并且不比不成不单不但不独不管不光不过不仅不拘不论不怕不然不如不特不惟不问不只朝朝着趁趁着乘冲除除此之外除非除了此此间此外从从而打待但但是当当着到得的的话等等等地第叮咚对对于多多少而阅读全文

posted @ 2017-05-31 09:38 右介阅读(12317) 评论(0) 推荐(1)

右介

公告