shell脚本

之前还是处理好评论的差评和好评的分析,之后进行如下操作:

Linux版本:

cd  Downloads/yihaodian

cd trunk 进入trunk目录就可以进行训练了

训练的命令: sh train.sh ../seg_good.data  good.data  你的模型文件的名字

训练成二进制的文件:sh train_text.sh ../good_seg.data good.vectors

训练完事,就可以进行测试了:./distance  good.data  

查看一个文件退出的时候是:esc,之后输入::wq

返回上一层目录的命令是:cd ../

这是后控制台出现 enter  word or sentence: 

你输入: 很好

会出现一系列和很好相关的词和相应的cosine distance

接下来:

现在有每个词的表示了,就是每个词的向量,每个词可以表示为一个向量,这样两个词可以根据cosine计算相似度了。从而,对词,可以进行相似聚类。

你就知道好评里面的词有哪些类别了。假如说,你聚类得到,质量,物流,客服,效果四个类别,每个类别有一个聚类中心,就是k-means的中心。

新来一个评论,你先分词,分词的结果是,四个词,有三个是和物流的中心很近,那么就是物流的分类。

 

posted @ 2014-11-21 13:36  ilxx1988  阅读(247)  评论(1编辑  收藏  举报