会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
511_李家成
博客园
首页
新随笔
新文章
联系
管理
订阅
2019年5月19日
中文文本预处理之结巴分词及特征化
摘要: 1.中文文本预处理操作步骤实例 1.1读取txt文件到数组中 1.2去除指定无用的符号 1.3让文本只保留汉字 1.4对文本进行结巴分词 1.5去除停用词 1.6将文本转为tfidf向量并输入到算法中 1.7用lsi向量来保证向量的维度一致 1.8把gensim计算的tfidf向量格式转为array
阅读全文
posted @ 2019-05-19 20:26 hahahaer
阅读(591)
评论(0)
推荐(0)
编辑
公告