会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
WANGLC
博客园
首页
新随笔
联系
管理
订阅
2017年10月29日
DocumentSimilarity
摘要: 读取文件 获取摘要ID 大小写转换 将标点符号与单词进行分离 除去停用词 除去标点符号 单词词干化 去除低频词 计算每个摘要中的词出现的次数 通过频率计算TF-IDF 训练lsi模型 建立索引 进行相似度计算 result For循环执行进度条 使用python的 parallel python(p
阅读全文
posted @ 2017-10-29 15:21 WangLC
阅读(289)
评论(0)
推荐(0)
公告