会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
rui
博客园
首页
新随笔
联系
订阅
管理
2019年9月3日
大数据之路【第十二篇】:数据挖掘--NLP文本相似度
摘要: 一、词频 TF • 假设:如果一个词很重要,应该会在文章中多次出现 • 词频——TF(Term Frequency):一个词在文章中出现的次数 • 也不是绝对的!出现次数最多的是“的”“是”“在”,这类最常用的词,叫做停用词(stop words)• 停用词对结果毫无帮助,必须过滤掉的词 • 过滤掉
阅读全文
posted @ 2019-09-03 15:56 Simon92
阅读(1057)
评论(0)
推荐(0)
公告