2018年11月7日

摘要: 脱离语料库,仅对单篇文档提取 (1) pageRank算法:有向无权,平均分配贡献度 基本思路: 链接数量:一个网页越被其他的网页链接,说明这个网页越重要 链接质量:一个网页被一个越高权值的网页链接,表明这个网页越重要 思路:将每个网页初始得分为1 通过多次迭代对每个网页进行收敛 若收敛,则收敛时的 阅读全文
posted @ 2018-11-07 19:11 happygril3 阅读(218) 评论(0) 推荐(0)
摘要: TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率 TF:统计一个词在文档中出现的频次,次数越多,表达能力越强 IDF:统计一个词在文档集的多少篇文档中出现,一个词在越少的文档中出现,则对该文档的区分能力就越强 词i在文档j中出现的概 阅读全文
posted @ 2018-11-07 18:16 happygril3 阅读(334) 评论(0) 推荐(0)
摘要: 思想: 把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词 利用字与字相邻出现的频率反映词的可靠度 buzhou: 建立统计语言模型 对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式 语言模型: 长度为m的字符串确定其概率分布为P(w1,w 阅读全文
posted @ 2018-11-07 18:02 happygril3 阅读(152) 评论(0) 推荐(0)

导航