随笔档案「2018年11月7日」：关键词提取_textbank ... - happygril3

关键词提取_textbank

摘要：脱离语料库，仅对单篇文档提取 (1) pageRank算法：有向无权，平均分配贡献度基本思路：链接数量：一个网页越被其他的网页链接，说明这个网页越重要链接质量：一个网页被一个越高权值的网页链接，表明这个网页越重要思路：将每个网页初始得分为1 通过多次迭代对每个网页进行收敛若收敛，则收敛时的阅读全文

posted @ 2018-11-07 19:11 happygril3 阅读(221) 评论(0) 推荐(0)

关键词提取_tf_idf

摘要： TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率 TF:统计一个词在文档中出现的频次，次数越多，表达能力越强 IDF:统计一个词在文档集的多少篇文档中出现，一个词在越少的文档中出现，则对该文档的区分能力就越强词i在文档j中出现的概阅读全文

posted @ 2018-11-07 18:16 happygril3 阅读(337) 评论(0) 推荐(0)

统计分词

摘要：思想：把每个词看成是各个字组成，如果相连的字在不同的文本中出现次数越多，相连的字很可能是一个词利用字与字相邻出现的频率反映词的可靠度 buzhou：建立统计语言模型对句子进行单词划分，然后对划分结果进行概率计算，获得最大概率的分词方式语言模型：长度为m的字符串确定其概率分布为P(w1,w 阅读全文

posted @ 2018-11-07 18:02 happygril3 阅读(154) 评论(0) 推荐(0)

happygril3

导航

公告