随笔档案「2018年11月2日」：结巴-关键词提取 ... - happygril3

结巴-关键词提取

摘要：无监督学习算法:先抽取出候选词，然后对各个候选词进行打分，然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同，有不同的算法，例如TF-IDF，TextRank等算法from jieba import analyse'''sentence：待提取关键词的文本topK：返回关键词的数量阅读全文

posted @ 2018-11-02 18:31 happygril3 阅读(458) 评论(0) 推荐(0)

停用词+自定义词

摘要： import jieba.posseg#方式一：#加载停用词表stop = [line.strip() for line in open('stop.txt','r',encoding='utf-8').readlines() ]#导入自定义词典:词语、词频（可省略）、词性（可省略）jieba.lo 阅读全文

posted @ 2018-11-02 18:28 happygril3 阅读(388) 评论(0) 推荐(0)

结巴分词

摘要：精确模式：试图将句子最精确地切开，适合文本分析；cut_all=False全模式：把句子中所有可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；cut_all=True搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。jieba.cut_for_search 阅读全文

posted @ 2018-11-02 18:18 happygril3 阅读(211) 评论(0) 推荐(0)

happygril3

导航

公告