2018年11月2日

摘要: 无监督学习算法:先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如TF-IDF,TextRank等算法from jieba import analyse'''sentence: 待提取关键词的文本topK: 返回关键词的数量 阅读全文
posted @ 2018-11-02 18:31 happygril3 阅读(454) 评论(0) 推荐(0)
摘要: import jieba.posseg#方式一:#加载停用词表stop = [line.strip() for line in open('stop.txt','r',encoding='utf-8').readlines() ]#导入自定义词典:词语、词频(可省略)、词性(可省略)jieba.lo 阅读全文
posted @ 2018-11-02 18:28 happygril3 阅读(385) 评论(0) 推荐(0)
摘要: 精确模式:试图将句子最精确地切开,适合文本分析;cut_all=False全模式:把句子中所有可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;cut_all=True搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。jieba.cut_for_search 阅读全文
posted @ 2018-11-02 18:18 happygril3 阅读(209) 评论(0) 推荐(0)

导航