随笔分类 -  自然语言处理

上一页 1 2

摘要:s = "线程是程序执行时的最小单位,它是进程的一个执行流,\ 是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,\ 线程间共享进程的所有资源,每个线程有自己的堆栈和局部变量。\ 线程由CPU独立调度执行,在多CPU环境下就允许多个线程同时运行。\ 同样多线程也可以实现并发操作,每个请求分 阅读全文

posted @ 2018-11-04 10:28 happygril3 阅读(196) 评论(0) 推荐(0)

摘要:无监督学习算法:先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如TF-IDF,TextRank等算法from jieba import analyse'''sentence: 待提取关键词的文本topK: 返回关键词的数量 阅读全文

posted @ 2018-11-02 18:31 happygril3 阅读(457) 评论(0) 推荐(0)

摘要:import jieba.posseg#方式一:#加载停用词表stop = [line.strip() for line in open('stop.txt','r',encoding='utf-8').readlines() ]#导入自定义词典:词语、词频(可省略)、词性(可省略)jieba.lo 阅读全文

posted @ 2018-11-02 18:28 happygril3 阅读(388) 评论(0) 推荐(0)

摘要:精确模式:试图将句子最精确地切开,适合文本分析;cut_all=False全模式:把句子中所有可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;cut_all=True搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。jieba.cut_for_search 阅读全文

posted @ 2018-11-02 18:18 happygril3 阅读(211) 评论(0) 推荐(0)

上一页 1 2

导航