随笔分类 -  互联网搜索引擎

大三下
摘要:文本预处理流程:中文文本挖掘预处理特点 英文文本挖掘预处理特点【很全面,看了几本懂大致流程,可以上手】 搜索引擎原理:数据预处理【有代码,而且很全。几乎全用他的代码,看得懂。】 阅读全文
posted @ 2021-04-27 12:01 cai的一批 阅读(193) 评论(0) 推荐(0)
摘要:链接:python自然语言处理——NLTK——词性标签(pos_tag) 主要是看不懂词性。 词性列表: CC coordinatingconjunction 并列连词CD cardinaldigit 纯数 基数DT determiner 限定词(置于名词前起限定作用,如 the、some、my 等 阅读全文
posted @ 2021-04-27 11:36 cai的一批 阅读(697) 评论(0) 推荐(0)
摘要:链接:nltk.stem 词干提取(stemming) Stemming 可以抽取词的词干或词根形式,NLTK中提供了三种最常用的词干提取器接口 '''基于Porter词干提取算法''' from nltk.stem.porter import PorterStemmer porter_stemme 阅读全文
posted @ 2021-04-27 10:05 cai的一批 阅读(926) 评论(0) 推荐(0)