随笔分类 - 互联网搜索引擎
大三下
摘要:文本预处理流程:中文文本挖掘预处理特点 英文文本挖掘预处理特点【很全面,看了几本懂大致流程,可以上手】 搜索引擎原理:数据预处理【有代码,而且很全。几乎全用他的代码,看得懂。】
阅读全文
摘要:链接:python自然语言处理——NLTK——词性标签(pos_tag) 主要是看不懂词性。 词性列表: CC coordinatingconjunction 并列连词CD cardinaldigit 纯数 基数DT determiner 限定词(置于名词前起限定作用,如 the、some、my 等
阅读全文
摘要:链接:nltk.stem 词干提取(stemming) Stemming 可以抽取词的词干或词根形式,NLTK中提供了三种最常用的词干提取器接口 '''基于Porter词干提取算法''' from nltk.stem.porter import PorterStemmer porter_stemme
阅读全文
浙公网安备 33010602011771号