摘要: 文本预处理流程:中文文本挖掘预处理特点 英文文本挖掘预处理特点【很全面,看了几本懂大致流程,可以上手】 搜索引擎原理:数据预处理【有代码,而且很全。几乎全用他的代码,看得懂。】 阅读全文
posted @ 2021-04-27 12:01 cai的一批 阅读(193) 评论(0) 推荐(0)
摘要: 链接:python自然语言处理——NLTK——词性标签(pos_tag) 主要是看不懂词性。 词性列表: CC coordinatingconjunction 并列连词CD cardinaldigit 纯数 基数DT determiner 限定词(置于名词前起限定作用,如 the、some、my 等 阅读全文
posted @ 2021-04-27 11:36 cai的一批 阅读(697) 评论(0) 推荐(0)
摘要: 链接:nltk.stem 词干提取(stemming) Stemming 可以抽取词的词干或词根形式,NLTK中提供了三种最常用的词干提取器接口 '''基于Porter词干提取算法''' from nltk.stem.porter import PorterStemmer porter_stemme 阅读全文
posted @ 2021-04-27 10:05 cai的一批 阅读(925) 评论(0) 推荐(0)
摘要: 参考链接:python3的decode()与encode() 文本总是Unicode,由str类型进行表示,二进制数据使用bytes进行表示,不会将str与bytes偷偷的混在一起,使得两者的区别更加明显。在python2中会明显发现不能将str与bytes拼接在一起,也不能在bytes中查找字符。 阅读全文
posted @ 2021-04-27 09:14 cai的一批 阅读(381) 评论(0) 推荐(0)