2021 年 4月 27 日随笔档案 - cai的一批

2021年4月27日

摘要：文本预处理流程：中文文本挖掘预处理特点英文文本挖掘预处理特点【很全面，看了几本懂大致流程，可以上手】搜索引擎原理：数据预处理【有代码，而且很全。几乎全用他的代码，看得懂。】阅读全文

posted @ 2021-04-27 12:01 cai的一批阅读(194) 评论(0) 推荐(0)

摘要：链接：python自然语言处理——NLTK——词性标签（pos_tag）主要是看不懂词性。词性列表： CC coordinatingconjunction 并列连词CD cardinaldigit 纯数基数DT determiner 限定词（置于名词前起限定作用，如 the、some、my 等阅读全文

posted @ 2021-04-27 11:36 cai的一批阅读(697) 评论(0) 推荐(0)

nltk.stem 词干提取（stemming）

摘要：链接：nltk.stem 词干提取（stemming） Stemming 可以抽取词的词干或词根形式，NLTK中提供了三种最常用的词干提取器接口 '''基于Porter词干提取算法''' from nltk.stem.porter import PorterStemmer porter_stemme 阅读全文

posted @ 2021-04-27 10:05 cai的一批阅读(926) 评论(0) 推荐(0)

python3的encode和decode涉及的str和bytes转换

摘要：参考链接：python3的decode()与encode() 文本总是Unicode,由str类型进行表示，二进制数据使用bytes进行表示，不会将str与bytes偷偷的混在一起，使得两者的区别更加明显。在python2中会明显发现不能将str与bytes拼接在一起，也不能在bytes中查找字符。阅读全文

posted @ 2021-04-27 09:14 cai的一批阅读(386) 评论(0) 推荐(0)

公告