摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.6 规范化文本词干提取器词形归并 3.6 规范化文本 词干提取器 所谓的词干提取器就是去除词缀得到词根的过程——得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干 阅读全文
posted @ 2019-02-24 15:35 ly803744 阅读(706) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.5 正则表达式的有益应用提取字符块在字符块上做更多事情查找词干搜索已分词文本 3.5 正则表达式的有益应用 提取字符块 import reimport nltkword = 阅读全文
posted @ 2019-02-24 15:34 ly803744 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.3 使用Unicode进行文本处理字符编码ASCII码非ASCII码UnicodeUnicode的问题UTF 8Unicode与UTF 8之间的转换Little endian 和Big endian实例 阅读全文
posted @ 2019-02-24 15:32 ly803744 阅读(676) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.2 字符串:最底层的文本处理 a = 'Hello'b = 'Python's = ' he llo ' 1.字 阅读全文
posted @ 2019-02-24 15:30 ly803744 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第三章 加工原料文本 3.1 从网络和硬盘访问文本电子书处理的HTML处理RSS订阅读取本地文件 3.1 从网络和硬盘访问文本 电子书 NLTk语料库集合中存有古腾堡项目的一小部分样例文本,如果你对古腾堡项目其他的文本感兴趣,可 阅读全文
posted @ 2019-02-24 15:29 ly803744 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第二章 获取文本预料和词汇资源 2.5 WordNet意义和同义词WordNet的层次结构更多的词汇关系语义相似度 2.5 WordNet 意义和同义词 from nltk.corpus import&nbs 阅读全文
posted @ 2019-02-24 15:27 ly803744 阅读(277) 评论(0) 推荐(0) 编辑
摘要: python数据处理 1.生成数据2.数据表检查3.数据表清洗4.数据预处理5.数据提取6.数据筛选7.数据汇总8.数据统计9.数据输出 1.生成数据 1.导入数据表 df = pd.read_excel('C:/Users/Admin/Desktop/types/output. 阅读全文
posted @ 2018-12-10 22:13 ly803744 阅读(2431) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第二章 获取文本预料和词汇资源 2.4 词典资源词汇列表语料库发音的词典比较词表词汇工具: Toolbox和Shoebox 2.4 词典资源 词汇列表语料库 1def unusual_words(text):  阅读全文
posted @ 2018-12-07 14:50 ly803744 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第二章 获取文本预料和词汇资源 2.3 更多关于python:代码重用函数及函数的调用 2.3 更多关于python:代码重用 函数及函数的调用 1def plural(word):    阅读全文
posted @ 2018-12-07 14:49 ly803744 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 微信公众号:数据运营人本系列为博主的读书学习笔记,如需转载请注明出处。 第二章 获取文本预料和词汇资源 2.2 条件频率分布条件和事件按文体计数词汇绘制分布图和分布表使用双连词生成随机文本 2.2 条件频率分布 条件和事件 1text = ['The','Fulton','Cou 阅读全文
posted @ 2018-12-07 14:48 ly803744 阅读(375) 评论(0) 推荐(0) 编辑