2017 年 5月 5 日随笔档案 - 伏草惟存

2017年5月5日

摘要：关于自然语言处理模型训练亦或是数据挖掘、文本处理等等，均离不开数据清洗，数据预处理的工作。这里的数据不仅仅指狭义上的文本数据，当然也包括视频数据、语音数据、图片数据、监控的流数据等等。其中数据预处理也有必要强调下，决然不是简单是分词工具处理后，去去停用词那么简单。即使去停用词，你选择的粒度尺寸也是有影响的，这跟工作性质和精确度要求也有着紧密的联系。其次选择多大的规模以及怎样维度都是有讲究的。本文由于主要针对新闻文本语料处理，经处理后可用于文本分类、文本聚类、特征提取、文本摘要等学习模型的训练。首先本文介绍下新闻语料的文本信息和编码问题；其次，对本实验运行的环境进行简单介绍，以及整个预处理器的框架构造；接着对单文本和批量文本的预处理工作的原理和实现介绍；还有对python如何调用java程序也通过实例进行演示。最后，对jieba分词工具的主要实现进行补充。本人邮箱：datathinks@qq.com，主页：http://www.cnblogs.com/baiboy/（本文原创，转载请标注原文出处:3000篇搜狐新闻语料数据预处理器的python实现）阅读全文

posted @ 2017-05-05 19:46 伏草惟存阅读(5031) 评论(1) 推荐(1) 编辑