摘要: 文本数据预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。 1.文档切分 文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如果文档集合 阅读全文
posted @ 2018-02-23 17:18 飞末 阅读(765) 评论(0) 推荐(0)