摘要: 当我们尝试使用统计机器学习方法解决文本的有关问题时,第一个需要的解决的问题是,如果在计算机中表示出一个文本样本。一种经典而且被广泛运用的文本表示方法,即向量空间模型(VSM),俗称“词袋模型”。 我们首先看一下向量空间模型如何表示一个文本: 空间向量模型需要一个“字典”:文本的样本集中特征词集合,这 阅读全文
posted @ 2016-06-10 12:33 linjiaqin 阅读(4905) 评论(1) 推荐(2) 编辑
摘要: 转自:http://blog.csdn.net/csdwb/article/details/7082066 一.概述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配 阅读全文
posted @ 2016-06-10 12:25 linjiaqin 阅读(8988) 评论(1) 推荐(1) 编辑
摘要: TF-IDF与余弦相似性的应用(一):自动提取关键词 转自:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 作者: 阮一峰 日期: 2013年3月15日 作者: 阮一峰 日期: 2013年3月15日 这个标题看上去好像很复杂 阅读全文
posted @ 2016-06-05 23:40 linjiaqin 阅读(745) 评论(0) 推荐(0) 编辑
摘要: 错误:'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) 看到网上很多都不清楚,做了一天的实验,终于搞清楚这些原理 如果有错误请指出,谢谢,希望不要一开口就喷。 总结:理解3个概念,代码编码 阅读全文
posted @ 2016-06-05 22:09 linjiaqin 阅读(1659) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 阅读全文
posted @ 2016-06-05 21:03 linjiaqin 阅读(1010) 评论(0) 推荐(0) 编辑