随笔列表第2页 - linjiaqin

2016年6月10日

摘要：当我们尝试使用统计机器学习方法解决文本的有关问题时，第一个需要的解决的问题是，如果在计算机中表示出一个文本样本。一种经典而且被广泛运用的文本表示方法，即向量空间模型(VSM)，俗称“词袋模型”。我们首先看一下向量空间模型如何表示一个文本：空间向量模型需要一个“字典”：文本的样本集中特征词集合，这阅读全文

posted @ 2016-06-10 12:33 linjiaqin 阅读(4905) 评论(1) 推荐(2) 编辑

文本分类概述

摘要：转自：http://blog.csdn.net/csdwb/article/details/7082066 一.概述文本分类在文本处理中是很重要的一个模块，它的应用也非常广泛，比如：垃圾过滤，新闻分类，词性标注等等。它和其他的分类没有本质的区别，核心方法为首先提取分类数据的特征，然后选择最优的匹配阅读全文

posted @ 2016-06-10 12:25 linjiaqin 阅读(8988) 评论(1) 推荐(1) 编辑

2016年6月5日

关键词的提取

摘要： TF-IDF与余弦相似性的应用（一）：自动提取关键词转自：http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 作者：阮一峰日期： 2013年3月15日作者：阮一峰日期： 2013年3月15日这个标题看上去好像很复杂阅读全文

posted @ 2016-06-05 23:40 linjiaqin 阅读(745) 评论(0) 推荐(0) 编辑

python编码问题的理解与解决

摘要：错误：'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) 看到网上很多都不清楚，做了一天的实验，终于搞清楚这些原理如果有错误请指出，谢谢，希望不要一开口就喷。总结：理解3个概念，代码编码阅读全文

posted @ 2016-06-05 22:09 linjiaqin 阅读(1659) 评论(0) 推荐(0) 编辑

结巴中文分词

摘要：转自：http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址：https://github.com/fxsjy/jieba 演示地址：http://jiebademo.ap01.aws.af.cm/ 阅读全文

posted @ 2016-06-05 21:03 linjiaqin 阅读(1010) 评论(0) 推荐(0) 编辑

linjiaqin

公告