摘要: 原文链接:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法... 阅读全文
posted @ 2016-01-13 18:13 fsye12 阅读(118) 评论(0) 推荐(0)
摘要: 原文链接:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻... 阅读全文
posted @ 2016-01-13 18:04 fsye12 阅读(135) 评论(0) 推荐(0)
摘要: 原文链接:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请... 阅读全文
posted @ 2016-01-13 17:54 fsye12 阅读(97) 评论(0) 推荐(0)
摘要: 原文链接:http://www.cnblogs.com/chaosimple/p/3227271.html数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之... 阅读全文
posted @ 2016-01-13 17:42 fsye12 阅读(131) 评论(0) 推荐(0)
摘要: 原文链接:http://www.cnblogs.com/chaosimple/p/3354543.html在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化... 阅读全文
posted @ 2016-01-13 17:39 fsye12 阅读(165) 评论(0) 推荐(0)
摘要: 原文链接:http://www.cnblogs.com/chaosimple/p/3376438.htmlN-Gram模型时大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息... 阅读全文
posted @ 2016-01-13 17:25 fsye12 阅读(91) 评论(0) 推荐(0)
摘要: 原文链接:http://blog.sina.com.cn/s/blog_78fd98af0100xk7k.html通俗的说说最大似然估计吧,文绉绉的概念和严谨的公式推导总是记不住,又让人昏昏欲睡....1.什么是最大似然估计如果我们知道样本(数据)所服从的概率分布的模型,而不知道该模型中的参数,例如... 阅读全文
posted @ 2016-01-13 17:23 fsye12 阅读(150) 评论(0) 推荐(0)