2013年11月7日

摘要: 转自:http://www.emarketing.net.cn/magazine/adetail.jsp?aid=2247 从医疗到气象,再到金融,在谢邦昌看来,数据挖掘对于各个行业的重要性不言而喻,从数据挖掘衍生出的客户关系管理、风险分析等手法更是超乎想象。大数据时代,软硬件技术与统计方法上已经不存在障碍,关键是要解决什么问题。以云端为例,如果说它是数据挖掘的筋斗云,那么驾驭这座云的便是商务智能。其实所谓的商务智能并无玄机,它只不过是扎扎实实地在行业知识基础上进行的以解决问题为导向的数据整理与分析。人工智能缩短学习的过程,但是离不开人类智慧;数据挖掘依靠统计技术,但又远远超出统计的范畴。数据 阅读全文
posted @ 2013-11-07 15:31 michael_YM 阅读(299) 评论(0) 推荐(0)
摘要: What is Mahout, why need it?Mahout 是机器学习和数据挖掘的一个分布式框架,区别于其他的开源数据挖掘软件,它是基于hadoop之上的; 所以Mahout的优势就是hadoop的优势。官网http://mahout.apache.org/上说的Scalable就是指hadoop的可扩展性。Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。这里说的“解决”是一个初步的概念,很多算法由于各种原因是无法用map-reduce并行实现的。Supported AlgorithmsClassificationLogistic Regression 阅读全文
posted @ 2013-11-07 15:15 michael_YM 阅读(1291) 评论(0) 推荐(0)
摘要: 转自:http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣什么乱?)开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定 阅读全文
posted @ 2013-11-07 15:01 michael_YM 阅读(389) 评论(0) 推荐(0)
摘要: 一、算法简介:该算法的基本知识,季季都已经写在这了用朴素贝叶斯做内容分类;这里再稍微重复一下,所谓“贝叶斯”,就是指概率计算中的贝叶斯公式;所谓“朴素”,是指该算法的一个前提假设,即给定类别Y的情况下,观察到联合的W1、W2、 ...、Wn的概率为: \( P(w_{1},w_{2},...,w_{n}|Y)=\prod_{i=1}^{n} P(w_{i}|Y) \)二、算法实现: 1)特征值选取:目前选取特征值的方法比较简单,主要是按照词频的大小,从每条微博中(包括训练集和测试集的微博)选取词频最高的前N个词作为特征值,记为 \( features(tweet)=\big\{w_{1},w_ 阅读全文
posted @ 2013-11-07 14:31 michael_YM 阅读(1032) 评论(0) 推荐(0)

导航