2013年12月4日

摘要: 题外话(非书中所有):统计学习书中讲到的方法和一般机器学习类书籍讲到的方法很像,那么统计学习和机器学习的区别在哪?从网上查了一些资料没找到明显的区别,如果有,大概是统计学习中的方法都是理论上可以证明的,机器学习中的方法更讲究实用,虽然理论上可能还未证明。如最近比较热的Deep Learning,就是理论上还未证明其正确性。一、统计学习的特点: 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。 实现统计学习方法的步骤:1)得到一个有限的训练数据集; 2)确定包含所有可能的模型的假设空间; 3)确定模型选择的准则,即学习的策略; 4)实现求解最优模型的算法; 5)选. 阅读全文
posted @ 2013-12-04 10:44 michael_YM 阅读(540) 评论(2) 推荐(0)

2013年11月14日

摘要: 简介: 以下转自刘思喆的博客:http://www.bjt.name/2010/11/google-r-code-style/,虽然不是R代码规范的原文,但是感觉够用了。文章中的主要知识是:1)R文件命名时,多个单词间用下划线分割,以.R结尾,尽量使用多个单词命名,含义清晰;2)函数命名以大写字母开头,多个单词间遵守驼峰规则;变量命名时,多个单词间以“.”作分隔符,开头小写; 3)运算符前后要以空格作分割; 4)代码要有注释,以“#”开头,加一个空格; 5)做项目时,代码要有版本信息、作者信息,输入、输出说明等;~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 阅读全文
posted @ 2013-11-14 10:20 michael_YM 阅读(903) 评论(0) 推荐(0)

2013年11月7日

摘要: 转自:http://www.emarketing.net.cn/magazine/adetail.jsp?aid=2247 从医疗到气象,再到金融,在谢邦昌看来,数据挖掘对于各个行业的重要性不言而喻,从数据挖掘衍生出的客户关系管理、风险分析等手法更是超乎想象。大数据时代,软硬件技术与统计方法上已经不存在障碍,关键是要解决什么问题。以云端为例,如果说它是数据挖掘的筋斗云,那么驾驭这座云的便是商务智能。其实所谓的商务智能并无玄机,它只不过是扎扎实实地在行业知识基础上进行的以解决问题为导向的数据整理与分析。人工智能缩短学习的过程,但是离不开人类智慧;数据挖掘依靠统计技术,但又远远超出统计的范畴。数据 阅读全文
posted @ 2013-11-07 15:31 michael_YM 阅读(299) 评论(0) 推荐(0)
摘要: What is Mahout, why need it?Mahout 是机器学习和数据挖掘的一个分布式框架,区别于其他的开源数据挖掘软件,它是基于hadoop之上的; 所以Mahout的优势就是hadoop的优势。官网http://mahout.apache.org/上说的Scalable就是指hadoop的可扩展性。Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。这里说的“解决”是一个初步的概念,很多算法由于各种原因是无法用map-reduce并行实现的。Supported AlgorithmsClassificationLogistic Regression 阅读全文
posted @ 2013-11-07 15:15 michael_YM 阅读(1291) 评论(0) 推荐(0)
摘要: 转自:http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣什么乱?)开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定 阅读全文
posted @ 2013-11-07 15:01 michael_YM 阅读(389) 评论(0) 推荐(0)
摘要: 一、算法简介:该算法的基本知识,季季都已经写在这了用朴素贝叶斯做内容分类;这里再稍微重复一下,所谓“贝叶斯”,就是指概率计算中的贝叶斯公式;所谓“朴素”,是指该算法的一个前提假设,即给定类别Y的情况下,观察到联合的W1、W2、 ...、Wn的概率为: \( P(w_{1},w_{2},...,w_{n}|Y)=\prod_{i=1}^{n} P(w_{i}|Y) \)二、算法实现: 1)特征值选取:目前选取特征值的方法比较简单,主要是按照词频的大小,从每条微博中(包括训练集和测试集的微博)选取词频最高的前N个词作为特征值,记为 \( features(tweet)=\big\{w_{1},w_ 阅读全文
posted @ 2013-11-07 14:31 michael_YM 阅读(1032) 评论(0) 推荐(0)

2013年11月1日

摘要: 来源:数据挖掘与数据分析作者:邓凯 围观:1054 次原文链接:http://www.itongji.cn/column/betterdata/040bH2012.html数据挖掘是从数据集中识别出有效的、新颖的、潜在并有用的、最终可理解的模式的非平凡过程。它综合使用统计分析、数据仓库、人工智能、信息科学等多个学科的技术,从海量的客户数据中找出传统经营分析方法难以洞察的客户行为模式,给出客户的详细描述,并可以有效预测客户的行为倾向。目前,数据挖掘在电信运营企业中的应用越来越广。但随着应用的深入,偏差和误区也频繁出现,包括操作、流程、思路、方法、工具等。笔者试图从经典的数据挖掘理论和电信企业数据 阅读全文
posted @ 2013-11-01 11:24 michael_YM 阅读(296) 评论(0) 推荐(0)

2013年10月26日

摘要: 10月19日,在人大明德法学院听了大数据公益大学的技术聚会,共三个报告听了两个,第三个报告是关于大数据展示的,听了几分钟感觉主题是做表格和报表,兴趣不大就提前走了。这是我第一次进人大,从西门进去走几步就可以看到法学院的几栋大楼,都是红色的,在明媚的阳光和湛蓝天空的映衬下,显得很是气派。 聚会的第一个报告是easyhadoop的开发者向磊讲解他开发的Xadoop系统,这个Xadoop是用来界面化管理hadoop集群的,12年8月份提交至github网站,全球第二个同类产品,100%开源。easyhaoop是Xadoop的前身。向总介绍了开发easyhadoop的缘由,那时他还在暴风影音担任... 阅读全文
posted @ 2013-10-26 11:39 michael_YM 阅读(265) 评论(0) 推荐(0)

导航