2013年6月4日

摘要: GBDT(GradientBoostingDecisionTree)又叫MART(MultipleAdditiveRegressionTree),是一种用于回归的机器学习算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。当把目标函数做变换后,该算法亦可用于分类或排序。本文主要从高层明确几个GBDT概念,主要讲GBDT的两个版本以及GBDT是什么不是什么。详细介绍见文中的链接。1.GBDT的两个不同版本(重要)目前GBDT有两个不同的描述版本,两者各有支持者,读文献时要注意区分。残差版本把GBDT说成一个残差迭代树,认为每一棵回归树都在学习前N-1棵树的残差,之前我写的GBDT入门教 阅读全文
posted @ 2013-06-04 15:40 tywen 阅读(475) 评论(0) 推荐(0)

2013年4月3日

摘要: 最近开始搞协同过滤CF,觉得自己真是水到家,先在小的netflix数据集上做做SGD主要参考文章:Netflix Update: Try This at Home:http://sifter.org/~simon/journal/20061211.html数据集形式:头两行描述可以忽略跳过,第三行依次是行数,列数,打分个数。打分矩阵用稀疏的形式存储,按以下形式存储(row_index,col_index,rating)。13 1 1表示第13行第1列位置的元素是1%%MatrixMarket matrix coordinate real general% Generated 28-Aug-20 阅读全文
posted @ 2013-04-03 10:34 tywen 阅读(1832) 评论(0) 推荐(0)

2013年3月28日

摘要: 【找明星问题】http://blog.xiaoheshang.info/?p=263该问题在创新工场(Innovation Works)和葫芦(Hulu)的面试中都被问到:N个人中只有一个明星:明星不认识其他所有的人,而其他人都认识明星,不是明星的人可能认识也可能不认识。你每次只可以问一个人是否认识另一个人这样的问题,问最少问多少次可以找出明星。方法:从N个人中找两个人a b,问a是否认识b,若a认识b则a肯定不是明星排除a,若a不认识b则分两种情况讨论,为明星为1,不为明星为0。1: 0 02: 0 1(不可能,a肯定认识b)3: 1 04: 1 1(不可能,只有一个明星)只有1,3两种情况 阅读全文
posted @ 2013-03-28 15:54 tywen 阅读(170) 评论(0) 推荐(0)

2013年3月26日

摘要: 原文地址:http://blog.csdn.net/huagong_adu/article/details/7362908一、协同过滤算法描述 推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给用户,现在很多电子商务网站都有这个应用。目前用的比较多、比较成熟的推荐算法是协同过滤(Collaborative Filtering,简称CF)推荐算法,CF的基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。 如图1所示,在CF中,用m×n的矩阵表示用户对物品的喜好情况,一般用打分表示用户对物品的喜好程度,分数越高表示越喜欢这个物品,0表示没有买过该物品。图中行 阅读全文
posted @ 2013-03-26 08:13 tywen 阅读(342) 评论(0) 推荐(0)

2013年3月25日

摘要: 支持向量机通俗导论(理解SVM的三层境界)作者:July、pluskid;致谢:白石。出处:结构之法算法之道blog。http://blog.csdn.net/v_july_v/article/details/7624837前言第一层、了解SVM 1.0、什么是支持向量机SVM 1.1、线性分类 1.2、线性分类的一个例子 1.3、函数间隔Functional margin与几何间隔Geometrical margin 1.3.1、函数间隔Functional margin 1.3.2、点到超平面的距离定义:几何间隔Geometrical margin 1.4、最大间隔分类器Maximu... 阅读全文
posted @ 2013-03-25 15:36 tywen 阅读(261) 评论(0) 推荐(0)

2013年3月22日

摘要: http://blog.sina.com.cn/s/blog_4bb0eeb40100dm8a.htmlfclose :关闭文件fopen :打开文件fread :从文件中读入二进制数据fwrite :把二进制数据写入文件fgetl :逐行从文件中读取数据并放弃换行符fgets :从文件中读取行,保留换行符并把行作为字符串返回fprintf:把格式化数据写入文件fscanf :从文件中读取格式化数据feof :测试文件是否结束ferror:测试文件输入输出错误信息frewind:文件指针归零fseek :设置文件位置指针ftell :获取文件位置指针sprintf:把格式化数据写入一个字符串s 阅读全文
posted @ 2013-03-22 23:41 tywen 阅读(652) 评论(0) 推荐(0)

2013年3月21日

摘要: (zz from Dahua's blog)Belief propagation是machine learning的泰斗J. Pearl的最重要的贡献。对于统计学来说,它最重要的意义就是在于提出了一种很有效的求解条件边缘概率(conditional marginal probability)的方法。说的有点晦涩了,其实所谓求解条件边缘概率,通俗地说,就是已知某些条件的情况下,推导另外某些事件发生的概率。如果涉及的因素只有那么几个,一个学过概率论的大学生就可以使用简单的概率公式计算出来。可是,在现实世界中有成千上万的因素,它们相互联系,如果按照传统方法,就要对数以千计的变量进行积分。考虑 阅读全文
posted @ 2013-03-21 21:41 tywen 阅读(176) 评论(0) 推荐(0)

导航