随笔分类 -  机器学习

Boosting and Its Application in LTR
摘要:1 Boosting概述2 Classification and Regression Tree3 AdaBoost3.1 算法框架3.2 原理:Additive Modeling4 Gradient Boosting Machine4.1 理论基础:Numerical Optimization4.... 阅读全文

posted @ 2014-10-24 10:25 zjgtan 阅读(287) 评论(0) 推荐(0)

topic model
摘要:0、基石——贝叶斯推断计算后验概率即为我们对参数的估计:其中: ——输入数据 ——待估计的参数 ——似然分布 ——参数的先验分布对新样本的预测:我们要估计的概率1、常用的概率分布Dirichlet Distribution2、文本建模2.1 基本模型——unigram model最基本的一种文本模型。我们做这样的假设:语料库是从词表中独立的抽取的个。有似然方程其中是t... 阅读全文

posted @ 2014-08-08 23:45 zjgtan 阅读(1232) 评论(1) 推荐(0)

PLSA的EM推导
摘要:本文作为em算法在图模型中的一个应用,推导plsa的em算法。1 em算法em算法是解决一类带有隐变量模型的参数估计问题。1.1 模型的定义输入样本为,对应的隐变量为。待估计的模型参数为,目标为极大化似然函数对于上式的优化,不能通过直接对进行求导,因为一旦求导,就有如下的形式:显然是不好求的。1.2 em算法的迭代过程a. 初始化:随机初始参数的b. E step: 计算... 阅读全文

posted @ 2014-08-02 16:27 zjgtan 阅读(5118) 评论(0) 推荐(2)

特征处理:一点经验
摘要:一、特征向量的归一化 特征向量的归一化是列向的,也就是针对的每一维特征 1、线性函数转换,表达式如下: y=(x-MinValue)/(MaxValue-MinValue) 2、对数函数转换,表达式如下: y=log10(x) 3、反余切函数转换 ,表达式如下: y=arc... 阅读全文

posted @ 2014-07-30 17:06 zjgtan 阅读(285) 评论(0) 推荐(0)

Mahout源码目录说明
摘要:Mahout源码目录说明mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍:1、mahout-core:核心程序模块,位于/core目录下;2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下;3、mahout... 阅读全文

posted @ 2014-06-17 20:21 zjgtan 阅读(1997) 评论(0) 推荐(0)

和机器学习和计算机视觉相关的数学
摘要:和机器学习和计算机视觉相关的数学(2010-12-08 13:29:40)转载▼标签:杂谈1. 线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是Introduction to Linear Algebra (3rd Ed.)by Gilbert Strang.这本书是MIT的线性代数课使用的教材,也是被很多其它大学选用的经典教材。它的难度适中,讲解清晰,重要的是对许多核心的 阅读全文

posted @ 2014-03-07 08:32 zjgtan 阅读(1212) 评论(0) 推荐(0)

learning to rank
摘要:Optimizing Search Engines using Clickthrough Data.Thorsten Joachims. SIGKDD,2002. ranksvmLETOR: Benchmark Dataset for Research onLearning to Rank for Information Retrieval 数据集Are Click-through Data Adequate for Learning Web SearchRankings? 点击数据的特征用户查询日志(SogouQ)http://www.datatang.com/data/43844A Reg 阅读全文

posted @ 2014-02-26 15:46 zjgtan 阅读(695) 评论(0) 推荐(0)

机器学习:一些感想
摘要:1、我们有什么?我们有训练集:{x(i), y(i)}2、我们想要做什么?对于一个新的样本x输入进来,我们能够把y预测的准。3、问题有哪些?输出空间y: 连续:回归问题 离散:分类问题训练集: 有监督: 无监督: 半监督:4、怎么做? 构建目标函数:训练集合的后验概率最大P(Y|X) 优化:梯度下降5、生成模型做分类? 训练:每个类各自认为服从一个什么分布(高斯、泊松、beta),然后计算P(X|Y=k)的参数。 预测:对于输入样本x,计算各个类的p(y|x)=p(x|y)p(y)/p(x),选择概率最大的y 与判别模型的区别:直接计算p(y|x),生成模型时Baysian... 阅读全文

posted @ 2014-02-19 23:55 zjgtan 阅读(393) 评论(0) 推荐(0)

矩阵分解 推荐
摘要:http://www.zhenv5.com/?p=1069 阅读全文

posted @ 2014-02-13 16:28 zjgtan 阅读(190) 评论(0) 推荐(0)

cross validation
摘要:k-folder cross-validation:k个子集,每个子集均做一次测试集,其余的作为训练集。交叉验证重复k次,每次选择一个子集作为测试集,并将k次的平均交叉验证识别正确率作为结果。优点:所有的样本都被作为了训练集和测试集,每个样本都被验证一次。10-folder通常被使用。K * 2 folder cross-validation是k-folder cross-validation的一个变体,对每一个folder,都平均分成两个集合s0,s1,我们先在集合s0训练用s1测试,然后用s1训练s0测试。优点是:测试和训练集都足够大,每一个个样本都被作为训练集和测试集。一般使用k=10l 阅读全文

posted @ 2013-09-24 09:26 zjgtan 阅读(1816) 评论(0) 推荐(0)

libsvm使用简介
摘要:libsvm是support vector machine的一种开源实现,采用了smo算法。源代码编写有独到之处,值得一睹。常用结构svm_node结构定义了构成输入特征向量的元素,index为索引(= -1为最后一个元素),value为值,public class svm_node implements java.io.Serializable{ public int index; public double value;}借鉴了稀疏矩阵的表示方法。对于一个输入向量,定义为svm_node构成的一维数组svm_node[] pa = {pa0, pa1};所有输入序列有一个二维数... 阅读全文

posted @ 2013-09-06 16:32 zjgtan 阅读(944) 评论(0) 推荐(0)

SVM浅析
摘要:系列博客机器学习总结,主要参考书目《统计学习方法》--李航,涉及数学公式较多,以图片的形式表现。SVM是经典的线性分类方法,通过线性映射投射到希尔伯特空间(完备的赋范内积空间)得到了无穷维的非线性分类能力。 阅读全文

posted @ 2013-09-03 10:40 zjgtan 阅读(614) 评论(0) 推荐(1)

拉格朗日对偶问题
摘要:系列博客机器学习总结,主要参考书目《统计学习方法》--李航,涉及数学公式较多,以图片的形式表现。 阅读全文

posted @ 2013-09-03 10:22 zjgtan 阅读(6306) 评论(1) 推荐(2)

机器学习(一):生成学习算法Generative Learning algorithms
摘要:前段时间开始研究图像检索,进展困难,于是回归基础,捧起PRML一书,无奈看起来极其晕乎,参考AN的的讲义才有点初步的认识。1、概述:什么是生成学习算法两类学习算法:判别学习算法(discriminative learning algorithm)和生成学习算法(generative learning algorithm)。DLA通过建立输入空间X与输出标注{1, 0}间的映射关系学习得到p(y|x)。而GLA首先确定p(x|y)和p(y),由贝叶斯准则得到后验分布。通过最大后验准则进行预测,也即。2、GDA(Gaussian Discriminant Analysis model)高斯判决模型 阅读全文

posted @ 2013-06-08 20:24 zjgtan 阅读(11000) 评论(0) 推荐(0)

导航