Leo Zhang

A simple man with my own ideal

2012年6月25日 #

OWL-QN算法

摘要:OWL-QN算法 优点: 1、不用直接计算Hessian矩阵; 2、通过迭代的方式用一个近似矩阵代替Hessian矩阵的逆矩阵。 缺点: 1、矩阵存储量为,因此维度很大时内存不可接受; 2、矩阵非稀疏会导致训练速度慢。 阅读全文

posted @ 2012-06-25 13:08 Leo Zhang 阅读 (15475) 评论 (5) 编辑

2012年2月24日 #

Stochastic Gradient Descent

摘要:一、从Multinomial Logistic模型说起 阅读全文

posted @ 2012-02-24 17:13 Leo Zhang 阅读 (14584) 评论 (12) 编辑

2012年2月10日 #

Spectral Clustering

摘要:Spectral Clustering(谱聚类)是一种基于图论的聚类方法,它能够识别任意形状的样本空间且收敛于全局最有解,其基本思想是利用样本数据的相似矩阵进行特征分解后得到的特征向量进行聚类,可见,它与样本feature无关而只与样本个数有关。 阅读全文

posted @ 2012-02-10 10:57 Leo Zhang 阅读 (23706) 评论 (14) 编辑

2011年12月29日 #

Gradient And Karush-Kuhn-Tucker Conditions

摘要:最近开始面试,复习当中发现自己有很多基础的东西有些模糊,借此温故而知新一下,并提醒自己基础很重要,踏踏实实、戒骄戒躁。 一、梯度是什么? 1、一个小例子 假设有单变量实值... 阅读全文

posted @ 2011-12-29 14:23 Leo Zhang 阅读 (5842) 评论 (7) 编辑

2011年10月8日 #

Mahout学习——K-Means Clustering

摘要:K-Means这个词第一次使用是在1967,但是它的思想可以追溯到1957年,它是一种非常简单地基于距离的聚类算法,认为每个Cluster由相似的点组成而这种相似性由距离来衡量,不同Clu... 阅读全文

posted @ 2011-10-08 13:00 Leo Zhang 阅读 (19036) 评论 (16) 编辑

2011年9月23日 #

Mahout学习——Canopy Clustering

摘要:聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、a large number of clusters,(2)、a high feature dimensionality,(3)、a large number of data points。在这三种情况下,尤其是三种情况都存在时,聚类的计算代价是非常高的,有时候聚类都无法进行下去,于是出现一种简单而又有效地方法:Canopy Method,说简单是因为它不用什么高深的理论或推导就可以理解,说有效是因为它的实际表现确实可圈可点。 阅读全文

posted @ 2011-09-23 17:30 Leo Zhang 阅读 (17539) 评论 (12) 编辑

2011年9月20日 #

Hadoop初体验——搭建hadoop简单实现文本数据全局排序

摘要:之前在实现一些机器学习算法时,跑数据量、feature很多的数据集往往要耗费很多时间,尤其是处理大量文本数据时候,单机跑算法的时间让我无法容忍,理论上如果合理的将大数据量分布式并行计算框架... 阅读全文

posted @ 2011-09-20 14:21 Leo Zhang 阅读 (7523) 评论 (6) 编辑

2011年8月25日 #

SVM学习——Improvements to Platt’s SMO Algorithm

正文内容加载中...

posted @ 2011-08-25 09:35 Leo Zhang 阅读 (5946) 评论 (15) 编辑

2011年6月1日 #

SVM学习——Sequential Minimal Optimization

摘要:1、前言 接触SVM也有一段时间了,从理论到实践都有了粗浅的认识,我认为SVM的发展可以划分为几个相对独立的部分,首先是SVM理论本身,包括寻找最大间隔分类超平面、引入核方法极大提高对非线性问题的处... 阅读全文

posted @ 2011-06-01 23:15 Leo Zhang 阅读 (12991) 评论 (8) 编辑

2011年3月22日 #

Cholesky分解

摘要:1、为什么要进行矩阵分解 个人认为,首先,当数据量很大时,将一个矩阵分解为若干个矩阵的乘积可以大大降低存储空间;其次,可以减少真正进行问题处理时的计算量,毕竟算法扫描的元素越少完成任务的速度越快,这... 阅读全文

posted @ 2011-03-22 15:28 Leo Zhang 阅读 (16163) 评论 (21) 编辑

导航

统计信息