2013 年 1月随笔档案 - 潘的博客

机器学习-核Fisher LDA算法

摘要：本文在我的上一篇博文机器学习-特征选择(降维) 线性判别式分析(LDA)的基础上进一步介绍核Fisher LDA算法。之前我们介绍的LDA或者Fisher LDA都是线性模型，该模型简单，对噪音的鲁棒性较好，不容易过拟合，但是，简单模型的表达能力会弱一些，为了增加LDA算法的表达能力，我们可以将数据投影到非线性的方向上去。为了达到这个目的，我们可以先将数据非线性的投影到一个特征空间F内，然后在这个F空间内计算Fisher 线性判别式,达到降维的目的。首先介绍一下核函数的概念：如果F空间的维数非常高甚至是无穷维数，那么单纯的只是将原数据投影到F空间就是一个很大的计算量。但是，我们可以并. 阅读全文

posted @ 2013-01-27 21:24 潘的博客阅读(9161) 评论(0) 推荐(0)

机器学习-特征选择(降维) 线性判别式分析(LDA)

摘要：特征选择(亦即降维)是数据预处理中非常重要的一个步骤。对于分类来说，特征选择可以从众多的特征中选择对分类最重要的那些特征，去除原数据中的噪音。主成分分析(PCA)与线性判别式分析(LDA)是两种最常用的特征选择算法。关于PCA的介绍，可以见我的另一篇博文。这里主要介绍线性判别式分析(LDA)，主要基于Fisher Discriminant Analysis with Kernals[1]和Fisher Linear Discriminant Analysis[2]两篇文献。 LDA与PCA的一大不同点在于，LDA是有监督的算法，而PCA是无监督的，因为PCA算法没有考虑数据的标签(类别)，只. 阅读全文

posted @ 2013-01-27 19:50 潘的博客阅读(8325) 评论(2) 推荐(3)

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

摘要：本文主要基于Anand Rajaraman和Jeffrey David Ullman合著，王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。 KMeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。 KMeans算法本身思想比较简单，但是合理的确定K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响。 1. 确定K. 阅读全文

posted @ 2013-01-26 00:36 潘的博客阅读(27293) 评论(8) 推荐(4)

ListNet 算法简介

摘要：排序一直是信息检索的核心问题之一，Learning to Rank(简称LTR)用机器学习的思想来解决排序问题。LTR有三种主要的方法：PointWise，PairWise，ListWise。ListNet算法就是ListWise方法的一种，由刘铁岩，李航等人在ICML2007的论文Learning to Rank:From Pairwise approach to Listwise Approach中提出。 Pairwise方法的实际上是把排序问题转换成分类问题，以最小化文档对的分类错误为目标。但是评估排序结果的好坏通常采用MAP或NDCG等考虑文档排序的方法，所以Pairwise方法的. 阅读全文

posted @ 2013-01-24 17:50 潘的博客阅读(10286) 评论(2) 推荐(2)

PCA算法原理与实现

摘要：本文主要基于同名的两篇外文参考文献A Tutorial on Principal Component Analysis。 PCA，亦即主成分分析，主要用于对特征进行降维。如果数据的特征数非常多，我们可以认为其中只有一部分特征是真正我们感兴趣和有意义的，而其他特征或者是噪音，或者和别的特征有冗余。从所有的特征中找出有意义的特征的过程就是降维，而PCA是降维的两个主要方法之一(另一个是LDA). Jonathon Shlens的论文中举了一个物理学中测试理想情况下弹簧振动的例子，非常生动，详见[1](中文翻译见[5])。我们首先看一下给定一个代表数据记录的矩阵A，如果计算其主成分P，并如何利用. 阅读全文

posted @ 2013-01-13 14:26 潘的博客阅读(6591) 评论(1) 推荐(1)

HIVE QL 杂记

摘要：HIVE QL优化阅读全文

posted @ 2013-01-08 00:24 潘的博客阅读(1439) 评论(0) 推荐(0)

01 2013 档案

机器学习-核Fisher LDA算法

机器学习-特征选择(降维) 线性判别式分析(LDA)

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

ListNet 算法简介

PCA算法原理与实现

HIVE QL 杂记

导航

公告

01 2013 档案

机器学习-核Fisher LDA算法

机器学习-特征选择(降维) 线性判别式分析(LDA)

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

ListNet 算法简介

PCA算法 原理与实现

HIVE QL 杂记

导航

公告

PCA算法原理与实现