随笔分类 -  机器学习

有关machine learning
【转】互联网时代的社会语言学:基于SNS的文本数据挖掘
摘要:今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty 、 TEDxBeijing 提供的平台... 阅读全文
posted @ 2014-05-22 13:37 ahujack 阅读(290) 评论(0) 推荐(0)
【转】线性判别分析(Linear Discriminant Analysis, LDA)算法分析
摘要:LDA算法入门一.LDA算法概述:线性判别式分析(LinearDiscriminantAnalysis,LDA),也叫做Fisher线性判别(FisherLinearDiscriminant,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵 阅读全文
posted @ 2013-05-24 08:01 ahujack 阅读(198) 评论(0) 推荐(0)
PCA算法简介
摘要:PCA是一种能够通过提取数据主成分达到数据降维目的的无监督算法。因为数据之间(如自然图像的像素值)间都是存在冗余的,通过PCA可以将维度为256降到一个较低的近似向量。通过一个2D降到1D的例子来理解一下PCA的原理。假设有如下一堆二维数据,我们通过SVD奇异值变换可以找到,代表这堆数据的两个方向(特征向量的方向,为什么是特征向量,特征值呢?)怎么进行SVD变换呢?我们先计算这堆数据的协方差矩阵如下:数据变化的主方向就是sigma的主特征向量,次方向就是sigma的次特征向量。接下来我们计算旋转后的数据(也就是说把数据投影到以这两个特征方向为坐标轴的坐标平面内)如图:当我们只选取前面的k个主特 阅读全文
posted @ 2013-04-29 10:27 ahujack 阅读(1101) 评论(0) 推荐(0)
Linear Regression练习
摘要:前言 本文是多元线性回归的练习,这里练习的是最简单的二元线性回归,参考斯坦福大学的教学网http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex2/ex2.html。本题给出的是50个数据样本点,其中x为这50个小朋友到的年龄,年龄为2岁到8岁,年龄可有小数形式呈现。Y为这50个小朋友对应的身高,当然也是小数形式表示的。现在的问题是要根据这50个训练样本,估计出3.5岁和7岁时小孩子的身高。通过画出训练样本点的分布凭直觉可以发现这是一个典型的线性回 阅读全文
posted @ 2013-04-12 15:32 ahujack 阅读(196) 评论(0) 推荐(0)