04 2013 档案
PCA算法简介
摘要:PCA是一种能够通过提取数据主成分达到数据降维目的的无监督算法。因为数据之间(如自然图像的像素值)间都是存在冗余的,通过PCA可以将维度为256降到一个较低的近似向量。通过一个2D降到1D的例子来理解一下PCA的原理。假设有如下一堆二维数据,我们通过SVD奇异值变换可以找到,代表这堆数据的两个方向(特征向量的方向,为什么是特征向量,特征值呢?)怎么进行SVD变换呢?我们先计算这堆数据的协方差矩阵如下:数据变化的主方向就是sigma的主特征向量,次方向就是sigma的次特征向量。接下来我们计算旋转后的数据(也就是说把数据投影到以这两个特征方向为坐标轴的坐标平面内)如图:当我们只选取前面的k个主特
阅读全文
regularized 线性回归练习
摘要:在机器学习中,如果参数很多,而样本数量比较少,很容易产生过拟合问题。因此在函数的损失模型中加入惩罚系数,这些参数一般都会很小,而越小的参数,模型越简单,越不会产生过拟合问题。参考的网页资源为:http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex5/ex5.html实验原理: 假设对于一个由10个点组成的样本,要拟合一条曲线来表示。如果想采取高次多项式预测表示,如下: 那么现在我们有了模型的六个特征,分别对应的六个预测参数。如果用这...
阅读全文
hadoop学习笔记(一)--简介
摘要:Hadoop 是什么?Hadoop是一个提供分布式存储和计算能力的,具有对大型数据集的数据分割和并行计算的能力的平台。由上千台hosts组成的cluster(云)可以达到千兆级的存储和计算能力。一个Hadoop平台的核心组成有两个:分布式的计算(利用的是一个MapReduce的框架)和分布式的存储(一个分布式的文件系统叫做HDFS),高层次的结构图如下:HDFS:MapReduce:程序员要做的事情就是定义map和reduce函数,map函数用来输出key/value tuples,然后交给reduce函数生成最后的输出。伪代码如下:map函数有可能产生零个或者多个输出,当条件不满足时,产生零
阅读全文
多线程和多进程的区别
摘要:多线程和多进程的区别(小结)很想写点关于多进程和多线程的东西,我确实很爱他们。但是每每想动手写点关于他们的东西,却总是求全心理作祟,始终动不了手。今天终于下了决心,写点东西,以后可以再修修补补也无妨。一.为何需要多进程(或者多线程),为何需要并发?这个问题或许本身都不是个问题。但是对于没有接触过多进程编程的朋友来说,他们确实无法感受到并发的魅力以及必要性。我想,只要你不是整天都写那种int main()到底的代码的人,那么或多或少你会遇到代码响应不够用的情况,也应该有尝过并发编程的甜头。就像一个快餐点的服务员,既要在前台接待客户点餐,又要接电话送外卖,没有分身术肯定会忙得你焦头烂额的。幸运的是
阅读全文
Linear Regression练习
摘要:前言 本文是多元线性回归的练习,这里练习的是最简单的二元线性回归,参考斯坦福大学的教学网http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex2/ex2.html。本题给出的是50个数据样本点,其中x为这50个小朋友到的年龄,年龄为2岁到8岁,年龄可有小数形式呈现。Y为这50个小朋友对应的身高,当然也是小数形式表示的。现在的问题是要根据这50个训练样本,估计出3.5岁和7岁时小孩子的身高。通过画出训练样本点的分布凭直觉可以发现这是一个典型的线性回
阅读全文
(转)神奇的贝叶斯
摘要:数学之美番外篇:平凡而又神奇的贝叶斯方法BY刘未鹏–SEPTEMBER 21, 2008POSTED IN:数学,机器学习与人工智能,计算机科学概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记目录0. 前言1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式2. 拼写纠正3. 模型比较与贝叶斯奥卡姆剃刀
阅读全文
浙公网安备 33010602011771号