Data Mining - 随笔分类 - liangzh123

距离和相似度度量

摘要：在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3, … xn），Y=（y1, y2, y3, … yn）。下面来看看主要可以用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。距离度量距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说明个体间的差异.. 阅读全文

posted @ 2013-04-26 10:10 liangzh123 阅读(895) 评论(0) 推荐(0)

奇异值分解SVD--几个实例

摘要：SVD is extraordinarily useful and has many applications such as data analysis, signal processing, pattern recognition, image compression, weather prediction, and Latent Semantic Analysis or LSA (also referred to as Latent Semantic Indexing or LSI).1，Data compressionSingular value decompositions can 阅读全文

posted @ 2013-04-25 20:00 liangzh123 阅读(1331) 评论(0) 推荐(0)

奇异值分解SVD--简单理论

摘要：一，线性变换我们用简单的(2 x 2)矩阵说明，对一线性变换M:M是对角矩阵，点(x,y)通过线性变换后转化为：上述变换过程几何上可呈现为：可以看出平面水平方向拉伸为原来的三倍，竖直方向未变。对于另一线性变换M：M是对称矩阵，点(x,y)通过线性变换后转化为：上面这个转换直观上并不容易能看出来，我们可以旋转45度：可以看出当旋转坐标后，对应坐标沿某一方向拉伸了三倍。事实上，对于任意的一个对称矩阵M(非奇异的)，线性变换都能像上面一样，先旋转坐标，然后沿某个方向拉伸或收缩坐标。对一对称矩阵M, 我们求其特征向量和特征值：Mvi = λivi ，从几何学的角度看，vi乘以M, 就相当于对vi作λi 阅读全文

posted @ 2013-03-05 20:38 liangzh123 阅读(1364) 评论(0) 推荐(0)

主成分分析PCA--理论基础

摘要：整个PCA过程貌似及其简单，就是求协方差的特征值和特征向量，然后做数据转换。但是有没有觉得很神奇，为什么求协方差的特征向量就是最理想的k维向量？其背后隐藏的意义是什么？整个PCA的意义是什么？要解释为什么协方差矩阵的特征向量就是k维理想特征，我看到的有三个理论：分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种，最后一种在讨论PCA意义时简单概述。1 最大方差理论在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。如前面的图，样本在横轴上的投影方差较大，在纵轴上的投影方差较小，那么认为纵轴上的投影是由噪声引起的。因此我们认为，最好阅读全文

posted @ 2012-12-13 19:46 liangzh123 阅读(795) 评论(0) 推荐(0)

主成分分析PCA--计算过程

摘要：1. 问题真实的训练数据总是存在各种各样的问题：1、比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。2、拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考试成绩。我们知道要学好数学，需要有浓厚的兴趣，所以第二项与第一项强相关，第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢？3、拿到一个样本，特征非常多，而样例特别少，这样用回归去直接拟合非常困难，容易过度拟合。比如北京的房价：假设房子的特征是（大小、位置、朝向、是否学区房、建造年代、是否二手、阅读全文

posted @ 2012-12-13 19:37 liangzh123 阅读(3091) 评论(0) 推荐(0)

Sum of squares

摘要：给定一个线性回归模型 yi = β0 + β1xi1 +…+ βpxi1 + εi 对应数据集(xi1, xi2,…, xip, yi), i=1,…,n，包含n个观察数据. β是系数，ε 是误差项表示y的期望，就是离差(deviation)，注意不是方差(variance); 表示对yi预测的阅读全文

posted @ 2012-12-11 19:59 liangzh123 阅读(1349) 评论(0) 推荐(0)

情感分析简述

摘要：情感分析，我研究了也有半年有余了，号称看遍ACL上关于情感分析的论文，但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述，引用的论文基本上是ACL和COLING还有EMNLP上历年关于情感分析的论文，本文应该学术性比较强一点，本文虽不打算发表，但由于将来可能还有用，以及关于学术上的原因，请大家如果要引用请务必标明出处（http://blog.sina.com.cn/s/blog_48f3f8b10100irhl.html）。概述情感分析自从2002年由Bo Pang提出之后，获得了很大程度的研究的，特别是在在线评论的情感倾向性分析上获得了很大的发展，目前基于在线评论文阅读全文

posted @ 2012-11-07 16:28 liangzh123 阅读(1285) 评论(0) 推荐(0)

SVM(2)--Linear Nonseparable

摘要：左边的是线性可分的(Separable),margin = 2M = 2/||w||，右边的是线性不可分(Nonseparable)，其中标有 ξ 的点是在它们边界的另一边(未正确区分的点)，离边界 ξ∗j = Mξj 。所有正确可分的点有 ξ∗j = 0. 因此 ∑ ξ∗j 就是所有未正确区分点偏离距离，我们在最大化margin时要限制 ∑ ξ∗j ≤ constant C.我们用soft margin(a decision boundary that is tolerable to small training errors)，这个margin需要权衡margin的大小和允许错误区分点的个阅读全文

posted @ 2012-10-25 21:23 liangzh123 阅读(298) 评论(0) 推荐(0)

SVM(1)--Linear separable

摘要：Our training data consists of m tuples (x(1), y(1)), (x(2), y(2)), . . . , (x(m), y(m)), where x(i) = (x(i1), x(i2), …,x(id))T and y(i) ∈ {−1, 1},denote the class label. The hyperplane(decision boundary) of a linear classifier can be written in the following form: wTx + b = 0, where w and b are para 阅读全文

posted @ 2012-10-25 15:03 liangzh123 阅读(370) 评论(0) 推荐(0)

Several concepts in Data Mining

摘要：Data Mining tasksPredictive tasks:---Classification (which is used for discrete target variables)---Regression (which is used for continuous target variables)Descriptive tasks:---Association analysis (to discover patterns that describe strongly associated features in the data)---Cluster analysis (to 阅读全文

posted @ 2012-10-19 21:16 liangzh123 阅读(607) 评论(0) 推荐(0)

随笔分类 - Data Mining