摘要:一、二元变量距离二、划分法:K-means聚类(需要确定K)三、层次法:分层聚类(需终止条件)*BIRCH:集成分层聚类(CF-tree)*CURE:使用代表聚类四、基于密度的聚类:DBSCAN1.直接密度可达:2.密度可达:3.密度连通:五、基于网格的聚类:STING(统计信息网格)六、Outlier检测1.统计方法:多数情况下不知道数据分布2.index-based algorithm3.nested-loop algorithm4.cell-based algorithm
阅读全文
摘要:一、基本概念支持度:support(a→b)=P(ab)置信度:confidence(a→b)=P(b|a)=P(ab)/P(a)相关性:Lift(a→b)=P(ab)/P(a)P(b)二、Aprior算法*Partition:扫描两遍数据库将数据分块,第一遍每块选出频繁集,第二遍找出全局频繁集。*DHP:减少candidate数量*DIC:减少扫描次数三、FP-tree四、挖掘多层关联规则1.uniform support:层间支持度相同,若祖先不频繁,则其后代也不频繁,可剪枝。2.reduced support:层间支持度递减,若祖先不满足本层最小支持度,其后代可能满足,若剪枝会丢失频繁项
阅读全文
摘要:一、决策树:tree construction & tree pruninga.ID3算法Gain(A)=Entropy(S) - Σ(Sv/S)*Entropy(Sv)b.C4.5算法GainRatio(A)=Gain(A)/SplitInfo(A)SplitInfo(A)=-Σ(Sv/S)log(Sv/S)c.Gini Index算法定义Gini系数如下:若将数据分成两个子集,则分割后的Gini系数为:提供最小的Ginisplit就被选为分割的标准。二、朴素贝叶斯分类p(c|x1…xn)=p(c)*p(x1|c)…*p(xn|c)/Σp(c)*p(x1|c)…*p(xn|c)三、B
阅读全文
摘要:1.数据描述:均值mean(x)=1/n*Σxi,加权均值wieghted-mean(x)=Σwixi/Σwi;中值median;众数mode。经验公式:mean-mode=3*(mean-median)。1/4和3/4分位数;总体方差σ和样本方差s。2.数据清理:对缺失数据忽略/填充,对噪声数据进行平滑(装箱Binning,回归Regression,聚类Clustering)a.等宽装箱(distance),等深装箱(frequency)b.回归c.聚类3、数据转换(去量纲)a.最小值-最大值标准化:b.Z-score标准化:c.小数点标准化:4.数据集成(相关分析、卡方检验)a.相关性系数
阅读全文
摘要:一、数据仓库定义:面向主题、集成的、时变的、非易失的数据集合,并支持管理决策。数据仓库(联机分析处理OLAP)VS 数据库系统(联机事务处理OLTP):OLTP面向顾客用于查询处理,OLAP面向分析员用于数据分析;OLTP管理当前数据,OLAP管理大量历史数据;OLTP采用ER模型,OLAP采用星形或雪花模型。OLAP操作:上卷、下钻、切片、转轴。三层数据仓库结构:底层数据仓库服务器、中间层OLAP服务器、顶层客户。索引OLAP数据:位图索引。相比散列与树索引,位图索引把比较连接聚集等操作变成位运算,减少运行时间;字符串用位表示降低了空间和I/O开销。
阅读全文
摘要:一、BP神经网络BP神经网络模型如下,其目的是根据实际的输入与输出数据计算模型的权系数(误差反传),BP神经网络结构如下:假设有p个训练样本,即有p个输入输出对。输入向量为:Ip(ip1,…ipn)',实际输出为:Tp=(tp1,…tpn)',理论输出为:Op=(Op1,…,Opn)'。目标是根据极小原则不断修改权系数使实际输出与理论输出之差最小化,即minΣ(tpi-Opi)2,算法伪代码如下(其中l为学习率):BP建模步骤:a.初始化权值w(赋一随机值rand(1))和阈值sita(偏差)b.通过激发函数(如Sigmoid函数)正向传播输入c.通过更新权值w和阈值s
阅读全文
摘要:一、Jensen不等式若f为区间I上的凹函数,则Jensen不等式成立:这里若函数f为凹函数,则有:凹函数(上凸)如下图所示:归纳证明:Jessen不等式是凹函数的基本性质,在信息论中经常用到,常见的凹函数如下图:二、信息论1.熵(信息不确定性度量)2.联合熵3.条件熵4.互信息(信息增益)5.交叉...
阅读全文
摘要:一、决策树学习(适用于“属性-值”实例且输出值离散)决策树学习是一种逼近离散值目标函数的方法,这个方法学到的函数称为一棵决策树。学到的决策树可表示为多个if-then过程以提高可读性。主要算法有:ID3、ASSISTANT、C4.5。决策树的节点表示某个属性,每个分支对应一个属性值,叶子结点为实例所属的分类,整个决策树是实例属性值的合取析取式。图例如下:该决策树的表达式:二、ID3算法(每次选信息增益最大的属性)ID3算法步骤:a.对当前例子集合,计算各属性的信息增益b.选择信息增益最大的属性Aic.在Ai处取相同值的例子归于同一个子集,Ai取几个值就得几个子集d.依次对每种取值情况下的子集,
阅读全文