随笔分类 -  数据挖掘

SVD及其应用
摘要:出处: 本文转自http://leftnoteasy.cnblogs.com 前言: 上一次写了关于PCA与LDA的 文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在 大部分人的印象中,往往是停留在纯粹的 阅读全文

posted @ 2016-09-18 09:22 IvanSSSS 阅读(684) 评论(1) 推荐(0)

python环境下使用METIS
摘要:环境 ubuntu 14.04 python 2.7 顺便说下我windows下装了anaconda都装不成功....只好转战ubuntu 配置 关于METIS有两个库 - PyMetis & metis 按照PYPI里的说法,pymetis中包含了METIS,而metis只是个wrapper 需要 阅读全文

posted @ 2016-08-31 10:36 IvanSSSS 阅读(6829) 评论(3) 推荐(0)

Adaboost
摘要:Adaboost 输入: D - 包含d个样本的训练元组集 k - 分类器数目 算法: D中每个元组权重初始化为1/d for i = 1 to k do 根据元组权重从D中有放回抽取样本,得到训练子集Di 使用Di训练弱分类器Mi 计算Mi错误率 如果分类正确,err(Xj)=0 否则为1 if 阅读全文

posted @ 2016-04-28 21:25 IvanSSSS 阅读(181) 评论(0) 推荐(0)

离群点分析
摘要:Statistical Model 假设其服从某分布,计算对应值在该分布下的概率,如果概率过低则为离群点。 缺点:数据只有服从了该分布才有效 Distance-based Model 主要思想:如果p点周围的数据点太少,则为离群点 ε-neighborhood = N(p) p is outlier 阅读全文

posted @ 2016-04-24 21:46 IvanSSSS 阅读(1112) 评论(0) 推荐(0)

FP树
摘要:Apriori算法需要产生大量候选项集,重复计算support_count 把事务集中关联信息及count记录在树上,扫描树即可 FP树主要分成两步 = FP树构建 + FP树挖掘 构造初始FP树 => 挖掘FP树获得条件模式基 => 构造条件FP树 => 挖掘条件FP树 => ... 如此递归直至 阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(1353) 评论(0) 推荐(0)

关联规则
摘要:关联规则 项的集合T={I1,I2,...Im} 事务集D 每个事务t∈D, t由T中某些项组成。 关联规则:A=>B support(A=>B)=P(A∪B) confidence(A=>B)=P(B|A)=support(A∪B)/support(A)=count(A∪B)/count(A) f 阅读全文

posted @ 2016-04-22 13:10 IvanSSSS 阅读(391) 评论(0) 推荐(0)

聚类算法总结
摘要:K-measns Clustering 1)Original k-means clustering 最经典的聚类算法 缺点一个是k的选择,另一个是init是随机点,最后cluster的结果可能不同,需要测量多次。 2)Sequential k-means clustering 采用增量学习 3)Fo 阅读全文

posted @ 2016-04-12 00:49 IvanSSSS 阅读(1523) 评论(0) 推荐(0)

导航