04 2016 档案

Adaboost
摘要:Adaboost 输入: D - 包含d个样本的训练元组集 k - 分类器数目 算法: D中每个元组权重初始化为1/d for i = 1 to k do 根据元组权重从D中有放回抽取样本,得到训练子集Di 使用Di训练弱分类器Mi 计算Mi错误率 如果分类正确,err(Xj)=0 否则为1 if 阅读全文

posted @ 2016-04-28 21:25 IvanSSSS 阅读(181) 评论(0) 推荐(0)

离群点分析
摘要:Statistical Model 假设其服从某分布,计算对应值在该分布下的概率,如果概率过低则为离群点。 缺点:数据只有服从了该分布才有效 Distance-based Model 主要思想:如果p点周围的数据点太少,则为离群点 ε-neighborhood = N(p) p is outlier 阅读全文

posted @ 2016-04-24 21:46 IvanSSSS 阅读(1128) 评论(0) 推荐(0)

weka中TF-IDF设置
摘要:经典TF-IDF=tf*log(N/n) 在weka中StringToWordVector: IDFTransform=true, TFTransform=false, ouputWordCounts=True 才对 之前一直没设置ouputWordCounts... 坑比... 阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(587) 评论(0) 推荐(0)

FP树
摘要:Apriori算法需要产生大量候选项集,重复计算support_count 把事务集中关联信息及count记录在树上,扫描树即可 FP树主要分成两步 = FP树构建 + FP树挖掘 构造初始FP树 => 挖掘FP树获得条件模式基 => 构造条件FP树 => 挖掘条件FP树 => ... 如此递归直至 阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(1354) 评论(0) 推荐(0)

关联规则
摘要:关联规则 项的集合T={I1,I2,...Im} 事务集D 每个事务t∈D, t由T中某些项组成。 关联规则:A=>B support(A=>B)=P(A∪B) confidence(A=>B)=P(B|A)=support(A∪B)/support(A)=count(A∪B)/count(A) f 阅读全文

posted @ 2016-04-22 13:10 IvanSSSS 阅读(395) 评论(0) 推荐(0)

自编码算法与稀疏性
摘要:前一章神经网络是有监督学习的,自编码神经网络是无监督学习的,使用反向传播算法,让目标值=输入值。 1)隐藏层单元数少 迫使神经网络进行数据压缩,找到有趣的结构,与PCA相似 做法和普通神经网络一样,只是y=x 2)隐藏层单元数多 给隐藏层加入稀疏性限制 - 对sigmoid函数来说,输出接近1为激活 阅读全文

posted @ 2016-04-22 13:08 IvanSSSS 阅读(234) 评论(0) 推荐(0)

神级网络 - UFLDL教程笔记
摘要:激活函数: 1)sigmoid函数 - 值域(0,1) 2)tanh函数 - 值域(-1,1) 两个函数都扩展至向量表示: - 网络层数 - 第l层的节点数(不包括偏置单元) - 第l层第j单元 与 第l+1层第i单元之间的连接参数,大小为 - 第l+1层第i单元的偏置项 - 第l层的激活值 - 第 阅读全文

posted @ 2016-04-21 22:57 IvanSSSS 阅读(187) 评论(0) 推荐(0)

聚类算法总结
摘要:K-measns Clustering 1)Original k-means clustering 最经典的聚类算法 缺点一个是k的选择,另一个是init是随机点,最后cluster的结果可能不同,需要测量多次。 2)Sequential k-means clustering 采用增量学习 3)Fo 阅读全文

posted @ 2016-04-12 00:49 IvanSSSS 阅读(1526) 评论(0) 推荐(0)

导航