随笔档案「2016年4月」 - IvanSSSS

Adaboost

摘要：Adaboost 输入： D - 包含d个样本的训练元组集 k - 分类器数目算法： D中每个元组权重初始化为1/d for i = 1 to k do 根据元组权重从D中有放回抽取样本，得到训练子集Di 使用Di训练弱分类器Mi 计算Mi错误率如果分类正确，err(Xj)=0 否则为1 if 阅读全文

posted @ 2016-04-28 21:25 IvanSSSS 阅读(181) 评论(0) 推荐(0)

离群点分析

摘要：Statistical Model 假设其服从某分布，计算对应值在该分布下的概率，如果概率过低则为离群点。缺点：数据只有服从了该分布才有效 Distance-based Model 主要思想：如果p点周围的数据点太少，则为离群点 ε-neighborhood = N(p) p is outlier 阅读全文

posted @ 2016-04-24 21:46 IvanSSSS 阅读(1128) 评论(0) 推荐(0)

weka中TF-IDF设置

摘要：经典TF-IDF=tf*log(N/n) 在weka中StringToWordVector： IDFTransform=true, TFTransform=false, ouputWordCounts=True 才对之前一直没设置ouputWordCounts... 坑比... 阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(587) 评论(0) 推荐(0)

FP树

摘要：Apriori算法需要产生大量候选项集，重复计算support_count 把事务集中关联信息及count记录在树上，扫描树即可 FP树主要分成两步 = FP树构建 + FP树挖掘构造初始FP树 => 挖掘FP树获得条件模式基 => 构造条件FP树 => 挖掘条件FP树 => ... 如此递归直至阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(1354) 评论(0) 推荐(0)

关联规则

摘要：关联规则项的集合T={I1,I2,...Im} 事务集D 每个事务t∈D， t由T中某些项组成。关联规则：A=>B support(A=>B)=P(A∪B) confidence(A=>B)=P(B|A)=support(A∪B)/support(A)=count(A∪B)/count(A) f 阅读全文

posted @ 2016-04-22 13:10 IvanSSSS 阅读(395) 评论(0) 推荐(0)

自编码算法与稀疏性

摘要：前一章神经网络是有监督学习的，自编码神经网络是无监督学习的，使用反向传播算法，让目标值=输入值。 1）隐藏层单元数少迫使神经网络进行数据压缩，找到有趣的结构，与PCA相似做法和普通神经网络一样，只是y=x 2）隐藏层单元数多给隐藏层加入稀疏性限制 - 对sigmoid函数来说，输出接近1为激活阅读全文

posted @ 2016-04-22 13:08 IvanSSSS 阅读(234) 评论(0) 推荐(0)

神级网络 - UFLDL教程笔记

摘要：激活函数： 1）sigmoid函数 - 值域(0,1) 2）tanh函数 - 值域(-1,1) 两个函数都扩展至向量表示： - 网络层数 - 第l层的节点数（不包括偏置单元） - 第l层第j单元与第l+1层第i单元之间的连接参数，大小为 - 第l+1层第i单元的偏置项 - 第l层的激活值 - 第阅读全文

posted @ 2016-04-21 22:57 IvanSSSS 阅读(187) 评论(0) 推荐(0)

聚类算法总结

摘要：K-measns Clustering 1)Original k-means clustering 最经典的聚类算法缺点一个是k的选择，另一个是init是随机点，最后cluster的结果可能不同，需要测量多次。 2)Sequential k-means clustering 采用增量学习 3)Fo 阅读全文

posted @ 2016-04-12 00:49 IvanSSSS 阅读(1526) 评论(0) 推荐(0)

04 2016 档案