上一页 1 ··· 69 70 71 72 73 74 75 76 77 ··· 119 下一页

2013年11月12日

典型关联分析

摘要: 1. 问题 在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。其中,。然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。 当然我们仍然可以使用回归的方法来分析,做法如下: 假设,,... 阅读全文

posted @ 2013-11-12 20:27 代码王子 阅读(654) 评论(0) 推荐(0)

ICA

摘要: 1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房... 阅读全文

posted @ 2013-11-12 20:25 代码王子 阅读(668) 评论(0) 推荐(0)

PCA

摘要: PCA(Principal Component Analysis),称主成分分析,从统计学的角度来说是一种多元统计方法。PCA通过将多个变量通过线性变换以选出较少的重要变量。它往往可以有效地从过于“丰富”的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,将原来复杂的数据降维,揭... 阅读全文

posted @ 2013-11-12 20:22 代码王子 阅读(272) 评论(0) 推荐(0)

LDA主题模型

摘要: (一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: ... 阅读全文

posted @ 2013-11-12 16:46 代码王子 阅读(381) 评论(0) 推荐(0)

FPGrowth 实现

摘要: 在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。 支持度和置信度 严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁... 阅读全文

posted @ 2013-11-12 15:29 代码王子 阅读(327) 评论(0) 推荐(0)

数据库事务的4个特性ACID

摘要: 原子性(Atomicity[ætə'mɪsɪti])原型atomic、一致性(Consistency)、隔离性(Isolation)、持久性(Durability) 阅读全文

posted @ 2013-11-12 14:51 代码王子 阅读(112) 评论(0) 推荐(0)

redis简介(keeper实时报表的基本部分)

摘要: 网上有一篇介绍Redis的文章,由浅入深地讲解了Redis:http://blog.mjrusso.com/2010/10/17/redis-from-the-ground-up.html。强烈建议对Redis有兴趣或需要使用的朋友阅读这篇文章。 提到Redis,第一反应就是内存k/v缓存,并且... 阅读全文

posted @ 2013-11-12 14:16 代码王子 阅读(202) 评论(0) 推荐(0)

HADOOP中的CRC数据校验文件

摘要: Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件(.crc文件),并在读写的时候进行校验,确保数据的准确性。在本地find -name *.crc -print 看 比如我们遇到的这个Case: 执行的命令: hadoop jar dw-hadoop-2010_7_... 阅读全文

posted @ 2013-11-12 13:58 代码王子 阅读(248) 评论(0) 推荐(0)

2013年11月11日

潜在语义分析

摘要: 1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法... 阅读全文

posted @ 2013-11-11 17:40 代码王子 阅读(693) 评论(0) 推荐(0)

AdaBoost 算法

摘要: AdaBoost算法针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(强分类器)。理论证明,只要每个弱分类器分类能力比随机猜测要好,当其个数趋向于无穷个数时,强分类器的错误率将趋向于零。AdaBoost算法中不同的训练集是... 阅读全文

posted @ 2013-11-11 17:40 代码王子 阅读(117) 评论(0) 推荐(0)

上一页 1 ··· 69 70 71 72 73 74 75 76 77 ··· 119 下一页

导航