随笔列表第3页 - bourneli

2013年7月23日

摘要：背景直观上理解，随机森林通过在构建决策树的过程中将一些行为随机化（比如特征选取，样本选取），产生许多决策树，然后以这些决策树的结果作为投票，将投票最多的预测作为最终结果。随机化的作用是为了减小单个决策树偏倚。基本思路两个参数:随机树个数n和每次选取的特征数m。在构建每一个决策树时，首先有放回的进行N次抽样，N为训练集大小。可以证明，三分之二的样本会选取出来，剩下的三分... 阅读全文

posted @ 2013-07-23 18:59 bourneli 阅读(1152) 评论(3) 推荐(0)

2013年6月30日

R概率分布函数使用小结

摘要：记要今天在计算分类模型自行区间时，用到了R中正太分布的qnorm函数，这里做简单记要，作为备忘。R中自带了很多概率分布的函数，如正太分布，二次分布，卡放分布，t分布等，这些分布的函数都有一个共性，每个分布拥有4个带有d,p,q,r前缀的函数。比如正太分布，有dnorm,pnorm,qnorm和rnorm。这几个前缀的意义如下：d Density的缩写，表示密度函数。举个例子，标准正太分布x=0对应的值可以用dnorm(0)计算p Probability的缩写，表示概率函数。举个例子，标准正太分布从负无穷大到0的概率，可以用pnorm(0)计算q Quantile的缩写，表示分位函数。举个例子，阅读全文

posted @ 2013-06-30 11:40 bourneli 阅读(9059) 评论(1) 推荐(1)

2013年4月22日

Hive的jion性能分析的相关文章

摘要： Hive中小表与大表关联(join)的性能分析 http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html要点：重复度较小的表（比如纬度表）放在前面，可以使得reduce过程中的检查过程变少，提高效率一骑绝尘引发的思考–关于hive程序员是否需要学习mapreduce http://www.alidata.org/archives/1083要点：使用hive的程序员需要知道MR的原理，就好比使用Java的程序员也需要了解GC的原理阅读全文

posted @ 2013-04-22 20:12 bourneli 阅读(306) 评论(0) 推荐(0)

2013年4月20日

【Coursera课程笔记】Web智能和大数据Week3_MapReduce

摘要：本文目的到今天为止，Coursera上的课程Web Intelligence and Big Data[5]已经上到Week 3（从0开始计数，实际上是4周）。前几周讲了一些机器学习的算法，如LHS，PageRank，朴素贝叶斯分类器等。但是光有这些算法还不够，特别是在当前这种海量数据（Big Data）盛行的年代。所以，Week 3就聊到了一种通用的大数据处理解决方法 —— Map Reduce(后面简称MR)。此方法最初来自Google的一篇论文[1]，现在用来指代一种编程方式，主要作用与大规模数据集（通常在1T以上）的并行计算（很多算法都可以用MR方式实现）。本周课程主要内容介绍了MR的阅读全文

posted @ 2013-04-20 23:50 bourneli 阅读(965) 评论(0) 推荐(0)

2013年4月4日

利用Minhash和LSH寻找相似的集合

摘要：问题背景给出N个集合，找到相似的集合对，如何实现呢？直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合，但是时间复杂度是O(n2)。当N比较小时，比如K级，此算法可以在接受的时间范围内完成，但是如果N变大时，比B级，甚至P级，那么需要的时间是不能够被接受的。比如N= 1B = 1,000,000,000。一台计算机每秒可以比较1,000,000,000对集合是否... 阅读全文

posted @ 2013-04-04 20:14 bourneli 阅读(15099) 评论(3) 推荐(1)

2013年3月22日

C++STL学习之algorithm库函数

摘要：本文目的最近温习了一下C++ STL中的algorithm库函数，记得上次看这些内容时，还在读书，可以追溯到2009年春天了（刚好4年J）。正所谓为“温故而知新，可以为师矣”。闲话少说，开始正文。算法库C++标准算法库中包含一些模版函数，用于执行基本的算法，比如for_each(遍历容器)，random_shuffle（随机打乱容器）等。主要实现包含在头文件<algorthim>中，少量在<numeric>中。它是STL的三大核心组件之一，其他两个是容器（container，常用数据结构）和迭代器（Iterator，数据结构访问适配器）。设计思想：算法函数通过迭代器作用阅读全文

posted @ 2013-03-22 15:58 bourneli 阅读(9695) 评论(0) 推荐(0)

2013年3月15日

决策树学习笔记整理

摘要：本文目的最近一段时间在Coursera上学习Data Analysis，里面有个assignment涉及到了决策树，所以参考了一些决策树方面的资料，现在将学习过程的笔记整理记录于此，作为备忘。算法原理决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。如何预测先看看下面的数据表格：ID拥有房产（是/否）婚姻情况（单身，已婚，离婚）年收入（单位：千元）无法偿还债务（是阅读全文

posted @ 2013-03-15 15:44 bourneli 阅读(202350) 评论(3) 推荐(17)

2013年3月12日

假设检验的学习和理解

摘要：本文目的最近在Coursera上学习Data Analysis，结合前一阵子阅读的《Head First Statistics》，发现好多计算方法都涉及了假设检验（Hypothesis Test，又称“显著性检验”，Significance Test），用于检验模型的显著性。如回归分析，检测估计量的系数；卡方检验（运用卡方分布）检验模型的优度拟合和变量独立性。所以，决定梳理一下相关知识，作为备忘。原理&方法个人理解，假设检验就是利用反证法和小概率事件对原假设（Null Hypothesis）和备选假设（Alternative Hypothesis）进行选择。首先，假设原假设成立，那么就阅读全文

posted @ 2013-03-12 14:49 bourneli 阅读(7648) 评论(0) 推荐(0)

2013年3月11日

交叉检验---训练数据，验证数据和测试数据

摘要：最近在Coursera上学习Data Analysis课程，课程论坛中有个帖子针对交叉检验（Cross Validation）中训练数据集（train dataset），验证数据集(Validate dataset)和测试数据集(test dataset)展开讨论，内容挺好的，记录到这里，作为备忘。交叉检验（Cross Validation）在数据分析中，有些算法需要利用现有的数据构建模型，比如贝叶斯分类器，决策树，线性回归等，这类算法统称为监督学习（Supervisied Learning）算法。构建模型需要的数据称之为训练数据（Train Data）。模型构建完后，需要利用数据验证模型的正阅读全文

posted @ 2013-03-11 15:10 bourneli 阅读(21865) 评论(0) 推荐(0)

2013年2月10日

R中Factor类型选取子集

摘要： Factor是R中的一种数据类型，个人理解就是高级编程语言（C/C++,Python,PHP等）中的枚举。选取Factor数组中的子集不像character，numeric那样直观，在这里记录选取方法，可能不是最简洁的，如果有，还请高手指点。主要思路：将factor转成character，然后按照character的方式选取子集。看个例子：fv <- rep(c('a','b'),5)fv <- as.factor(fv)输出如下数据 [1] a b a b a b a b a bLevels: a b现在，需要将fv的所有枚举取到，也就是' 阅读全文

posted @ 2013-02-10 13:23 bourneli 阅读(4996) 评论(0) 推荐(0)

bourneli(李伯韬)的技术博客

博客搬家了，新的日志会在一数一世界更新！

公告