博客园 - bourneli
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=172876
2016-03-05T13:15:12Z
bourneli
https://www.cnblogs.com/bourneli/
feed.cnblogs.com
https://www.cnblogs.com/bourneli/p/4536778.html
Spark随机深林扩展—OOB错误评估和变量权重 - bourneli
本文目的 当前spark(1.3版)随机森林实现,没有包括OOB错误评估和变量权重计算。而这两个功能在实际工作中比较常用。OOB错误评估可以代替交叉检验,评估模型整体结果,避免交叉检验带来的计算开销。现在的数据集,变量动辄成百上千,变量权重有助于变量过滤,去掉无用变量,提高计算效率,同时也可以帮助理...
2015-05-28T11:39:00Z
2015-05-28T11:39:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】本文目的 当前spark(1.3版)随机森林实现,没有包括OOB错误评估和变量权重计算。而这两个功能在实际工作中比较常用。OOB错误评估可以代替交叉检验,评估模型整体结果,避免交叉检验带来的计算开销。现在的数据集,变量动辄成百上千,变量权重有助于变量过滤,去掉无用变量,提高计算效率,同时也可以帮助理... <a href="https://www.cnblogs.com/bourneli/p/4536778.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4473976.html
Spark随机森林实现学习 - bourneli
前言 最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样。单机上一些直观的操作(递归),在分布式数据上,必须进行优化,否则I/O(网络,磁盘)会消耗大量时间。本文整理spark随机森林实现中的相关技巧,方便后面回顾。 随机森林算法概要 随机森林算法的详细实现和细节,可以参考论文Brei...
2015-05-03T06:23:00Z
2015-05-03T06:23:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】前言 最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样。单机上一些直观的操作(递归),在分布式数据上,必须进行优化,否则I/O(网络,磁盘)会消耗大量时间。本文整理spark随机森林实现中的相关技巧,方便后面回顾。 随机森林算法概要 随机森林算法的详细实现和细节,可以参考论文Brei... <a href="https://www.cnblogs.com/bourneli/p/4473976.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4456109.html
RDD分区2GB限制 - bourneli
本文目的 最近使用spark处理较大的数据时,遇到了分区2G限制的问题(ken)。找到了解决方法,并且在网上收集了一些资料,记录在这里,作为备忘。 问题现象 遇到这个问题时,spark日志会报如下的日志, 片段1 15/04/16 14:13:03 WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, ...
2015-04-25T08:22:00Z
2015-04-25T08:22:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】本文目的 最近使用spark处理较大的数据时,遇到了分区2G限制的问题(ken)。找到了解决方法,并且在网上收集了一些资料,记录在这里,作为备忘。 问题现象 遇到这个问题时,spark日志会报如下的日志, 片段1 15/04/16 14:13:03 WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, ... <a href="https://www.cnblogs.com/bourneli/p/4456109.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4394271.html
Spark使用总结与分享 - bourneli
背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD ...
2015-04-05T08:11:00Z
2015-04-05T08:11:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD ... <a href="https://www.cnblogs.com/bourneli/p/4394271.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4320878.html
Spark核心—RDD初探 - bourneli
本文目的 最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken)。感觉需要记录点什么,才对得起自己。下面的内容主要是关于Spark核心—RDD的相关的使用经验和原理介绍,作为个人备忘,也希望对读者有用。 为什么选择Spark 原因如下 代码复用:使用Scala高级语言操作Spark,灵活方便,面向对象,函数编程的语言...
2015-03-07T12:36:00Z
2015-03-07T12:36:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】本文目的 最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken)。感觉需要记录点什么,才对得起自己。下面的内容主要是关于Spark核心—RDD的相关的使用经验和原理介绍,作为个人备忘,也希望对读者有用。 为什么选择Spark 原因如下 代码复用:使用Scala高级语言操作Spark,灵活方便,面向对象,函数编程的语言... <a href="https://www.cnblogs.com/bourneli/p/4320878.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4216750.html
机器学习技法--学习笔记04--Soft SVM - bourneli
背景
之前所讨论的SVM都是非常严格的hard版本,必须要求每个点都被正确的区分开。但是,实际情况时很少出现这种情况的,因为噪声数据时无法避免的。所以,需要在hard SVM上添加容错机制,使得可以容忍少量噪声数据。 "软"化问题
软化SVM的思路有点类似正规化,在目标函数添加错误累加项,然后加一个系数,控制对错误的容忍度,并且在约束中添加错误容忍度的约束,形式如下: 现...
2015-01-11T08:55:00Z
2015-01-11T08:55:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】背景
之前所讨论的SVM都是非常严格的hard版本,必须要求每个点都被正确的区分开。但是,实际情况时很少出现这种情况的,因为噪声数据时无法避免的。所以,需要在hard SVM上添加容错机制,使得可以容忍少量噪声数据。 "软"化问题
软化SVM的思路有点类似正规化,在目标函数添加错误累加项,然后加一个系数,控制对错误的容忍度,并且在约束中添加错误容忍度的约束,形式如下: 现... <a href="https://www.cnblogs.com/bourneli/p/4216750.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4202423.html
机器学习技法--学习笔记03--Kernel技巧 - bourneli
背景
上一讲从对偶问题的角度描述了SVM问题,但是始终需要计算原始数据feature转换后的数据。这一讲,通过一个kernel(核函数)技巧,可以省去feature转换计算,但是仍然可以利用feature转换的特性。 什么是kernel
Kernel的其实就是将向量feature转换与点积运算合并后的运算,如下, 概念上很简单,但是并不是所有的feature转换函数都有kernel的...
2015-01-04T14:30:00Z
2015-01-04T14:30:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】背景
上一讲从对偶问题的角度描述了SVM问题,但是始终需要计算原始数据feature转换后的数据。这一讲,通过一个kernel(核函数)技巧,可以省去feature转换计算,但是仍然可以利用feature转换的特性。 什么是kernel
Kernel的其实就是将向量feature转换与点积运算合并后的运算,如下, 概念上很简单,但是并不是所有的feature转换函数都有kernel的... <a href="https://www.cnblogs.com/bourneli/p/4202423.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4199990.html
机器学习基石--学习笔记02--Hard Dual SVM - bourneli
背景
上一篇文章总结了linear hard SVM,解法很直观,直接从SVM的定义出发,经过等价变换,转成QP问题求解。这一讲,从另一个角度描述hard SVM的解法,不那么直观,但是可以避免feature转换时的数据计算,这样就可以利用一些很高纬度(甚至是无限维度)的feature转换,得到一些更精细的解。 拉格朗日乘子式
首先,回顾一下SVM问题的定义,如下: 线性约束...
2015-01-03T13:33:00Z
2015-01-03T13:33:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】背景
上一篇文章总结了linear hard SVM,解法很直观,直接从SVM的定义出发,经过等价变换,转成QP问题求解。这一讲,从另一个角度描述hard SVM的解法,不那么直观,但是可以避免feature转换时的数据计算,这样就可以利用一些很高纬度(甚至是无限维度)的feature转换,得到一些更精细的解。 拉格朗日乘子式
首先,回顾一下SVM问题的定义,如下: 线性约束... <a href="https://www.cnblogs.com/bourneli/p/4199990.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4198839.html
机器学习基石--学习笔记01--linear hard SVM - bourneli
背景 支持向量机(SVM)背后的数学知识比较复杂,之前尝试过在网上搜索一些资料自学,但是效果不佳。所以,在我的数据挖掘工具箱中,一直不会使用SVM这个利器。最近,台大林轩田老师在Coursera上的机器学习技法课程上有很详细的讲授SVM的原理,所以机会难得,一定要好好把握这次机会,将SVM背后的原理梳理清楚并记录下来。这篇文章总结第一讲linear hard SVM的相关内容。 最...
2015-01-02T13:21:00Z
2015-01-02T13:21:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】背景 支持向量机(SVM)背后的数学知识比较复杂,之前尝试过在网上搜索一些资料自学,但是效果不佳。所以,在我的数据挖掘工具箱中,一直不会使用SVM这个利器。最近,台大林轩田老师在Coursera上的机器学习技法课程上有很详细的讲授SVM的原理,所以机会难得,一定要好好把握这次机会,将SVM背后的原理梳理清楚并记录下来。这篇文章总结第一讲linear hard SVM的相关内容。 最... <a href="https://www.cnblogs.com/bourneli/p/4198839.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/4106605.html
特征工程(Feature Enginnering)学习记要 - bourneli
最近学习特征工程(Feature Enginnering)的相关技术,主要包含两块:特征选取(Feature Selection)和特征抓取(Feature Extraction)。这里记录一些要点,作为备忘。特征选取R中的FSelector包实现了一些特征选取的算法,主要分两大类:Algorith...
2014-11-18T11:51:00Z
2014-11-18T11:51:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】最近学习特征工程(Feature Enginnering)的相关技术,主要包含两块:特征选取(Feature Selection)和特征抓取(Feature Extraction)。这里记录一些要点,作为备忘。特征选取R中的FSelector包实现了一些特征选取的算法,主要分两大类:Algorith... <a href="https://www.cnblogs.com/bourneli/p/4106605.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3949474.html
【经验分享】卡方检验实战--检验次日留存率与用户分类的独立性 - bourneli
问题背景 最近某个游戏内测,给到一批内测用户,并且将每位用户标记为RPG游戏用户,休闲游戏用户和卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率,并观察是否有明显的区别,用于指导后续开展游戏运营活动。 这里记录使用卡方检验技术验证用户种类与次日行为的独立性,作为备忘。 统计结果 经过数据清理和统计,得到下面的结果 用户...
2014-09-01T08:26:00Z
2014-09-01T08:26:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】问题背景 最近某个游戏内测,给到一批内测用户,并且将每位用户标记为RPG游戏用户,休闲游戏用户和卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率,并观察是否有明显的区别,用于指导后续开展游戏运营活动。 这里记录使用卡方检验技术验证用户种类与次日行为的独立性,作为备忘。 统计结果 经过数据清理和统计,得到下面的结果 用户... <a href="https://www.cnblogs.com/bourneli/p/3949474.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3917857.html
R绘制3D散点图 - bourneli
目前主要使用ggplot2做一些数据可视化的分析,但是ggplot2有个很大的缺陷是不支持3D作图,所以需要查找其他替代方案。下面找到的两个替代方案不错,亲测可行,记录于此。交互3Dlibrary(rgl)with(mtcars,{ plot3d(wt, disp, mpg, col="red...
2014-08-17T07:59:00Z
2014-08-17T07:59:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】目前主要使用ggplot2做一些数据可视化的分析,但是ggplot2有个很大的缺陷是不支持3D作图,所以需要查找其他替代方案。下面找到的两个替代方案不错,亲测可行,记录于此。交互3Dlibrary(rgl)with(mtcars,{ plot3d(wt, disp, mpg, col="red... <a href="https://www.cnblogs.com/bourneli/p/3917857.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3645049.html
kmeans聚类理论篇 - bourneli
前言 kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R语言的例子,作为备忘。 算法原理 kmeans的计算方法如下: 1 随机选取k个中心点 2 遍历所有数据,...
2014-04-04T05:59:00Z
2014-04-04T05:59:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】前言 kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R语言的例子,作为备忘。 算法原理 kmeans的计算方法如下: 1 随机选取k个中心点 2 遍历所有数据,... <a href="https://www.cnblogs.com/bourneli/p/3645049.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3624073.html
PCA主成份分析学习记要 - bourneli
前言主成份分析,简写为PCA(Principle Component Analysis)。用于提取矩阵中的最主要成分,剔除冗余数据,同时降低数据纬度。现实世界中的数据可能是多种因数叠加的结果,如果这些因数是线性叠加,PCA就可以通过线性转化,还原这种叠加,找到最原始的数据源。PCA原理P.S: 下面...
2014-03-25T12:32:00Z
2014-03-25T12:32:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】前言主成份分析,简写为PCA(Principle Component Analysis)。用于提取矩阵中的最主要成分,剔除冗余数据,同时降低数据纬度。现实世界中的数据可能是多种因数叠加的结果,如果这些因数是线性叠加,PCA就可以通过线性转化,还原这种叠加,找到最原始的数据源。PCA原理P.S: 下面... <a href="https://www.cnblogs.com/bourneli/p/3624073.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3368185.html
【经验分享】我经历的几门MOOC - bourneli
这半年来,从1月初到6月底,在coursera上注册了4们有关数据分析/挖掘的课程。这些课程都是利用业余时间学习,每周基本上花5个小时左右。其中通过了3门,注销了一门。感觉还是学到了一些东西。 第一门课程 Computing for Data Science,2013年1月2日开课,为期4周。本课程主要是学习编程语言R---一种数据分析语言和环境,学完后可以用R完成基本分析任务,但一些高级的数据可视化掌握得不熟练,需要后面巩固。 第二门课程 Data Analysis,2013年1月22日开课,为期8周。这门课程与上门课程配套的,主要用R进行一些数据分析。主要的理论是统计学,什么概率,抽...
2013-10-14T04:52:00Z
2013-10-14T04:52:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】这半年来,从1月初到6月底,在coursera上注册了4们有关数据分析/挖掘的课程。这些课程都是利用业余时间学习,每周基本上花5个小时左右。其中通过了3门,注销了一门。感觉还是学到了一些东西。 第一门课程 Computing for Data Science,2013年1月2日开课,为期4周。本课程主要是学习编程语言R---一种数据分析语言和环境,学完后可以用R完成基本分析任务,但一些高级的数据可视化掌握得不熟练,需要后面巩固。 第二门课程 Data Analysis,2013年1月22日开课,为期8周。这门课程与上门课程配套的,主要用R进行一些数据分析。主要的理论是统计学,什么概率,抽... <a href="https://www.cnblogs.com/bourneli/p/3368185.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3300887.html
Linux安装R记要 - bourneli
R在Linux上的安装有一些坑(Windows上安装会方便许多),在这里记录,希望可以减少读者不必要的麻烦。我的服务器是SUSE Linux 64位,无法接入互联网(安全原因,你懂的)。到R官网http://www.r-project.org/下载源代码。下载完后上传到服务器上并解压。首先配置,cd...
2013-09-04T06:05:00Z
2013-09-04T06:05:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】R在Linux上的安装有一些坑(Windows上安装会方便许多),在这里记录,希望可以减少读者不必要的麻烦。我的服务器是SUSE Linux 64位,无法接入互联网(安全原因,你懂的)。到R官网http://www.r-project.org/下载源代码。下载完后上传到服务器上并解压。首先配置,cd... <a href="https://www.cnblogs.com/bourneli/p/3300887.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3248908.html
MySQL累积求和 - bourneli
有如下表 id money 1 10 2 20 ...
2013-08-09T10:51:00Z
2013-08-09T10:51:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】有如下表 id money 1 10 2 20 ... <a href="https://www.cnblogs.com/bourneli/p/3248908.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3241883.html
【读书笔记】Data_Mining_with_R---Chapter_2_Predicting Algae Blooms - bourneli
本书概要 《Data Mining with R》这本书通过实例,并结合R讲解数据挖掘技术。本书的核心理念就是“Learning it by doing”。本书分5章,第一章介绍R和MySql的基本知识,后面4章分别结合4个案例进行讲解。最精刚刚看完第二章,觉得还是学习了一些新的东西,在这里记录一下,作为备忘。 本章背景 藻类的过渡繁殖会破坏河流生态。希望找到一种办法对河流内的藻类生长情...
2013-08-06T12:23:00Z
2013-08-06T12:23:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】本书概要 《Data Mining with R》这本书通过实例,并结合R讲解数据挖掘技术。本书的核心理念就是“Learning it by doing”。本书分5章,第一章介绍R和MySql的基本知识,后面4章分别结合4个案例进行讲解。最精刚刚看完第二章,觉得还是学习了一些新的东西,在这里记录一下,作为备忘。 本章背景 藻类的过渡繁殖会破坏河流生态。希望找到一种办法对河流内的藻类生长情... <a href="https://www.cnblogs.com/bourneli/p/3241883.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3233398.html
How can R and Hadoop be used together? - bourneli
Referer:http://www.quora.com/How-can-R-and-Hadoop-be-used-together/answer/Jay-Kreps?srid=OVd9&share=1Another way to answer this questionis that they don't really integrate very well.The advantage of R is not its syntax but rather the incredible library of primitives for visualization and sta
2013-08-02T11:34:00Z
2013-08-02T11:34:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】Referer:http://www.quora.com/How-can-R-and-Hadoop-be-used-together/answer/Jay-Kreps?srid=OVd9&share=1Another way to answer this questionis that they don't really integrate very well.The advantage of R is not its syntax but rather the incredible library of primitives for visualization and sta <a href="https://www.cnblogs.com/bourneli/p/3233398.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/bourneli/p/3209210.html
【学习笔记】随机深林 - bourneli
背景 直观上理解,随机森林通过在构建决策树的过程中将一些行为随机化(比如特征选取,样本选取),产生许多决策树,然后以这些决策树的结果作为投票,将投票最多的预测作为最终结果。随机化的作用是为了减小单个决策树偏倚。 基本思路 两个参数:随机树个数n和每次选取的特征数m。 在构建每一个决策树时,首先有放回的进行N次抽样,N为训练集大小。可以证明,三分之二的样本会选取出来,剩下的三分...
2013-07-23T10:59:00Z
2013-07-23T10:59:00Z
bourneli
https://www.cnblogs.com/bourneli/
【摘要】背景 直观上理解,随机森林通过在构建决策树的过程中将一些行为随机化(比如特征选取,样本选取),产生许多决策树,然后以这些决策树的结果作为投票,将投票最多的预测作为最终结果。随机化的作用是为了减小单个决策树偏倚。 基本思路 两个参数:随机树个数n和每次选取的特征数m。 在构建每一个决策树时,首先有放回的进行N次抽样,N为训练集大小。可以证明,三分之二的样本会选取出来,剩下的三分... <a href="https://www.cnblogs.com/bourneli/p/3209210.html" target="_blank">阅读全文</a>