Hadoop - 随笔分类 - RichardParker

步步详解近期大火的density_peak超赞聚类

摘要：近期忙着在公司捣腾基于SOA的应急框架，还是前两周才在微博上看见了density_peak，被圈内好些人转载。由于这个算法的名字起的实在惹眼，都没好意思怎么把这个算法名字翻译成中文，当然更惹眼的是，其极具杀伤力的案例介绍和公式简写，光看些许的中文翻译几乎无法入手，虽然也得知也有不少同学将其实践，但分... 阅读全文

posted @ 2014-08-10 00:23 RichardParker 阅读(2433) 评论(2) 推荐(3)

抓包工具

摘要：抓包工具：顾名思义、耳熟能详。tcpdump、wireshark、sniffsmart、httpwatch（还算有点良心）。。。但当其只是当为工具使用时，又贵为可惜。因工作需要，再度涉及该领域。可随想云随风去，江河大变。某某文公司镜像工具，价比天高。某某调公司主打产品，爱理不理。脑中闪过一句... 阅读全文

posted @ 2014-06-07 21:55 RichardParker 阅读(12204) 评论(35) 推荐(60)

跟着大神重写的KNN 文档归类小工具

摘要：·背景在知道KNN之前，楼主有时候会粗糙地做一些分类模型的计算。在拜读了Orisun大神[http://www.cnblogs.com/zhangchaoyang/articles/2162393.html]的一些文章从中得到了一些启发，这些天突发奇想决定把N年前的分类模型按照KNN的思路重写，重... 阅读全文

posted @ 2014-04-25 20:55 RichardParker 阅读(1761) 评论(3) 推荐(4)

记录近期小改Apriori至MapReduce上的心得

摘要：·背景前一阵，一直在研究一些ML的东东，后来工作关系暂停了一阵。现在继续把剩下一些热门的算法再吃吃透，"无聊+逗比"地把他们搞到MapReduce上。这次选择的入手对象为Apriori，也就是大家俗称的"关联规则挖掘"，有别于CF（协同过滤）的正交输出。再俗一点，就是常被人提及的"啤酒+面包"的故事。 ·Apriori算法简介在关联规则挖掘方面，有两项著名的算法：Apriori和FPgrowth。两者各有特点，由于计算量级别的差异，越来越多的人选择了后者。但这并不意味着Apriori就是垃圾。个人的理解，FPg 阅读全文

posted @ 2014-04-05 10:37 RichardParker 阅读(1811) 评论(0) 推荐(0)

记录近期小改K-Means至MapReduce上的心得

摘要：背景：在所有聚类算法中KMeans算是表面上最简单的一种，没有过多恼人的古希腊符号公式，没有过分繁杂的公式嵌套。对于一个初学矩阵或者仅有向量概念的非专业人士的来说，不可不畏是一把踹门利器。这个世界上越是简单的东西，其实越是复杂，尤其在笔者将其改造成MapReduce时，发现并非那么容易一跃而过。虽然有现成的代码供把玩，但是对于练手还是值得一试。心得： · 纯理论一笔带过 KMean的大致实现过程就是任意指定N个的质心，然后对所有星星进行遍历，寻找与这个N个质心距离最近欧几里得距离的星星，将其归为一类，再从这一类中重新计算N个质心坐标属性。直至这N个质心坐标变化DELTA小至自己设阅读全文

posted @ 2014-02-21 00:12 RichardParker 阅读(2016) 评论(0) 推荐(0)

Spark集群搭建简配+它到底有多快？【单挑纯C/CPP/HADOOP】

摘要：最近耳闻Spark风生水起，这两天利用休息时间研究了一下，果然还是给人不少惊喜。可惜，笔者不善JAVA，只有PYTHON和SCALA接口。花了不少时间从零开始认识PYTHON和SCALA，不少时间答了VIM的IDE，总算走入正途。下面将一些SPARK集群搭建心得简单写一下。期间也零星碰到不少问题。//spark 1，去mirror站点下138M大小的编译好的包，去下SCALA 2.9.X，HADOOP该启动的启动2，配置各种$HOME和$PATH配置$SPARK_HOME/conf/spark-env.sh中的javahome,scalehome,sparkhome配置slaves文件加入主机阅读全文

posted @ 2014-01-19 16:27 RichardParker 阅读(4099) 评论(3) 推荐(0)

关于小改CF协同过滤至MapReducer上的一些心得

摘要：至上次重写ID3 MR版之后，手贱继续尝试CF。之前耳闻CF这两年内非常火，论内某大神也给了单机版（90%代码来自于其）。所以想试试能否改到MR上。整体来说，CF本身的机制以相似性为核心，与迭代调用几乎无关联。所以在MR上的表现，未必能完全发挥MR作用。基本上是线性路子，一走到底。原先网上也有不少CF的介绍，不过以文文图图居多，对CF的时序性逻辑表达较少，讲的比较隐晦，现在通过代码剖析重新将其展现在大家面前（纯粹理论此处略过）：先贴图，贴图是王道：1，整个MR过程其实与单机版90%重叠。仅期望在Mapper过程中，尽可能地先构建后评分矩阵，减少Reducer压力。2，与大多数机器学习特性一样，阅读全文

posted @ 2014-01-11 17:17 RichardParker 阅读(919) 评论(2) 推荐(0)

关于重写ID3 Algorithm Based On MapReduceV1/C++/Streaming的一些心得体会

摘要：心血来潮，同时想用C++连连手。面对如火如荼的MP，一阵念头闪过，如果把一些ML领域的玩意整合到MP里面是不是很有意思确实很有意思，可惜mahout来高深，我也看不懂。干脆自动动手丰衣足食，加上自己对JAVA一窍不通，于是写了streming C++版的ID3，数据源是来大神orisun的原始数据。整个过程都是下班后一边带孩子一边撰写，总共历时2周多，写了两个版本：1，shell+streming（屌丝版，MP运行速度在3分钟，单机OS运行速度541毫秒）2，streaming一次成型（高富帅版，MP运行速度23秒，单机OS运行速度42毫秒）先贴一些ID3的数据流向，ID3 先算每种因素的出现阅读全文

posted @ 2013-12-24 22:57 RichardParker 阅读(352) 评论(1) 推荐(1)

搭建及修正Hadoop1.2.1 MapReduce Pipes C++开发环境

摘要：Hadoop目前人气超旺，返璞归真的KV理念让人们再一次换一个角度来冷静思考一些问题。但随着近些年来写C/C++的人越来越少，网上和官方WIKI的教程直接落地的成功率却不高，多少会碰到这样那样的问题。现在我就重新整理下搭建过程的一些细节，供同好者分享，也请多多指点。1，一些条件：VituralBox 4.3 Win7 x64Centos 6.4 x64_86（来自某国内某镜像网站）Hadoop-1.2.1.tar.gz安装openssl、zlib、glib必备（之前cassandra的文章有提及）2，搭建集群过程（这部分简写，网上很多参考）2.1 ssh_key互信主备：ssh-keygen 阅读全文

posted @ 2013-11-27 19:39 RichardParker 阅读(395) 评论(0) 推荐(0)

随笔分类 - Hadoop

公告