C/C++ - 随笔分类 - RichardParker

直读Innodb datafile

摘要：这两天有空翻了翻大神写的《innodb存储引擎》，手痒亲身实践。由于此书出版了有段时日，没有用其推荐的python工具，通过点滴推敲，略微发现其中冰山一角的奥秘。对于今后对于一些问题查证或数据迁移可能会有帮助。话不多说，开码。·大结构innodb数据文件按照：【segment，extent，pag... 阅读全文

posted @ 2014-09-10 12:08 RichardParker 阅读(838) 评论(2) 推荐(1)

步步详解近期大火的density_peak超赞聚类

摘要：近期忙着在公司捣腾基于SOA的应急框架，还是前两周才在微博上看见了density_peak，被圈内好些人转载。由于这个算法的名字起的实在惹眼，都没好意思怎么把这个算法名字翻译成中文，当然更惹眼的是，其极具杀伤力的案例介绍和公式简写，光看些许的中文翻译几乎无法入手，虽然也得知也有不少同学将其实践，但分... 阅读全文

posted @ 2014-08-10 00:23 RichardParker 阅读(2437) 评论(2) 推荐(3)

抓包工具

摘要：抓包工具：顾名思义、耳熟能详。tcpdump、wireshark、sniffsmart、httpwatch（还算有点良心）。。。但当其只是当为工具使用时，又贵为可惜。因工作需要，再度涉及该领域。可随想云随风去，江河大变。某某文公司镜像工具，价比天高。某某调公司主打产品，爱理不理。脑中闪过一句... 阅读全文

posted @ 2014-06-07 21:55 RichardParker 阅读(12219) 评论(35) 推荐(60)

跟着大神重写的KNN 文档归类小工具

摘要：·背景在知道KNN之前，楼主有时候会粗糙地做一些分类模型的计算。在拜读了Orisun大神[http://www.cnblogs.com/zhangchaoyang/articles/2162393.html]的一些文章从中得到了一些启发，这些天突发奇想决定把N年前的分类模型按照KNN的思路重写，重... 阅读全文

posted @ 2014-04-25 20:55 RichardParker 阅读(1770) 评论(3) 推荐(4)

记录近期小改Apriori至MapReduce上的心得

摘要：·背景前一阵，一直在研究一些ML的东东，后来工作关系暂停了一阵。现在继续把剩下一些热门的算法再吃吃透，"无聊+逗比"地把他们搞到MapReduce上。这次选择的入手对象为Apriori，也就是大家俗称的"关联规则挖掘"，有别于CF（协同过滤）的正交输出。再俗一点，就是常被人提及的"啤酒+面包"的故事。 ·Apriori算法简介在关联规则挖掘方面，有两项著名的算法：Apriori和FPgrowth。两者各有特点，由于计算量级别的差异，越来越多的人选择了后者。但这并不意味着Apriori就是垃圾。个人的理解，FPg 阅读全文

posted @ 2014-04-05 10:37 RichardParker 阅读(1820) 评论(0) 推荐(0)

拾人牙慧，浅记一些C++的类

摘要：这两天没事又翻了翻Primer，发现自己上岁数了，记单词能力开始下降，索引把一些简单的例子记下来，把一些肥肉剔除，剩一下骨头，方便今后Ctrl+F。在此感谢： http://ticktick.blog.51cto.com/823160/194307/ http://www.cnblogs.com/gaojun/archive/2010/09/10/1823354.html http://www.cnblogs.com/uniqueliu/archive/2011/08/02/2125590.html一、类的初始化--构造函数。#include#include#incl... 阅读全文

posted @ 2014-03-31 22:16 RichardParker 阅读(744) 评论(0) 推荐(0)

图-指尖上的舞蹈

摘要：·背景在大部分数据结构的讲义中，图一般出现在第7章。可惜当年没好好学，现在重新拿出来啃一遍。印象中不少老师对于该章节都填鸭式的带过或者摆在最后开讲，也许因为当年LBS并不流行。在其章节后的是一些排序和管理，但就概念复杂度或者封装流行度而言，图还是更难一点。如果仅靠伪代码，需要更长的时间来消化。图，也许就像游戏中的最终BOSS一样，其恐惧、神秘、优雅、传说还是吸引着众多Fans们趋之若鹜。这两天边回忆、边吃饭、边吐血、边洗澡把最常用的一些观点重新笔记下来，但其实也只是冰山一角。 ·分解历经百年，图的构成和运用已经遍布生活，其中欧洲人对于这块的贡献最大。整个图衍生出多个发展阅读全文

posted @ 2014-03-13 12:40 RichardParker 阅读(861) 评论(2) 推荐(0)

用HMM（隐马）图解三国杀的于吉“质疑”

摘要：·背景最近乘闲暇之余初探了HMM（隐马尔科夫模型），觉得还有点意思，但是网上的教程都超级枯草，可读性很差，抄来抄去的，一堆公式仍在你面前，谁能搞的懂（但园内的两篇写的还算不错。真才实学）。在熬制3天后，把这篇心得反馈给各位码友，为了更加生动的说明模型，特举例三国杀的"于吉"以便加深各位印象。·于吉武将技：【蛊惑】——你可以说出任何一种基本牌或非延时类锦囊牌，并正面朝下使用或打出一张手牌。若无人质疑，则该牌按你所述之牌结算。若有人质疑则亮出验明：若为真，质疑者各失去1点体力；若为假，质疑者各摸1张牌。无论真假，弃置被质疑的牌。仅当被质疑的牌为红桃花色且为阅读全文

posted @ 2014-02-26 18:50 RichardParker 阅读(2723) 评论(0) 推荐(2)

记录近期小改K-Means至MapReduce上的心得

摘要：背景：在所有聚类算法中KMeans算是表面上最简单的一种，没有过多恼人的古希腊符号公式，没有过分繁杂的公式嵌套。对于一个初学矩阵或者仅有向量概念的非专业人士的来说，不可不畏是一把踹门利器。这个世界上越是简单的东西，其实越是复杂，尤其在笔者将其改造成MapReduce时，发现并非那么容易一跃而过。虽然有现成的代码供把玩，但是对于练手还是值得一试。心得： · 纯理论一笔带过 KMean的大致实现过程就是任意指定N个的质心，然后对所有星星进行遍历，寻找与这个N个质心距离最近欧几里得距离的星星，将其归为一类，再从这一类中重新计算N个质心坐标属性。直至这N个质心坐标变化DELTA小至自己设阅读全文

posted @ 2014-02-21 00:12 RichardParker 阅读(2022) 评论(0) 推荐(0)

Spark集群搭建简配+它到底有多快？【单挑纯C/CPP/HADOOP】

摘要：最近耳闻Spark风生水起，这两天利用休息时间研究了一下，果然还是给人不少惊喜。可惜，笔者不善JAVA，只有PYTHON和SCALA接口。花了不少时间从零开始认识PYTHON和SCALA，不少时间答了VIM的IDE，总算走入正途。下面将一些SPARK集群搭建心得简单写一下。期间也零星碰到不少问题。//spark 1，去mirror站点下138M大小的编译好的包，去下SCALA 2.9.X，HADOOP该启动的启动2，配置各种$HOME和$PATH配置$SPARK_HOME/conf/spark-env.sh中的javahome,scalehome,sparkhome配置slaves文件加入主机阅读全文

posted @ 2014-01-19 16:27 RichardParker 阅读(4107) 评论(3) 推荐(0)

关于小改CF协同过滤至MapReducer上的一些心得

摘要：至上次重写ID3 MR版之后，手贱继续尝试CF。之前耳闻CF这两年内非常火，论内某大神也给了单机版（90%代码来自于其）。所以想试试能否改到MR上。整体来说，CF本身的机制以相似性为核心，与迭代调用几乎无关联。所以在MR上的表现，未必能完全发挥MR作用。基本上是线性路子，一走到底。原先网上也有不少CF的介绍，不过以文文图图居多，对CF的时序性逻辑表达较少，讲的比较隐晦，现在通过代码剖析重新将其展现在大家面前（纯粹理论此处略过）：先贴图，贴图是王道：1，整个MR过程其实与单机版90%重叠。仅期望在Mapper过程中，尽可能地先构建后评分矩阵，减少Reducer压力。2，与大多数机器学习特性一样，阅读全文

posted @ 2014-01-11 17:17 RichardParker 阅读(922) 评论(2) 推荐(0)

关于Cassandra与Thrift在int/text/varint上的暧昧

摘要：近期简单写了一个基于Cassandra/C++的日志缓存，虽然是Nosql，但是在实际应用中，还是期望能有部分的临时CQL统计或+-*/可以支持所以在针对部分字段入库时，选择了作为整形录入，于是麻烦就来了。1，第一个碰到的是Not enough bytes to read value of component 0 经过百般测试发现在建表时的WITH COMPACT STORAGE干扰最大。当去掉该语句时，Thrift程序写入会报错，cql执行会通过。翻阅官网HANDBOOK后发现，也许是出于节省磁盘空间的出发点，在2.0以后cql界面建表不再自带该参数，cli界面建表自动带上该参数。根据官. 阅读全文

posted @ 2013-12-29 15:39 RichardParker 阅读(1581) 评论(1) 推荐(0)

关于重写ID3 Algorithm Based On MapReduceV1/C++/Streaming的一些心得体会

摘要：心血来潮，同时想用C++连连手。面对如火如荼的MP，一阵念头闪过，如果把一些ML领域的玩意整合到MP里面是不是很有意思确实很有意思，可惜mahout来高深，我也看不懂。干脆自动动手丰衣足食，加上自己对JAVA一窍不通，于是写了streming C++版的ID3，数据源是来大神orisun的原始数据。整个过程都是下班后一边带孩子一边撰写，总共历时2周多，写了两个版本：1，shell+streming（屌丝版，MP运行速度在3分钟，单机OS运行速度541毫秒）2，streaming一次成型（高富帅版，MP运行速度23秒，单机OS运行速度42毫秒）先贴一些ID3的数据流向，ID3 先算每种因素的出现阅读全文

posted @ 2013-12-24 22:57 RichardParker 阅读(357) 评论(1) 推荐(1)

随记一个C的毫秒级群PING

摘要：正好公司为了检测前台网络，力图收集有力证据与某CDN PK，所以随手写了一个群PING的程序。写的内容比较简单，没有去特别追求线程效率，也没有去用LINUX 2.6+的殿堂级神器，以追求实现效率为主，一些参数大家可以自己调。同事后来帮忙补了些日志处理，当然如果有兴趣的，还可以直接与AS3做SOCKET展示。大致的源码如下：#Linux REHL 6，x64，4C/32G，GCC#define MAXTD 2#include #include #include #include char IP[230][30];char *PINGI=NULL;char *PINGC=NULL;char *PI 阅读全文

posted @ 2013-12-09 21:35 RichardParker 阅读(618) 评论(2) 推荐(0)

随记一个C的时间加减

摘要：//Centos6 x86_64#include #include #include #include int main( int argc, char *argv[] ){ time_t tmp_time; struct tm *ptime; struct tm *tmp; tmp_time = time(NULL); if(argv[1]==0) { printf("Input Value Null!\n"); printf("Example:\n"); printf("zz -10 // before 10 mi... 阅读全文

posted @ 2013-11-26 20:07 RichardParker 阅读(343) 评论(0) 推荐(0)

随笔分类 - C/C++

公告