随笔分类 - C/C++
摘要:这两天有空翻了翻大神写的《innodb存储引擎》,手痒亲身实践。由于此书出版了有段时日,没有用其推荐的python工具,通过点滴推敲,略微发现其中冰山一角的奥秘。对于今后对于一些问题查证或数据迁移可能会有帮助。话不多说,开码。·大结构innodb数据文件按照 :【segment,extent,pag...
阅读全文
摘要:近期忙着在公司捣腾基于SOA的应急框架,还是前两周才在微博上看见了density_peak,被圈内好些人转载。由于这个算法的名字起的实在惹眼,都没好意思怎么把这个算法名字翻译成中文,当然更惹眼的是,其极具杀伤力的案例介绍和公式简写,光看些许的中文翻译几乎无法入手,虽然也得知也有不少同学将其实践,但分...
阅读全文
摘要:抓包工具:顾名思义、耳熟能详。tcpdump、wireshark、sniffsmart、httpwatch(还算有点良心)。。。但当其只是当为工具使用时,又贵为可惜。因工作需要,再度涉及该领域。 可随想云随风去,江河大变。某某文公司镜像工具,价比天高。某某调公司主打产品,爱理不理。 脑中闪过一句...
阅读全文
摘要:·背景 在知道KNN之前,楼主有时候会粗糙地做一些分类模型的计算。在拜读了Orisun大神[http://www.cnblogs.com/zhangchaoyang/articles/2162393.html]的一些文章从中得到了一些启发,这些天突发奇想决定把N年前的分类模型按照KNN的思路重写,重...
阅读全文
摘要:·背景 前一阵,一直在研究一些ML的东东,后来工作关系暂停了一阵。现在继续把剩下一些热门的算法再吃吃透,"无聊+逗比"地把他们搞到MapReduce上。这次选择的入手对象为Apriori,也就是大家俗称的"关联规则挖掘",有别于CF(协同过滤)的正交输出。再俗一点,就是常被人提及的"啤酒+面包"的故事。 ·Apriori算法简介 在关联规则挖掘方面,有两项著名的算法:Apriori和FPgrowth。两者各有特点,由于计算量级别的差异,越来越多的人选择了后者。但这并不意味着Apriori就是垃圾。个人的理解,FPg
阅读全文
摘要:这两天没事又翻了翻Primer,发现自己上岁数了,记单词能力开始下降,索引把一些简单的例子记下来,把一些肥肉剔除,剩一下骨头,方便今后Ctrl+F。 在此感谢: http://ticktick.blog.51cto.com/823160/194307/ http://www.cnblogs.com/gaojun/archive/2010/09/10/1823354.html http://www.cnblogs.com/uniqueliu/archive/2011/08/02/2125590.html一、类的初始化--构造函数。#include#include#incl...
阅读全文
摘要:·背景 在大部分数据结构的讲义中,图一般出现在第7章。可惜当年没好好学,现在重新拿出来啃一遍。印象中不少老师对于该章节都填鸭式的带过或者摆在最后开讲,也许因为当年LBS并不流行。在其章节后的是一些排序和管理,但就概念复杂度或者封装流行度而言,图还是更难一点。如果仅靠伪代码,需要更长的时间来消化。图,也许就像游戏中的最终BOSS一样,其恐惧、神秘、优雅、传说还是吸引着众多Fans们趋之若鹜。这两天边回忆、边吃饭、边吐血、边洗澡把最常用的一些观点重新笔记下来,但其实也只是冰山一角。 ·分解 历经百年,图的构成和运用已经遍布生活,其中欧洲人对于这块的贡献最大。整个图衍生出多个发展
阅读全文
摘要:·背景最近乘闲暇之余初探了HMM(隐马尔科夫模型),觉得还有点意思,但是网上的教程都超级枯草,可读性很差,抄来抄去的,一堆公式仍在你面前,谁能搞的懂(但园内的两篇写的还算不错。真才实学)。在熬制3天后,把这篇心得反馈给各位码友,为了更加生动的说明模型,特举例三国杀的"于吉"以便加深各位印象。·于吉 武将技:【蛊惑】——你可以说出任何一种基本牌或非延时类锦囊牌,并正面朝下使用或打出一张手牌。若无人质疑,则该牌按你所述之牌结算。若有人质疑则亮出验明:若为真,质疑者各失去1点体力;若为假,质疑者各摸1张牌。无论真假,弃置被质疑的牌。仅当被质疑的牌为红桃花色且为
阅读全文
摘要:背景: 在所有聚类算法中KMeans算是表面上最简单的一种,没有过多恼人的古希腊符号公式,没有过分繁杂的公式嵌套。对于一个初学矩阵或者仅有向量概念的非专业人士的来说,不可不畏是一把踹门利器。这个世界上越是简单的东西,其实越是复杂,尤其在笔者将其改造成MapReduce时,发现并非那么容易一跃而过。虽然有现成的代码供把玩,但是对于练手还是值得一试。 心得: · 纯理论一笔带过 KMean的大致实现过程就是任意指定N个的质心,然后对所有星星进行遍历,寻找与这个N个质心距离最近欧几里得距离的星星,将其归为一类,再从这一类中重新计算N个质心坐标属性。直至这N个质心坐标变化DELTA小至自己设
阅读全文
摘要:最近耳闻Spark风生水起,这两天利用休息时间研究了一下,果然还是给人不少惊喜。可惜,笔者不善JAVA,只有PYTHON和SCALA接口。花了不少时间从零开始认识PYTHON和SCALA,不少时间答了VIM的IDE,总算走入正途。下面将一些SPARK集群搭建心得简单写一下。期间也零星碰到不少问题。//spark 1,去mirror站点下138M大小的编译好的包,去下SCALA 2.9.X,HADOOP该启动的启动2,配置各种$HOME和$PATH配置$SPARK_HOME/conf/spark-env.sh中的javahome,scalehome,sparkhome配置slaves文件加入主机
阅读全文
摘要:至上次重写ID3 MR版之后,手贱继续尝试CF。之前耳闻CF这两年内非常火,论内某大神也给了单机版(90%代码来自于其)。所以想试试能否改到MR上。整体来说,CF本身的机制以相似性为核心,与迭代调用几乎无关联。所以在MR上的表现,未必能完全发挥MR作用。基本上是线性路子,一走到底。原先网上也有不少CF的介绍,不过以文文图图居多,对CF的时序性逻辑表达较少,讲的比较隐晦,现在通过代码剖析重新将其展现在大家面前(纯粹理论此处略过):先贴图,贴图是王道:1,整个MR过程其实与单机版90%重叠。仅期望在Mapper过程中,尽可能地先构建后评分矩阵,减少Reducer压力。2,与大多数机器学习特性一样,
阅读全文
摘要:近期简单写了一个基于Cassandra/C++的日志缓存,虽然是Nosql,但是在实际应用中,还是期望能有部分的临时CQL统计 或+-*/可以支持所以在针对部分字段入库时,选择了作为整形录入,于是麻烦就来了。1,第一个碰到的是Not enough bytes to read value of component 0 经过百般测试发现在建表时的WITH COMPACT STORAGE干扰最大。当去掉该语句时,Thrift程序写入会报错,cql执行会通过。翻阅官网HANDBOOK后发现,也许是出于节省磁盘空间的出发点,在2.0以后cql界面建表不再自带该参数,cli界面建表自动带上该参数。根据官.
阅读全文
摘要:心血来潮,同时想用C++连连手。面对如火如荼的MP,一阵念头闪过,如果把一些ML领域的玩意整合到MP里面是不是很有意思确实很有意思,可惜mahout来高深,我也看不懂。干脆自动动手丰衣足食,加上自己对JAVA一窍不通,于是写了streming C++版的ID3,数据源是来大神orisun的原始数据。整个过程都是下班后一边带孩子一边撰写,总共历时2周多,写了两个版本:1,shell+streming(屌丝版,MP运行速度在3分钟,单机OS运行速度541毫秒)2,streaming一次成型(高富帅版,MP运行速度23秒,单机OS运行速度42毫秒)先贴一些ID3的数据流向,ID3 先算每种因素的出现
阅读全文
摘要:正好公司为了检测前台网络,力图收集有力证据与某CDN PK,所以随手写了一个群PING的程序。写的内容比较简单,没有去特别追求线程效率,也没有去用LINUX 2.6+的殿堂级神器,以追求实现效率为主,一些参数大家可以自己调。同事后来帮忙补了些日志处理,当然如果有兴趣的,还可以直接与AS3做SOCKET展示。大致的源码如下:#Linux REHL 6,x64,4C/32G,GCC#define MAXTD 2#include #include #include #include char IP[230][30];char *PINGI=NULL;char *PINGC=NULL;char *PI
阅读全文
摘要://Centos6 x86_64#include #include #include #include int main( int argc, char *argv[] ){ time_t tmp_time; struct tm *ptime; struct tm *tmp; tmp_time = time(NULL); if(argv[1]==0) { printf("Input Value Null!\n"); printf("Example:\n"); printf("zz -10 // before 10 mi...
阅读全文
浙公网安备 33010602011771号