摘要: 这两天有空翻了翻大神写的《innodb存储引擎》,手痒亲身实践。由于此书出版了有段时日,没有用其推荐的python工具,通过点滴推敲,略微发现其中冰山一角的奥秘。对于今后对于一些问题查证或数据迁移可能会有帮助。话不多说,开码。·大结构innodb数据文件按照 :【segment,extent,pag... 阅读全文
posted @ 2014-09-10 12:08 RichardParker 阅读(823) 评论(2) 推荐(1) 编辑
摘要: 近期忙着在公司捣腾基于SOA的应急框架,还是前两周才在微博上看见了density_peak,被圈内好些人转载。由于这个算法的名字起的实在惹眼,都没好意思怎么把这个算法名字翻译成中文,当然更惹眼的是,其极具杀伤力的案例介绍和公式简写,光看些许的中文翻译几乎无法入手,虽然也得知也有不少同学将其实践,但分... 阅读全文
posted @ 2014-08-10 00:23 RichardParker 阅读(2364) 评论(2) 推荐(3) 编辑
摘要: 抓包工具:顾名思义、耳熟能详。tcpdump、wireshark、sniffsmart、httpwatch(还算有点良心)。。。但当其只是当为工具使用时,又贵为可惜。因工作需要,再度涉及该领域。 可随想云随风去,江河大变。某某文公司镜像工具,价比天高。某某调公司主打产品,爱理不理。 脑中闪过一句... 阅读全文
posted @ 2014-06-07 21:55 RichardParker 阅读(11968) 评论(35) 推荐(60) 编辑
摘要: ·背景 在知道KNN之前,楼主有时候会粗糙地做一些分类模型的计算。在拜读了Orisun大神[http://www.cnblogs.com/zhangchaoyang/articles/2162393.html]的一些文章从中得到了一些启发,这些天突发奇想决定把N年前的分类模型按照KNN的思路重写,重... 阅读全文
posted @ 2014-04-25 20:55 RichardParker 阅读(1745) 评论(3) 推荐(4) 编辑
摘要: ·背景 随着周边吐槽hadoop的声音渐渐多起来之后,spark也逐渐进入了大家的视野。之前,笔者有粗略的写过一篇spark的安装和性能比较[http://www.cnblogs.com/zacard-orc/p/3526007.html],加上这两天重读着大学时候的一些基础书籍,感觉IT领域大局势... 阅读全文
posted @ 2014-04-18 20:26 RichardParker 阅读(16057) 评论(2) 推荐(0) 编辑
摘要: ·背景 前一阵,一直在研究一些ML的东东,后来工作关系暂停了一阵。现在继续把剩下一些热门的算法再吃吃透,"无聊+逗比"地把他们搞到MapReduce上。这次选择的入手对象为Apriori,也就是大家俗称的"关联规则挖掘",有别于CF(协同过滤)的正交输出。再俗一点,就是常被人提及的"啤酒+面包"的故事。 ·Apriori算法简介 在关联规则挖掘方面,有两项著名的算法:Apriori和FPgrowth。两者各有特点,由于计算量级别的差异,越来越多的人选择了后者。但这并不意味着Apriori就是垃圾。个人的理解,FPg 阅读全文
posted @ 2014-04-05 10:37 RichardParker 阅读(1786) 评论(0) 推荐(0) 编辑
摘要: 这两天没事又翻了翻Primer,发现自己上岁数了,记单词能力开始下降,索引把一些简单的例子记下来,把一些肥肉剔除,剩一下骨头,方便今后Ctrl+F。 在此感谢: http://ticktick.blog.51cto.com/823160/194307/ http://www.cnblogs.com/gaojun/archive/2010/09/10/1823354.html http://www.cnblogs.com/uniqueliu/archive/2011/08/02/2125590.html一、类的初始化--构造函数。#include#include#incl... 阅读全文
posted @ 2014-03-31 22:16 RichardParker 阅读(721) 评论(0) 推荐(0) 编辑
摘要: ·声明 1,已官网中文教程为基础,边看边学,结合环境现状搭建。 2,哥对Ruby不热爱、不熟悉、不感冒,所述内容如有疑义请谅解。 3,3.0官说集群还在测试中,其实用用也还算马马虎虎,对外集群API真心少,望有识之士能够出力。 ·准备材料 VM9,CentOS 6.4_x86_64(2.6+),SecureCRT,CentOS-6.4-x86_64-bin-DVD1.iso redis官网:redis-3.0.0-beta1.tar.gz ruby官网:rubygems-2.0.7.zip rubygem官网:redis-3.0.7.gem ·下锅 1,把一些基础 阅读全文
posted @ 2014-03-18 20:28 RichardParker 阅读(8524) 评论(1) 推荐(3) 编辑
摘要: ·背景 Redis以"快、准、狠"而著称,除了其主-从模式略失光彩(主从模式更多是被以讹传讹,3.0依旧在测试中),大部分的应用可谓尖兵利器。在一些常规写的时候,MSET和HMSET也是被大家最推崇的模式之一,之前网上有篇文章说到M的极限在200以后会趋于饱和,那么究竟是不是这样,今天无聊做了下测试。·测试场景 ·配置:Lenovo E49 Corei5/VM9/CentOS 6(2.6)/2C/2G/10GDISK/纯单机,走127.0.0.1 ·数量:测试K-V量100万条 ,变量为M和C。M为一次带上的K-V条数,C为轮训次数( 阅读全文
posted @ 2014-03-15 19:21 RichardParker 阅读(6212) 评论(0) 推荐(0) 编辑
摘要: ·背景 在大部分数据结构的讲义中,图一般出现在第7章。可惜当年没好好学,现在重新拿出来啃一遍。印象中不少老师对于该章节都填鸭式的带过或者摆在最后开讲,也许因为当年LBS并不流行。在其章节后的是一些排序和管理,但就概念复杂度或者封装流行度而言,图还是更难一点。如果仅靠伪代码,需要更长的时间来消化。图,也许就像游戏中的最终BOSS一样,其恐惧、神秘、优雅、传说还是吸引着众多Fans们趋之若鹜。这两天边回忆、边吃饭、边吐血、边洗澡把最常用的一些观点重新笔记下来,但其实也只是冰山一角。 ·分解 历经百年,图的构成和运用已经遍布生活,其中欧洲人对于这块的贡献最大。整个图衍生出多个发展 阅读全文
posted @ 2014-03-13 12:40 RichardParker 阅读(831) 评论(2) 推荐(0) 编辑
摘要: 拥抱大家庭,nodejs走thrift。最贱的例子,nodejs与nodejs之间走thrift对传。1,官网下载http://mirrors.cnnic.cn/apache/thrift/0.9.1/thrift-0.9.1.exe2,编辑xuser.thriftstruct User{ 1: string uid, 2: string uname, 3: bool usex, 4: i16 uage } service UserService{ void add(1: User u), string adduname(1: str... 阅读全文
posted @ 2014-03-09 18:57 RichardParker 阅读(5626) 评论(0) 推荐(0) 编辑
摘要: ·背景最近乘闲暇之余初探了HMM(隐马尔科夫模型),觉得还有点意思,但是网上的教程都超级枯草,可读性很差,抄来抄去的,一堆公式仍在你面前,谁能搞的懂(但园内的两篇写的还算不错。真才实学)。在熬制3天后,把这篇心得反馈给各位码友,为了更加生动的说明模型,特举例三国杀的"于吉"以便加深各位印象。·于吉 武将技:【蛊惑】——你可以说出任何一种基本牌或非延时类锦囊牌,并正面朝下使用或打出一张手牌。若无人质疑,则该牌按你所述之牌结算。若有人质疑则亮出验明:若为真,质疑者各失去1点体力;若为假,质疑者各摸1张牌。无论真假,弃置被质疑的牌。仅当被质疑的牌为红桃花色且为 阅读全文
posted @ 2014-02-26 18:50 RichardParker 阅读(2389) 评论(0) 推荐(2) 编辑
摘要: 1,兼容HTTP1.1和HTTP1.0 区别在content-length,1.0接受定长,不接受变长,导致transfer-encodeing的chunked模式无法识别,最终导致无法识别BODY。需要在HTTP1.1的header中指定content-length。2,作为HTTP客户端如何设定超时 除了异步之外,http request也是个头大的问题,给自己加个超时可以是程序更健康,推荐如下做法。在req.end()之后,加上settimeout,如下。 setTimeout(function(){ req.abort(); //console.log... 阅读全文
posted @ 2014-02-24 19:10 RichardParker 阅读(229) 评论(0) 推荐(0) 编辑
摘要: ·众所周知 NodeJS三大神器"事件驱动,V8,回调函数"。 ·事件驱动,故名思议:等快递和收快递区别。NodeJS将原先大牛们掌握的神神秘秘的EPOLL走向大众化,这点是最大的贡献。当然事件驱动最早最有发言权的还是FLASH拥护者,在那个学校只教授顺序编程的年代里,一些广为流传的FLASH作品都源自事件驱动。 ·V8:初闻该名比较深奥。网上有不少介绍不再累述,个人理解快在JIT和HASH定位对象上,跳过了CLASS代码。 ·事件回调:这些年比较流行的风格,熟悉之后如沐清风,不熟悉的时候死活想不明白。 仅接着,围绕着三项,无论是官方 阅读全文
posted @ 2014-02-22 22:08 RichardParker 阅读(2023) 评论(4) 推荐(3) 编辑
摘要: 背景: 在所有聚类算法中KMeans算是表面上最简单的一种,没有过多恼人的古希腊符号公式,没有过分繁杂的公式嵌套。对于一个初学矩阵或者仅有向量概念的非专业人士的来说,不可不畏是一把踹门利器。这个世界上越是简单的东西,其实越是复杂,尤其在笔者将其改造成MapReduce时,发现并非那么容易一跃而过。虽然有现成的代码供把玩,但是对于练手还是值得一试。 心得: · 纯理论一笔带过 KMean的大致实现过程就是任意指定N个的质心,然后对所有星星进行遍历,寻找与这个N个质心距离最近欧几里得距离的星星,将其归为一类,再从这一类中重新计算N个质心坐标属性。直至这N个质心坐标变化DELTA小至自己设 阅读全文
posted @ 2014-02-21 00:12 RichardParker 阅读(1987) 评论(0) 推荐(0) 编辑
摘要: · 背景 公司要把一些老设备退服,一些陪伴我多年的DB要下线了,舍不得。正好借此机会,手贱把自己3个"回收站"DB迁移到MySQL上,也算是赶一把时髦。等真正看着这些老设备下线了的那一天,也会不尽感叹一个时代结束了。· 心得 芒果:爱你不容易,开始我想是往上迁,因为文档多/API多,游刃有余,支持不规则列,最符合我的需要。可惜,除了字符集之外。。。详见后面第7点。共享OR独立:最早碰到的问题当属目标数据库的容量和存储设计,两者表空间管理上各有优势。开始一心想用Raw设备+innodb,但发现在共享和独立表空间上出现了卡壳,共享表空间可以发挥RAW设备优势 阅读全文
posted @ 2014-02-12 20:16 RichardParker 阅读(1222) 评论(2) 推荐(0) 编辑
摘要: cd /usr/share/selinuxsetenforce 0tar -xvf MySQL-5.6.12-1.el6.x86_64.rpm-bundle.tarrpm -qa|grep -i mysqlyum -y remove mysql-libs*rpm -e mysql*rpm -ivh MySQL-server-5.6.12-1.el6.x86_64.rpmrpm -ivh MySQL-client-5.6.12-1.el6.x86_64.rpmrpm -ivh MySQL-devel-5.6.12-1.el6.x86_64.rpmservice mysql stop vim /e 阅读全文
posted @ 2014-02-06 15:19 RichardParker 阅读(382) 评论(1) 推荐(0) 编辑
摘要: ·起因 汉字编码技术在实际应用中总是会存在这样或者那样的问题,尤其是在一些热门NoSQL方面多少会遇到挑战。比方说Cassandra字符集还不直接支持GB2312,要想存储写汉字那可真是麻烦。当然这还不算什么,原来以为的CRYPTO值得欣喜,当字符集遇上加解密时会更加痛苦,下面笔者会例举几个文本来对此进行说明。 ·原理 关于对称加密技术:NodeJS算是比较亲民的,官网给了很多模块,唯独缺... 阅读全文
posted @ 2014-02-05 15:47 RichardParker 阅读(1480) 评论(2) 推荐(1) 编辑
摘要: 最近耳闻Spark风生水起,这两天利用休息时间研究了一下,果然还是给人不少惊喜。可惜,笔者不善JAVA,只有PYTHON和SCALA接口。花了不少时间从零开始认识PYTHON和SCALA,不少时间答了VIM的IDE,总算走入正途。下面将一些SPARK集群搭建心得简单写一下。期间也零星碰到不少问题。//spark 1,去mirror站点下138M大小的编译好的包,去下SCALA 2.9.X,HADOOP该启动的启动2,配置各种$HOME和$PATH配置$SPARK_HOME/conf/spark-env.sh中的javahome,scalehome,sparkhome配置slaves文件加入主机 阅读全文
posted @ 2014-01-19 16:27 RichardParker 阅读(4067) 评论(3) 推荐(0) 编辑
摘要: 至上次重写ID3 MR版之后,手贱继续尝试CF。之前耳闻CF这两年内非常火,论内某大神也给了单机版(90%代码来自于其)。所以想试试能否改到MR上。整体来说,CF本身的机制以相似性为核心,与迭代调用几乎无关联。所以在MR上的表现,未必能完全发挥MR作用。基本上是线性路子,一走到底。原先网上也有不少CF的介绍,不过以文文图图居多,对CF的时序性逻辑表达较少,讲的比较隐晦,现在通过代码剖析重新将其展现在大家面前(纯粹理论此处略过):先贴图,贴图是王道:1,整个MR过程其实与单机版90%重叠。仅期望在Mapper过程中,尽可能地先构建后评分矩阵,减少Reducer压力。2,与大多数机器学习特性一样, 阅读全文
posted @ 2014-01-11 17:17 RichardParker 阅读(899) 评论(2) 推荐(0) 编辑