RichardParker - 博客园

2014年9月10日

摘要：这两天有空翻了翻大神写的《innodb存储引擎》，手痒亲身实践。由于此书出版了有段时日，没有用其推荐的python工具，通过点滴推敲，略微发现其中冰山一角的奥秘。对于今后对于一些问题查证或数据迁移可能会有帮助。话不多说，开码。·大结构innodb数据文件按照：【segment，extent，pag... 阅读全文

posted @ 2014-09-10 12:08 RichardParker 阅读(836) 评论(2) 推荐(1)

2014年8月10日

步步详解近期大火的density_peak超赞聚类

摘要：近期忙着在公司捣腾基于SOA的应急框架，还是前两周才在微博上看见了density_peak，被圈内好些人转载。由于这个算法的名字起的实在惹眼，都没好意思怎么把这个算法名字翻译成中文，当然更惹眼的是，其极具杀伤力的案例介绍和公式简写，光看些许的中文翻译几乎无法入手，虽然也得知也有不少同学将其实践，但分... 阅读全文

posted @ 2014-08-10 00:23 RichardParker 阅读(2435) 评论(2) 推荐(3)

2014年6月7日

抓包工具

摘要：抓包工具：顾名思义、耳熟能详。tcpdump、wireshark、sniffsmart、httpwatch（还算有点良心）。。。但当其只是当为工具使用时，又贵为可惜。因工作需要，再度涉及该领域。可随想云随风去，江河大变。某某文公司镜像工具，价比天高。某某调公司主打产品，爱理不理。脑中闪过一句... 阅读全文

posted @ 2014-06-07 21:55 RichardParker 阅读(12218) 评论(35) 推荐(60)

2014年4月25日

跟着大神重写的KNN 文档归类小工具

摘要： ·背景在知道KNN之前，楼主有时候会粗糙地做一些分类模型的计算。在拜读了Orisun大神[http://www.cnblogs.com/zhangchaoyang/articles/2162393.html]的一些文章从中得到了一些启发，这些天突发奇想决定把N年前的分类模型按照KNN的思路重写，重... 阅读全文

posted @ 2014-04-25 20:55 RichardParker 阅读(1768) 评论(3) 推荐(4)

2014年4月18日

Spark入门级小玩

摘要： ·背景随着周边吐槽hadoop的声音渐渐多起来之后，spark也逐渐进入了大家的视野。之前，笔者有粗略的写过一篇spark的安装和性能比较[http://www.cnblogs.com/zacard-orc/p/3526007.html]，加上这两天重读着大学时候的一些基础书籍，感觉IT领域大局势... 阅读全文

posted @ 2014-04-18 20:26 RichardParker 阅读(16194) 评论(2) 推荐(0)

2014年4月5日

记录近期小改Apriori至MapReduce上的心得

摘要： ·背景前一阵，一直在研究一些ML的东东，后来工作关系暂停了一阵。现在继续把剩下一些热门的算法再吃吃透，"无聊+逗比"地把他们搞到MapReduce上。这次选择的入手对象为Apriori，也就是大家俗称的"关联规则挖掘"，有别于CF（协同过滤）的正交输出。再俗一点，就是常被人提及的"啤酒+面包"的故事。 ·Apriori算法简介在关联规则挖掘方面，有两项著名的算法：Apriori和FPgrowth。两者各有特点，由于计算量级别的差异，越来越多的人选择了后者。但这并不意味着Apriori就是垃圾。个人的理解，FPg 阅读全文

posted @ 2014-04-05 10:37 RichardParker 阅读(1819) 评论(0) 推荐(0)

2014年3月31日

拾人牙慧，浅记一些C++的类

摘要：这两天没事又翻了翻Primer，发现自己上岁数了，记单词能力开始下降，索引把一些简单的例子记下来，把一些肥肉剔除，剩一下骨头，方便今后Ctrl+F。在此感谢： http://ticktick.blog.51cto.com/823160/194307/ http://www.cnblogs.com/gaojun/archive/2010/09/10/1823354.html http://www.cnblogs.com/uniqueliu/archive/2011/08/02/2125590.html一、类的初始化--构造函数。#include#include#incl... 阅读全文

posted @ 2014-03-31 22:16 RichardParker 阅读(743) 评论(0) 推荐(0)

2014年3月18日

Redis 3.0集群搭建/配置/FAQ

摘要： ·声明 1，已官网中文教程为基础，边看边学，结合环境现状搭建。 2，哥对Ruby不热爱、不熟悉、不感冒，所述内容如有疑义请谅解。 3，3.0官说集群还在测试中，其实用用也还算马马虎虎，对外集群API真心少，望有识之士能够出力。 ·准备材料 VM9，CentOS 6.4_x86_64（2.6+），SecureCRT，CentOS-6.4-x86_64-bin-DVD1.iso redis官网：redis-3.0.0-beta1.tar.gz ruby官网：rubygems-2.0.7.zip rubygem官网：redis-3.0.7.gem ·下锅 1，把一些基础阅读全文

posted @ 2014-03-18 20:28 RichardParker 阅读(8559) 评论(1) 推荐(3)

2014年3月15日

Redis MSET的极限在哪里

摘要： ·背景 Redis以"快、准、狠"而著称，除了其主-从模式略失光彩（主从模式更多是被以讹传讹，3.0依旧在测试中），大部分的应用可谓尖兵利器。在一些常规写的时候，MSET和HMSET也是被大家最推崇的模式之一，之前网上有篇文章说到M的极限在200以后会趋于饱和，那么究竟是不是这样，今天无聊做了下测试。·测试场景 ·配置：Lenovo E49 Corei5/VM9/CentOS 6(2.6)/2C/2G/10GDISK/纯单机，走127.0.0.1 ·数量：测试K-V量100万条，变量为M和C。M为一次带上的K-V条数，C为轮训次数（阅读全文

posted @ 2014-03-15 19:21 RichardParker 阅读(6338) 评论(0) 推荐(0)

2014年3月13日

图-指尖上的舞蹈

摘要： ·背景在大部分数据结构的讲义中，图一般出现在第7章。可惜当年没好好学，现在重新拿出来啃一遍。印象中不少老师对于该章节都填鸭式的带过或者摆在最后开讲，也许因为当年LBS并不流行。在其章节后的是一些排序和管理，但就概念复杂度或者封装流行度而言，图还是更难一点。如果仅靠伪代码，需要更长的时间来消化。图，也许就像游戏中的最终BOSS一样，其恐惧、神秘、优雅、传说还是吸引着众多Fans们趋之若鹜。这两天边回忆、边吃饭、边吐血、边洗澡把最常用的一些观点重新笔记下来，但其实也只是冰山一角。 ·分解历经百年，图的构成和运用已经遍布生活，其中欧洲人对于这块的贡献最大。整个图衍生出多个发展阅读全文

posted @ 2014-03-13 12:40 RichardParker 阅读(861) 评论(2) 推荐(0)

2014年3月9日

拥抱大家庭，nodejs走thrift

摘要：拥抱大家庭，nodejs走thrift。最贱的例子，nodejs与nodejs之间走thrift对传。1，官网下载http://mirrors.cnnic.cn/apache/thrift/0.9.1/thrift-0.9.1.exe2，编辑xuser.thriftstruct User{ 1: string uid, 2: string uname, 3: bool usex, 4: i16 uage } service UserService{ void add(1: User u), string adduname(1: str... 阅读全文

posted @ 2014-03-09 18:57 RichardParker 阅读(5664) 评论(0) 推荐(0)

2014年2月26日

用HMM（隐马）图解三国杀的于吉“质疑”

摘要： ·背景最近乘闲暇之余初探了HMM（隐马尔科夫模型），觉得还有点意思，但是网上的教程都超级枯草，可读性很差，抄来抄去的，一堆公式仍在你面前，谁能搞的懂（但园内的两篇写的还算不错。真才实学）。在熬制3天后，把这篇心得反馈给各位码友，为了更加生动的说明模型，特举例三国杀的"于吉"以便加深各位印象。·于吉武将技：【蛊惑】——你可以说出任何一种基本牌或非延时类锦囊牌，并正面朝下使用或打出一张手牌。若无人质疑，则该牌按你所述之牌结算。若有人质疑则亮出验明：若为真，质疑者各失去1点体力；若为假，质疑者各摸1张牌。无论真假，弃置被质疑的牌。仅当被质疑的牌为红桃花色且为阅读全文

posted @ 2014-02-26 18:50 RichardParker 阅读(2720) 评论(0) 推荐(2)

2014年2月24日

小记NodeJS两项小技巧（与HTTP相关）

摘要： 1，兼容HTTP1.1和HTTP1.0 区别在content-length，1.0接受定长，不接受变长，导致transfer-encodeing的chunked模式无法识别，最终导致无法识别BODY。需要在HTTP1.1的header中指定content-length。2，作为HTTP客户端如何设定超时除了异步之外，http request也是个头大的问题，给自己加个超时可以是程序更健康，推荐如下做法。在req.end()之后，加上settimeout，如下。 setTimeout(function(){ req.abort(); //console.log... 阅读全文

posted @ 2014-02-24 19:10 RichardParker 阅读(239) 评论(0) 推荐(0)

2014年2月22日

NodeJS，我对“高、高、非”的一些看法

摘要： ·众所周知 NodeJS三大神器"事件驱动，V8，回调函数"。 ·事件驱动，故名思议：等快递和收快递区别。NodeJS将原先大牛们掌握的神神秘秘的EPOLL走向大众化，这点是最大的贡献。当然事件驱动最早最有发言权的还是FLASH拥护者，在那个学校只教授顺序编程的年代里，一些广为流传的FLASH作品都源自事件驱动。 ·V8：初闻该名比较深奥。网上有不少介绍不再累述，个人理解快在JIT和HASH定位对象上，跳过了CLASS代码。 ·事件回调：这些年比较流行的风格，熟悉之后如沐清风，不熟悉的时候死活想不明白。仅接着，围绕着三项，无论是官方阅读全文

posted @ 2014-02-22 22:08 RichardParker 阅读(2032) 评论(4) 推荐(3)

2014年2月21日

记录近期小改K-Means至MapReduce上的心得

摘要：背景：在所有聚类算法中KMeans算是表面上最简单的一种，没有过多恼人的古希腊符号公式，没有过分繁杂的公式嵌套。对于一个初学矩阵或者仅有向量概念的非专业人士的来说，不可不畏是一把踹门利器。这个世界上越是简单的东西，其实越是复杂，尤其在笔者将其改造成MapReduce时，发现并非那么容易一跃而过。虽然有现成的代码供把玩，但是对于练手还是值得一试。心得： · 纯理论一笔带过 KMean的大致实现过程就是任意指定N个的质心，然后对所有星星进行遍历，寻找与这个N个质心距离最近欧几里得距离的星星，将其归为一类，再从这一类中重新计算N个质心坐标属性。直至这N个质心坐标变化DELTA小至自己设阅读全文

posted @ 2014-02-21 00:12 RichardParker 阅读(2020) 评论(0) 推荐(0)

2014年2月12日

脱O把妹，记录这一周来迁移至MySQL的一些心得

摘要： · 背景公司要把一些老设备退服，一些陪伴我多年的DB要下线了，舍不得。正好借此机会，手贱把自己3个"回收站"DB迁移到MySQL上，也算是赶一把时髦。等真正看着这些老设备下线了的那一天，也会不尽感叹一个时代结束了。· 心得芒果：爱你不容易，开始我想是往上迁，因为文档多/API多，游刃有余，支持不规则列，最符合我的需要。可惜，除了字符集之外。。。详见后面第7点。共享OR独立：最早碰到的问题当属目标数据库的容量和存储设计，两者表空间管理上各有优势。开始一心想用Raw设备+innodb，但发现在共享和独立表空间上出现了卡壳，共享表空间可以发挥RAW设备优势阅读全文

posted @ 2014-02-12 20:16 RichardParker 阅读(1243) 评论(2) 推荐(0)

2014年2月6日

Linux MySQL自己环境搭建的笔记

摘要： cd /usr/share/selinuxsetenforce 0tar -xvf MySQL-5.6.12-1.el6.x86_64.rpm-bundle.tarrpm -qa|grep -i mysqlyum -y remove mysql-libs*rpm -e mysql*rpm -ivh MySQL-server-5.6.12-1.el6.x86_64.rpmrpm -ivh MySQL-client-5.6.12-1.el6.x86_64.rpmrpm -ivh MySQL-devel-5.6.12-1.el6.x86_64.rpmservice mysql stop vim /e 阅读全文

posted @ 2014-02-06 15:19 RichardParker 阅读(393) 评论(1) 推荐(0)

2014年2月5日

用Iconv应对NodeJs对称加密技术在汉字编码与NoSQL的一些坑洞

摘要： ·起因汉字编码技术在实际应用中总是会存在这样或者那样的问题，尤其是在一些热门NoSQL方面多少会遇到挑战。比方说Cassandra字符集还不直接支持GB2312，要想存储写汉字那可真是麻烦。当然这还不算什么，原来以为的CRYPTO值得欣喜，当字符集遇上加解密时会更加痛苦，下面笔者会例举几个文本来对此进行说明。 ·原理关于对称加密技术：NodeJS算是比较亲民的，官网给了很多模块，唯独缺... 阅读全文

posted @ 2014-02-05 15:47 RichardParker 阅读(1521) 评论(2) 推荐(1)

2014年1月19日

Spark集群搭建简配+它到底有多快？【单挑纯C/CPP/HADOOP】

摘要：最近耳闻Spark风生水起，这两天利用休息时间研究了一下，果然还是给人不少惊喜。可惜，笔者不善JAVA，只有PYTHON和SCALA接口。花了不少时间从零开始认识PYTHON和SCALA，不少时间答了VIM的IDE，总算走入正途。下面将一些SPARK集群搭建心得简单写一下。期间也零星碰到不少问题。//spark 1，去mirror站点下138M大小的编译好的包，去下SCALA 2.9.X，HADOOP该启动的启动2，配置各种$HOME和$PATH配置$SPARK_HOME/conf/spark-env.sh中的javahome,scalehome,sparkhome配置slaves文件加入主机阅读全文

posted @ 2014-01-19 16:27 RichardParker 阅读(4104) 评论(3) 推荐(0)

2014年1月11日

关于小改CF协同过滤至MapReducer上的一些心得

摘要：至上次重写ID3 MR版之后，手贱继续尝试CF。之前耳闻CF这两年内非常火，论内某大神也给了单机版（90%代码来自于其）。所以想试试能否改到MR上。整体来说，CF本身的机制以相似性为核心，与迭代调用几乎无关联。所以在MR上的表现，未必能完全发挥MR作用。基本上是线性路子，一走到底。原先网上也有不少CF的介绍，不过以文文图图居多，对CF的时序性逻辑表达较少，讲的比较隐晦，现在通过代码剖析重新将其展现在大家面前（纯粹理论此处略过）：先贴图，贴图是王道：1，整个MR过程其实与单机版90%重叠。仅期望在Mapper过程中，尽可能地先构建后评分矩阵，减少Reducer压力。2，与大多数机器学习特性一样，阅读全文

posted @ 2014-01-11 17:17 RichardParker 阅读(921) 评论(2) 推荐(0)

公告