摘要: 小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。 任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,没一个object占用150 bytes的内存空间。所以,如果有10million个文件,没一个文件对应一个block,那么就将要消耗namenode 3G的内存来保存这些block的信息。如果规模再大一些,那么将会超出现阶段计算机硬件所能满足的极限。 . 阅读全文
posted @ 2013-11-02 14:38 TheBug 阅读(1446) 评论(1) 推荐(2) 编辑
摘要: Facebook运行着全球最大的MySQL数据库集群,该集群分布在两个大洲上的多个数据中心中数以千计的服务器上。让人不解的是,Facebook只动用了一个很小的团队来管理这个庞大的MySQL数据库集群。 近日Facebook的Shlomo Priymak在Facebook博客上发文揭开了这个秘密。Facebook的秘诀就是Facebook自己开发的MySQL Pool Scanner(MPS),MPS能完成一个MySQL数据库管理员(BDA)的几乎所有运营维护工作,使得Facebook的数据库集群运营能够实现高度的自动化。 据Priymak介绍,MPS非常复杂,代码大部分由Pyth... 阅读全文
posted @ 2013-11-02 13:18 TheBug 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 随着科技进步,人类活动使数据以惊人的速度产生。毋庸置疑,我们已经进入大数据时代,这些庞杂的数据是垃圾也孕育商机。随着数据分析能力的提高,营销人将能更快速高效成本低廉的使用大数据。未来三年,71%的营销将开始使用大数据营销。 阅读全文
posted @ 2013-11-02 11:46 TheBug 阅读(564) 评论(0) 推荐(0) 编辑