2013 年 11月 2 日随笔档案 - TheBug

2013年11月2日

摘要：小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件，那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件，目录和block，在HDFS中都会被表示为一个object存储在namenode的内存中，没一个object占用150 bytes的内存空间。所以，如果有10million个文件，没一个文件对应一个block，那么就将要消耗namenode 3G的内存来保存这些block的信息。如果规模再大一些，那么将会超出现阶段计算机硬件所能满足的极限。 . 阅读全文

posted @ 2013-11-02 14:38 TheBug 阅读(1487) 评论(1) 推荐(2)

Facebook揭密：如何让MySQL数据库集群自主运行

摘要： Facebook运行着全球最大的MySQL数据库集群，该集群分布在两个大洲上的多个数据中心中数以千计的服务器上。让人不解的是，Facebook只动用了一个很小的团队来管理这个庞大的MySQL数据库集群。近日Facebook的Shlomo Priymak在Facebook博客上发文揭开了这个秘密。Facebook的秘诀就是Facebook自己开发的MySQL Pool Scanner（MPS），MPS能完成一个MySQL数据库管理员（BDA）的几乎所有运营维护工作，使得Facebook的数据库集群运营能够实现高度的自动化。据Priymak介绍，MPS非常复杂，代码大部分由Pyth... 阅读全文

posted @ 2013-11-02 13:18 TheBug 阅读(734) 评论(0) 推荐(0)

大数据营销的优势

摘要：随着科技进步，人类活动使数据以惊人的速度产生。毋庸置疑，我们已经进入大数据时代，这些庞杂的数据是垃圾也孕育商机。随着数据分析能力的提高，营销人将能更快速高效成本低廉的使用大数据。未来三年，71%的营销将开始使用大数据营销。阅读全文

posted @ 2013-11-02 11:46 TheBug 阅读(595) 评论(0) 推荐(0)

jacksu|关注大数据技术

公告