2013 年 1月 5 日随笔档案 - 肉馅饺子

2013年1月5日

摘要：需要低延迟访问数据在毫秒范围内的应用并不适合HDFS。HDFS是为达到高数据吞吐量而优化的。这有可能会以延迟为代价。目前，对于低延迟访问，HBase是更好的选择。名称节点（namenode)存储着文件系统的元数据，因此文件数量的限制也由名称节点的内存量决定。根据经验，每个文件，索引目录以及块占大约150个字节。因此，举例来说，如果有一百万个文件，每个文件占一个块，就至少需要300MB的内存。虽然存储上百万的文件是可执行的，十亿或更多的文件就超出目前硬件的能力了。阅读全文

posted @ 2013-01-05 18:45 肉馅饺子阅读(1347) 评论(0) 推荐(0)

partition,shuffle(hadoop权威指南)

摘要：如果有多个reduer,map任务会对其输出进行分区，为每个reduce任务创建一个分区（partition）。每个分区包含许多键（及其关联的值），但每个键的记录都在同一个分区中。分区可以通过用户定义的partitioner 来控制，但通常是用默认的分区工具，它使用的是hash函数来形成“木桶”键/值，这种方法效率很高。map和reduce 任务之间的数据流为什么要成为“shuffle"(洗牌），因为每个reduce任务的输入都由许多map任务来提供。阅读全文

posted @ 2013-01-05 17:16 肉馅饺子阅读(212) 评论(0) 推荐(0)

二分法查找

摘要：二分查找又称折半查找，优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表。重复以上过程，直到找到满足条件的记录，使查找成功，或直到子表不存在为止，此时查找不成功。阅读全文

posted @ 2013-01-05 16:52 肉馅饺子阅读(128) 评论(0) 推荐(0)

sql server Agent ssis 部署问题

摘要： job 里面的ssis 不能连通数据源。主要看完错误日志后我将sql server agent 的登陆用户有 local system 改为域用户登陆。再执行。结果成功！注意：job的所有者设为windows用户不要设为sa有疑问可再参考一下：http://www.itpub.net/thread-811886-1-1.html 阅读全文

posted @ 2013-01-05 13:44 肉馅饺子阅读(181) 评论(0) 推荐(0)

hadoop自定义类型注意问题

摘要：自定义类型要实现WritableComparable 接口，（之前只实现Writable ，结果报错）问题的主要原因是因为自定义类型在Partitioners 阶段要用到hashCode() 方法，以及compareTo（），也可以看一下IntWritable的实现代码。所有还是要了解hadoop数据流的整个流程，遇到问题时才游刃有余。import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public 阅读全文

posted @ 2013-01-05 13:28 肉馅饺子阅读(342) 评论(0) 推荐(0)

公告