摘要:
需要低延迟访问数据在毫秒范围内的应用并不适合HDFS。HDFS是为达到高数据吞吐量而优化的。这有可能会以延迟为代价。目前,对于低延迟访问,HBase是更好的选择。名称节点(namenode)存储着文件系统的元数据,因此文件数量的限制也由名称节点的内存量决定。根据经验,每个文件,索引目录以及块占大约150个字节。因此,举例来说,如果有一百万个文件,每个文件占一个块,就至少需要300MB的内存。虽然存储上百万的文件是可执行的,十亿或更多的文件就超出目前硬件的能力了。 阅读全文
posted @ 2013-01-05 18:45
肉馅饺子
阅读(1347)
评论(0)
推荐(0)
摘要:
如果有多个reduer,map任务会对其输出进行分区,为每个reduce任务创建一个分区(partition)。每个分区包含许多键(及其关联的值),但每个键的记录都在同一个分区中。分区可以通过用户定义的partitioner 来控制,但通常是用默认的分区工具,它使用的是hash函数来形成“木桶”键/值,这种方法效率很高。map和reduce 任务之间的数据流为什么要成为“shuffle"(洗牌),因为每个reduce任务的输入都由许多map任务来提供。 阅读全文
posted @ 2013-01-05 17:16
肉馅饺子
阅读(212)
评论(0)
推荐(0)
摘要:
二分查找又称折半查找,优点是比较次数少,查找速度快,平均性能好;其缺点是要求待查表为有序表,且插入删除困难。因此,折半查找方法适用于不经常变动而查找频繁的有序列表。首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则利用中间位置记录将表分成前、后两个子表,如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否则进一步查找后一子表。重复以上过程,直到找到满足条件的记录,使查找成功,或直到子表不存在为止,此时查找不成功。 阅读全文
posted @ 2013-01-05 16:52
肉馅饺子
阅读(128)
评论(0)
推荐(0)
摘要:
job 里面的ssis 不能连通数据源。主要看完错误日志后我将sql server agent 的登陆用户有 local system 改为 域用户登陆。再执行。结果成功!注意:job的所有者设为windows用户 不要设为sa有疑问可再参考一下:http://www.itpub.net/thread-811886-1-1.html 阅读全文
posted @ 2013-01-05 13:44
肉馅饺子
阅读(181)
评论(0)
推荐(0)
摘要:
自定义类型要实现WritableComparable 接口,(之前只实现Writable ,结果报错)问题的主要原因是因为自定义类型在Partitioners 阶段要用到hashCode() 方法,以及compareTo(),也可以看一下IntWritable的实现代码。所有还是要了解hadoop数据流的整个流程,遇到问题时才游刃有余。import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public 阅读全文
posted @ 2013-01-05 13:28
肉馅饺子
阅读(342)
评论(0)
推荐(0)
浙公网安备 33010602011771号