摘要: 自定义类型要实现WritableComparable 接口,(之前只实现Writable ,结果报错)问题的主要原因是因为自定义类型在Partitioners 阶段要用到hashCode() 方法,以及compareTo(),也可以看一下IntWritable的实现代码。所有还是要了解hadoop数据流的整个流程,遇到问题时才游刃有余。import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public 阅读全文
posted @ 2013-01-05 13:28 肉馅饺子 阅读(343) 评论(0) 推荐(0)
摘要: 摘自:http://my.oschina.net/heguangdong/blog/135825crontab 取不到环境变量0人收藏此文章, 我要收藏 发表于昨天(19:14)(2013-06-05 19:14) , 已有21次阅读 ,共0个评论今天遇到一个问题,觉得有一些价值和大家分享一下。脚本在手动执行的情况下,没有问题,但是使用crontab调用的时候,会报环境变量为空,找不到的问题。原因:这其实是crontab的bug,不会缺省从profile文件中读取环境变量的原因导致的。解决办法:方法1:手动exportexport HADOOP_HOME=/data/application/h 阅读全文
posted @ 2013-06-06 16:31 肉馅饺子 阅读(382) 评论(0) 推荐(0)
摘要: 当做分析的时候有时候会接触到中文。因为hadoop默认都是UTF8格式。。读了一下源码,又结合网上的说法重新了一下FileOutPutFormat其实hadoop原本在操作的时候一直操作的是 字节组的载入。问题出在我们手写部分 Text.toString() 方法,他被默认转换成UTF8格式的了。public class GbkOutputFormat<K, V> extends FileOutputFormat<K, V> { protected static class LineRecordWriter<K, V> extends RecordWrite 阅读全文
posted @ 2013-03-09 22:22 肉馅饺子 阅读(2146) 评论(2) 推荐(0)
摘要: 需要低延迟访问数据在毫秒范围内的应用并不适合HDFS。HDFS是为达到高数据吞吐量而优化的。这有可能会以延迟为代价。目前,对于低延迟访问,HBase是更好的选择。名称节点(namenode)存储着文件系统的元数据,因此文件数量的限制也由名称节点的内存量决定。根据经验,每个文件,索引目录以及块占大约150个字节。因此,举例来说,如果有一百万个文件,每个文件占一个块,就至少需要300MB的内存。虽然存储上百万的文件是可执行的,十亿或更多的文件就超出目前硬件的能力了。 阅读全文
posted @ 2013-01-05 18:45 肉馅饺子 阅读(1348) 评论(0) 推荐(0)
摘要: 如果有多个reduer,map任务会对其输出进行分区,为每个reduce任务创建一个分区(partition)。每个分区包含许多键(及其关联的值),但每个键的记录都在同一个分区中。分区可以通过用户定义的partitioner 来控制,但通常是用默认的分区工具,它使用的是hash函数来形成“木桶”键/值,这种方法效率很高。map和reduce 任务之间的数据流为什么要成为“shuffle"(洗牌),因为每个reduce任务的输入都由许多map任务来提供。 阅读全文
posted @ 2013-01-05 17:16 肉馅饺子 阅读(213) 评论(0) 推荐(0)
摘要: 二分查找又称折半查找,优点是比较次数少,查找速度快,平均性能好;其缺点是要求待查表为有序表,且插入删除困难。因此,折半查找方法适用于不经常变动而查找频繁的有序列表。首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则利用中间位置记录将表分成前、后两个子表,如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否则进一步查找后一子表。重复以上过程,直到找到满足条件的记录,使查找成功,或直到子表不存在为止,此时查找不成功。 阅读全文
posted @ 2013-01-05 16:52 肉馅饺子 阅读(129) 评论(0) 推荐(0)
摘要: job 里面的ssis 不能连通数据源。主要看完错误日志后我将sql server agent 的登陆用户有 local system 改为 域用户登陆。再执行。结果成功!注意:job的所有者设为windows用户 不要设为sa有疑问可再参考一下:http://www.itpub.net/thread-811886-1-1.html 阅读全文
posted @ 2013-01-05 13:44 肉馅饺子 阅读(181) 评论(0) 推荐(0)