Hadoop - 随笔分类 - listenviolet

[python] MR输出单条信息不全的问题-python输出缓冲

摘要：问题在写MR代码输出query对应embedding向量时，出现了每个part中最后一个query对应的embedding维度输出不全的问题，但是part中其他embedding维度都是全的，在本地测试也没有问题。原因分析以上说明预测embedding的代码本身是没有问题的，MR框架本身也没有阅读全文

posted @ 2020-09-17 08:09 listenviolet 阅读(194) 评论(0) 推荐(0)

[Hadoop] reduce爆内存的解决方法

摘要：(1) 【join爆内存】在join之前，对这两部分数据，分别能先reduce的先reduce, 降低join时候分给每个reducer的条目数。比如要拼接两份数据，每份数据A, B中相同key的条目最多有上百万条。可以先分别对A， B先进行reduce操作，之后再join, 这样join时候阅读全文

posted @ 2020-08-14 10:45 listenviolet 阅读(513) 评论(0) 推荐(0)

[Hadoop] mapper数量的控制

摘要：确定map任务数时依次优先参考如下几个原则： 1) 每个map任务使用的内存不超过800M，尽量在500M以下比如处理256MB数据需要的时间为10分钟，内存为800MB，此时如果处理128MB时，内存可以减小为400MB，则选择每一个map的处理数据量为128MB 2) 每个map任务运行时间控阅读全文

posted @ 2020-08-14 10:02 listenviolet 阅读(1290) 评论(0) 推荐(0)

认真积累每一天

随笔分类 - Hadoop

公告