打赏

随笔分类 -  Hadoop

摘要:问题 在写MR代码输出query对应embedding向量时,出现了每个part中最后一个query对应的embedding维度输出不全的问题,但是part中其他embedding维度都是全的,在本地测试也没有问题。 原因分析 以上说明预测embedding的代码本身是没有问题的,MR框架本身也没有 阅读全文
posted @ 2020-09-17 08:09 listenviolet 阅读(194) 评论(0) 推荐(0)
摘要:(1) 【join爆内存】 在join之前,对这两部分数据,分别能先reduce的先reduce, 降低join时候分给每个reducer的条目数。 比如要拼接两份数据,每份数据A, B中相同key的条目最多有上百万条。 可以先分别对A, B先进行reduce操作,之后再join, 这样join时候 阅读全文
posted @ 2020-08-14 10:45 listenviolet 阅读(513) 评论(0) 推荐(0)
摘要:确定map任务数时依次优先参考如下几个原则: 1) 每个map任务使用的内存不超过800M,尽量在500M以下 比如处理256MB数据需要的时间为10分钟,内存为800MB,此时如果处理128MB时,内存可以减小为400MB,则选择每一个map的处理数据量为128MB 2) 每个map任务运行时间控 阅读全文
posted @ 2020-08-14 10:02 listenviolet 阅读(1290) 评论(0) 推荐(0)