摘要: 原文链接: https://data-flair.training/blogs/data-locality-in-hadoop-mapreduce/ 1、什么是数据本地性 数据本地性(Data locality)是指将计算移动到数据所在的节点,而不是移动数据移动到计算所在的节点。在Hadoop中,一 阅读全文
posted @ 2021-06-17 20:44 ralgo 阅读(661) 评论(0) 推荐(0)
摘要: InputSplit是block和mapper之间的代理,也即是为mapper提供了一个数据视图。 我们以HDFS的block的大小为128MB举例,当一行日志为130MB(包括行分隔符),这一行数据会被分在两个block中,如果mapper直接读block的话,会读到一个被截断的行日志。这是为什么 阅读全文
posted @ 2021-06-17 16:03 ralgo 阅读(361) 评论(0) 推荐(0)