随笔档案「2020年6月」 - Michael云擎

量子力学

摘要：阅读全文

posted @ 2020-06-13 13:28 Michael云擎阅读(152) 评论(0) 推荐(0)

摘要：1、概述 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业，在2008年，Hadoop在1TB排序基准评估中赢得第一名，耗时209秒。那么Terasort在Hadoop中是怎样实现的呢？本文主要从算法设计角度分析Terasort作业。 2、算法阅读全文

posted @ 2020-06-11 11:45 Michael云擎阅读(1348) 评论(0) 推荐(0)

hadoop —— teragen & terasort

摘要：这两个类所在目录： hadoop-examples-0.20.2-cdh3u6.jar 中：代码： TeraGen.java： /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributo 阅读全文

posted @ 2020-06-11 11:41 Michael云擎阅读(416) 评论(0) 推荐(0)

spark本地读取写入s3文件

摘要：1.关于S3，S3N和S3A的区别与联系（wiki:https://wiki.apache.org/hadoop/AmazonS3） S3 Native FileSystem (URI scheme: s3n) A native filesystem for reading and writing 阅读全文

posted @ 2020-06-10 22:56 Michael云擎阅读(2689) 评论(0) 推荐(0)

将 Spark Streaming 的结果保存到 S3

摘要：将spark解析的结果保存到S3 这个和保存到本地的区别在于，你需要配置aws的key和密码，以及它的region，代码如下 package com.alo7.spark import java.util.Properties import test07.DWReadS3LogToKafka_Tpu 阅读全文

posted @ 2020-06-10 22:44 Michael云擎阅读(222) 评论(0) 推荐(0)

经 EMRFS S3 优化的提交程序的要求

摘要：经 EMRFS S3 优化的提交程序的要求 https://docs.aws.amazon.com/zh_cn/emr/latest/ReleaseGuide/emr-spark-committer-reqs.html 满足以下条件时，将使用经 EMRFS S3 优化的提交程序：您可以运行使用 S 阅读全文

posted @ 2020-06-10 22:35 Michael云擎阅读(267) 评论(0) 推荐(0)

聊一聊Spark写文件的机制——如何保证数据一致性

摘要：聊这个问题的原因是，本周在测试环境遇到了一例从Spark往S3写数据失败的情况，花了些时间来搞清楚个中缘由，这里整理出来与大家分享，期望能对同道中人有所帮助。背景在笔者的数据系统中，每天会定时启动一个Spark批处理程序，对前一天的流处理结果进行合并、整理，然后写入AWS S3，从而提供尽可能快阅读全文

posted @ 2020-06-10 22:34 Michael云擎阅读(1069) 评论(0) 推荐(0)

再谈Spark下写S3文件的File Output Committer问题

摘要：在《聊一聊Spark写文件的机制——如何保证数据一致性》一文中，我们分析了Spark写文件的机制，探讨了多个File Output Committer在性能与数据一致性上的权衡，以及针对AWS S3这样的对象存储的优化思路。文章结尾处，曾提到我们将会采用EMRFS S3-optimized Comm 阅读全文

posted @ 2020-06-10 22:33 Michael云擎阅读(680) 评论(0) 推荐(0)

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

摘要：亚马逊AWS官方博客使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能 by AWS Localization | on 26 NOV 2019 | in AWS Big Data | Permalink | Share Ori 阅读全文

posted @ 2020-06-10 22:27 Michael云擎阅读(438) 评论(0) 推荐(0)

Michael云擎的技术博客

主要用于学习笔记和网上技术文章的收藏记录 ~

06 2020 档案

公告