会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
我的视频blog地址
http://www.lofter.com/blog/cloudrivers
Michael云擎的技术博客
主要用于学习笔记和网上技术文章的收藏记录 ~
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
46
下一页
2020年8月31日
AWS EC2 优化 CPU 选项
摘要: https://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/instance-optimize-cpu.html 在实例启动期间禁用多线程技术 (AWS CLI) 使用 run-instances AWS CLI 命令,并将 --cpu-opt
阅读全文
posted @ 2020-08-31 12:18 Michael云擎
阅读(777)
评论(0)
推荐(0)
2020年8月28日
chrome 向群组中添加标签页
摘要: 先进入“chrome://flags/#tab-groups”设定页面,将“Tab Groups”选为“Enable”状态。 再进入“chrome://flags/#tab-groups-collapse”设定页面,将“Tab Groups Collapse”选为“Enable”状态。 最后,重新启
阅读全文
posted @ 2020-08-28 22:35 Michael云擎
阅读(690)
评论(0)
推荐(0)
2020年6月13日
量子力学
摘要:
阅读全文
posted @ 2020-06-13 13:28 Michael云擎
阅读(151)
评论(0)
推荐(0)
2020年6月11日
Hadoop中TeraSort算法分析
摘要: 1、概述 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。 2、算法
阅读全文
posted @ 2020-06-11 11:45 Michael云擎
阅读(1341)
评论(0)
推荐(0)
hadoop —— teragen & terasort
摘要: 这两个类所在目录: hadoop-examples-0.20.2-cdh3u6.jar 中: 代码: TeraGen.java: /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributo
阅读全文
posted @ 2020-06-11 11:41 Michael云擎
阅读(413)
评论(0)
推荐(0)
2020年6月10日
spark本地读取写入s3文件
摘要: 1.关于S3,S3N和S3A的区别与联系(wiki:https://wiki.apache.org/hadoop/AmazonS3) S3 Native FileSystem (URI scheme: s3n) A native filesystem for reading and writing
阅读全文
posted @ 2020-06-10 22:56 Michael云擎
阅读(2673)
评论(0)
推荐(0)
将 Spark Streaming 的结果保存到 S3
摘要: 将spark解析的结果保存到S3 这个和保存到本地的区别在于,你需要配置aws的key和密码,以及它的region,代码如下 package com.alo7.spark import java.util.Properties import test07.DWReadS3LogToKafka_Tpu
阅读全文
posted @ 2020-06-10 22:44 Michael云擎
阅读(220)
评论(0)
推荐(0)
经 EMRFS S3 优化的提交程序的要求
摘要: 经 EMRFS S3 优化的提交程序的要求 https://docs.aws.amazon.com/zh_cn/emr/latest/ReleaseGuide/emr-spark-committer-reqs.html 满足以下条件时,将使用经 EMRFS S3 优化的提交程序: 您可以运行使用 S
阅读全文
posted @ 2020-06-10 22:35 Michael云擎
阅读(262)
评论(0)
推荐(0)
聊一聊Spark写文件的机制——如何保证数据一致性
摘要: 聊这个问题的原因是,本周在测试环境遇到了一例从Spark往S3写数据失败的情况,花了些时间来搞清楚个中缘由,这里整理出来与大家分享,期望能对同道中人有所帮助。 背景 在笔者的数据系统中,每天会定时启动一个Spark批处理程序,对前一天的流处理结果进行合并、整理,然后写入AWS S3,从而提供尽可能快
阅读全文
posted @ 2020-06-10 22:34 Michael云擎
阅读(1066)
评论(0)
推荐(0)
再谈Spark下写S3文件的File Output Committer问题
摘要: 在《聊一聊Spark写文件的机制——如何保证数据一致性》一文中,我们分析了Spark写文件的机制,探讨了多个File Output Committer在性能与数据一致性上的权衡,以及针对AWS S3这样的对象存储的优化思路。文章结尾处,曾提到我们将会采用EMRFS S3-optimized Comm
阅读全文
posted @ 2020-06-10 22:33 Michael云擎
阅读(669)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
46
下一页
公告
我的视频blog地址
http://www.lofter.com/blog/cloudrivers