2017 年 11月随笔档案 - gyhuminyan

log4j

摘要：Log4J的三个组件： Logger：日志记录器，负责收集处理日志记录（如何处理日志） Appender：日志输出目的地，负责日志的输出（输出到什么地方） Layout：日志格式化，负责对输出的日志格式化（以什么形式展现）类结构图（来自http://www.blogjava.net/DLev 阅读全文

posted @ 2017-11-24 11:16 gyhuminyan 阅读(191) 评论(0) 推荐(0)

用 spark-submit 启动应用

摘要：用 spark-submit 启动应用如果用户的应用程序被打包好了，它可以使用 bin/spark-submit 脚本来启动。这个脚本负责设置 Spark 和它的依赖的 classpath，并且可以支持 Spark 所支持的不同的 Cluster Manager 以及 deploy mode（部署阅读全文

posted @ 2017-11-15 09:14 gyhuminyan 阅读(378) 评论(0) 推荐(0)

Using Spark's "Hadoop Free" Build

摘要：Spark uses Hadoop client libraries for HDFS and YARN. Starting in version Spark 1.4, the project packages “Hadoop free” builds that lets you more easi 阅读全文

posted @ 2017-11-15 09:06 gyhuminyan 阅读(286) 评论(0) 推荐(0)

快学scala

摘要：1. 编写一段代码，将a设置为一个n个随机整数的数组，要求随机数介于0(包含)和n(不包含)之间阅读全文

posted @ 2017-11-14 20:02 gyhuminyan 阅读(113) 评论(0) 推荐(0)

Spark Checkpointing

摘要：streaming 应用程序必须 24/7 运行, 因此必须对应用逻辑无关的故障（例如, 系统故障, JVM 崩溃等）具有弹性. 为了可以这样做, Spark Streaming 需要 checkpoint 足够的信息到容错存储系统, 以便可以从故障中恢复.checkpoint 有两种类型的数据. 阅读全文

posted @ 2017-11-07 16:56 gyhuminyan 阅读(207) 评论(0) 推荐(0)

Spark Performance Tuning （性能调优）

摘要：在集群上的 Spark Streaming application 中获得最佳性能需要一些调整.本节介绍了可调整的多个 parameters （参数）和 configurations （配置）提高你的应用程序性能.在高层次上, 你需要考虑两件事情: 通过有效利用集群资源, Reducing the 阅读全文

posted @ 2017-11-07 15:56 gyhuminyan 阅读(799) 评论(0) 推荐(0)

Spark Memory Tuning （内存调优）

摘要：调整 Spark 应用程序的内存使用情况和 GC behavior 已经有很多的讨论在 Tuning Guide 中.我们强烈建议您阅读一下.在本节中, 我们将在 Spark Streaming applications 的上下文中讨论一些 tuning parameters （调优参数）. Spa 阅读全文

posted @ 2017-11-07 15:33 gyhuminyan 阅读(455) 评论(0) 推荐(0)

Sparkstreaming and Kafka

摘要：简介 Kafka 0.10的Spark Streaming集成设计与0.8 Direct Stream方法类似。它提供了简单的并行性，Kafka分区和Spark分区之间的1：1对应关系，以及对偏移量和元数据的访问。但是，由于较新的集成使用新的Kafka消费者API而不是简单的API，所以在使用上阅读全文

posted @ 2017-11-07 15:25 gyhuminyan 阅读(1958) 评论(3) 推荐(1)

使用SparkStreaming实现将数据写到MySQL中

摘要：（1）在pom.xml中加入如下依赖包（2）在MySql中创建数据库和表，命令操作如下（3）使用Java编写一个数据库连接池类（5）打开netcat发送数据（6）提交阅读全文

posted @ 2017-11-07 14:24 gyhuminyan 阅读(7363) 评论(0) 推荐(0)

gyhuminyan

11 2017 档案

公告