2017 年 9月随笔档案 - Mr.Ming2

【译】Yarn上常驻Spark-Streaming程序调优

摘要：作者从容错、性能等方面优化了长时间运行在yarn上的spark-Streaming作业对于长时间运行的Spark Streaming作业，一旦提交到YARN群集便需要永久运行，直到有意停止。任何中断都会引起严重的处理延迟，并可能导致数据丢失或重复。YARN和Apache Spark都不是为了执行长阅读全文

posted @ 2017-09-30 15:02 Mr.Ming2 阅读(5707) 评论(0) 推荐(2)

【Kafka】操作命令

摘要：生产者消费者查询topic的offset offset最小值 offset最大值可以查询出offset的范围阅读全文

posted @ 2017-09-30 10:59 Mr.Ming2 阅读(349) 评论(0) 推荐(0)

【Kafka】

摘要：Kafka消息发布客户端。线程安全，跨线程共享单个生产者实例通常比拥有多个实例的速度更快。例子，使用生产者发送包含序列号的字符串作为键/值对的记录：阅读全文

posted @ 2017-09-26 18:03 Mr.Ming2 阅读(235) 评论(0) 推荐(0)

Spark组件

摘要：1，Application application（应用）其实就是用spark-submit提交的程序。比方说spark examples中的计算pi的SparkPi。一个application通常包含三部分：从数据源（比方说HDFS）取数据形成RDD，通过RDD的transformation和ac 阅读全文

posted @ 2017-09-25 16:10 Mr.Ming2 阅读(355) 评论(0) 推荐(0)

Spark Streaming

摘要：Spark Streaming 近实时数据处理 Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Soc 阅读全文

posted @ 2017-09-20 10:40 Mr.Ming2 阅读(618) 评论(0) 推荐(0)

Spark sql ---JSON

摘要：介绍Spark SQL的JSON支持，这是我们在Databricks中开发的一个功能，可以在Spark中更容易查询和创建JSON数据。随着网络和移动应用程序的普及，JSON已经成为Web服务API以及长期存储的常用的交换格式。使用现有的工具，用户通常会使用复杂的管道来在分析系统中读取和写入JSON数阅读全文

posted @ 2017-09-15 17:31 Mr.Ming2 阅读(5570) 评论(0) 推荐(0)

【转】Spark运行过程

摘要：http://www.cnblogs.com/1130136248wlxk/articles/6289717.html 阅读全文

posted @ 2017-09-14 16:45 Mr.Ming2 阅读(194) 评论(0) 推荐(0)

【转】Spark Streaming和Kafka整合开发指南

摘要：基于Receivers的方法这个方法使用了Receivers来接收数据。Receivers的实现使用到Kafka高层次的消费者API。对于所有的Receivers，接收到的数据将会保存在Spark executors中，然后由Spark Streaming启动的Job来处理这些数据。然而，在默认阅读全文

posted @ 2017-09-14 14:26 Mr.Ming2 阅读(329) 评论(0) 推荐(0)

Spark ---RDD

摘要：RDD的弹性表现: 1、弹性之一：自动的进行内存和磁盘数据存储的切换； 2、弹性之二：基于Lineage的高效容错（第n个节点出错，会从第n-1个节点恢复，血统容错）； Lineage由spark的依赖关系确定。3、弹性之三：Task如果失败会自动进行特定次数的重试（默认4次）； 4、弹性之四：St 阅读全文

posted @ 2017-09-13 17:24 Mr.Ming2 阅读(484) 评论(0) 推荐(0)

Running Spark on YARN

摘要：Running Spark on YARN 对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的，后续的版本也一直持续在改进。 Launching Spark on YARN 确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群的（阅读全文

posted @ 2017-09-13 15:27 Mr.Ming2 阅读(393) 评论(0) 推荐(0)

Spark官方2 ---------Spark 编程指南（1.5.0）

摘要：概述在高层次上，每个Spark应用程序都由一个运行用户main方法的driver program组成，并在集群上执行各种 parallel operations。Spark提供的主要抽象是resilient distributed dataset (RDD)，它是可以并行操作的群集节点之间分配的元阅读全文

posted @ 2017-09-12 18:01 Mr.Ming2 阅读(278) 评论(0) 推荐(0)

Spark官方1 ---------Spark SQL和DataFrame指南（1.5.0）

摘要：概述 Spark SQL是用于结构化数据处理的Spark模块。它提供了一个称为DataFrames的编程抽象，也可以作为分布式SQL查询引擎。 Spark SQL也可用于从现有的Hive安装中读取数据。有关如何配置此功能的更多信息，请参阅Hive Tables部分。 DataFrames DataF 阅读全文

posted @ 2017-09-05 15:55 Mr.Ming2 阅读(963) 评论(0) 推荐(0)

spark与hive的集成

摘要：一：介绍 1.在spark编译时支持hive 2.默认的db 当Spark在编译的时候给定了hive的支持参数，但是没有配置和hive的集成，此时默认使用hive自带的元数据管理:Derby数据库。二：具体集成 1.将hive的配合文件hive-site.xml添加到spark应用的classpa 阅读全文

posted @ 2017-09-05 15:11 Mr.Ming2 阅读(790) 评论(0) 推荐(0)

[mysql] ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES).

摘要：用mysql -u root -p显示ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES). 编辑mysql配置文件my.ini（不知道在哪请搜索），在[mysqld]这个条目下加入 s 阅读全文

posted @ 2017-09-05 09:13 Mr.Ming2 阅读(2072) 评论(0) 推荐(0)

Mr.Ming2

09 2017 档案

公告