09 2017 档案
摘要:作者从容错、性能等方面优化了长时间运行在yarn上的spark-Streaming作业 对于长时间运行的Spark Streaming作业,一旦提交到YARN群集便需要永久运行,直到有意停止。任何中断都会引起严重的处理延迟,并可能导致数据丢失或重复。YARN和Apache Spark都不是为了执行长
阅读全文
摘要:生产者 消费者 查询topic的offset offset最小值 offset最大值 可以查询出offset的范围
阅读全文
摘要:Kafka消息发布客户端。 线程安全,跨线程共享单个生产者实例通常比拥有多个实例的速度更快。 例子,使用生产者发送包含序列号的字符串作为键/值对的记录:
阅读全文
摘要:1,Application application(应用)其实就是用spark-submit提交的程序。比方说spark examples中的计算pi的SparkPi。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和ac
阅读全文
摘要:Spark Streaming 近实时数据处理 Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Soc
阅读全文
摘要:介绍Spark SQL的JSON支持,这是我们在Databricks中开发的一个功能,可以在Spark中更容易查询和创建JSON数据。随着网络和移动应用程序的普及,JSON已经成为Web服务API以及长期存储的常用的交换格式。使用现有的工具,用户通常会使用复杂的管道来在分析系统中读取和写入JSON数
阅读全文
摘要:http://www.cnblogs.com/1130136248wlxk/articles/6289717.html
阅读全文
摘要:基于Receivers的方法 这个方法使用了Receivers来接收数据。Receivers的实现使用到Kafka高层次的消费者API。对于所有的Receivers,接收到的数据将会保存在Spark executors中,然后由Spark Streaming启动的Job来处理这些数据。 然而,在默认
阅读全文
摘要:RDD的弹性表现: 1、弹性之一:自动的进行内存和磁盘数据存储的切换; 2、弹性之二:基于Lineage的高效容错(第n个节点出错,会从第n-1个节点恢复,血统容错); Lineage由spark的依赖关系确定。3、弹性之三:Task如果失败会自动进行特定次数的重试(默认4次); 4、弹性之四:St
阅读全文
摘要:Running Spark on YARN 对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的,后续的版本也一直持续在改进。 Launching Spark on YARN 确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群的(
阅读全文
摘要:概述 在高层次上,每个Spark应用程序都由一个运行用户main方法的driver program组成,并在集群上执行各种 parallel operations。Spark提供的主要抽象是resilient distributed dataset (RDD),它是可以并行操作的群集节点之间分配的元
阅读全文
摘要:概述 Spark SQL是用于结构化数据处理的Spark模块。它提供了一个称为DataFrames的编程抽象,也可以作为分布式SQL查询引擎。 Spark SQL也可用于从现有的Hive安装中读取数据。有关如何配置此功能的更多信息,请参阅Hive Tables部分。 DataFrames DataF
阅读全文
摘要:一:介绍 1.在spark编译时支持hive 2.默认的db 当Spark在编译的时候给定了hive的支持参数,但是没有配置和hive的集成,此时默认使用hive自带的元数据管理:Derby数据库。 二:具体集成 1.将hive的配合文件hive-site.xml添加到spark应用的classpa
阅读全文
摘要:用mysql -u root -p显示ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES). 编辑mysql配置文件my.ini(不知道在哪请搜索),在[mysqld]这个条目下加入 s
阅读全文

浙公网安备 33010602011771号