摘要:
SparkStreaming性能调优 合理的并行度 减少批处理所消耗时间的常见方式还有提高并行度。有以下三种方式可以提高并行度: 1.增加接收器数目 有时如果记录太多导致单台机器来不及读入并分发的话,接收器会成为系统瓶颈。这时你就需要通过创建多个输入DStream(这样会创建多个接收器)来增加接收器 阅读全文
posted @ 2017-06-05 15:29
大数据和AI躺过的坑
阅读(1091)
评论(0)
推荐(0)
摘要:
Spark Streaming容错 检查点机制-checkpoint 什么是检查点机制? Spark Streaming 周期性地把应用数据存储到诸如HDFS 或Amazon S3 这样的可靠存储系统中以供恢复时使用的机制叫做检查点机制 检查点机制的作用 控制发生失败时需要重算的状态数 Spark 阅读全文
posted @ 2017-06-05 15:27
大数据和AI躺过的坑
阅读(751)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! SparkStreaming的高层抽象DStream 为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流。 DStream 是一个持续的RDD 序列。 可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新 阅读全文
posted @ 2017-06-05 15:10
大数据和AI躺过的坑
阅读(571)
评论(0)
推荐(0)
摘要:
SparkStreaming运行原理 Spark Streaming不断的从数据源获取数据(连续的数据流),并将这些数据按照周期划分为batch。 Spark Streaming将每个batch的数据交给Spark Engine来处理(每个batch的处理实际上还是批处理,只不过批量很小,计算速度很 阅读全文
posted @ 2017-06-05 15:08
大数据和AI躺过的坑
阅读(365)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! Spark Streaming的竞争对手 Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个 阅读全文
posted @ 2017-06-05 14:58
大数据和AI躺过的坑
阅读(447)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! 性能调优 Caching Data In Memory Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache(),将表用一种柱状格式( an inmemory columnar format)缓 阅读全文
posted @ 2017-06-05 14:48
大数据和AI躺过的坑
阅读(722)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! 用户自定义函数 注册udf 我们可以使用Spark 支持的编程语言编写好函数,然后通过Spark SQL 内建的方法传递进来,非常便捷地注册我们自己的UDF 在Scala 和Python 中,可以利用语言原生的函数和lambda 语法的支持,而在Java 中,则需要扩展对应的U 阅读全文
posted @ 2017-06-05 14:46
大数据和AI躺过的坑
阅读(1181)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! parkSQL作为分布式查询引擎:两种方式 除了在Spark程序里使用Spark SQL,我们也可以把Spark SQL当作一个分布式查询引擎来使用,有以下两种使用方式: 1.Thrift JDBC/ODBC服务 2.CLI SparkSQL作为分布式查询引擎:Thrift J 阅读全文
posted @ 2017-06-05 14:45
大数据和AI躺过的坑
阅读(1210)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的代码优化,生成以及执行流程,所以 sql,dataframe,datasets 的入口都是 sqlC 阅读全文
posted @ 2017-06-05 14:42
大数据和AI躺过的坑
阅读(2803)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! Spark SQL支持的API SQL DataFrame(推荐方式,也能执行SQL) Dataset(还在发展) SQL SQL 支持basic SQL syntax/HiveQL 程序中使用SQL会返回DataFrame command-line和JDBC/ODBC中均可以 阅读全文
posted @ 2017-06-05 14:38
大数据和AI躺过的坑
阅读(546)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询,同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起。 CLI Spark SQL shell JDBC/ODBC 各种支持jdbc的软件、商业智能(BI)工具、平台 阅读全文
posted @ 2017-06-05 14:36
大数据和AI躺过的坑
阅读(592)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! SparkSQL的入口:SQLContext SQLContext是SparkSQL的入口 val sc: SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlConte 阅读全文
posted @ 2017-06-05 14:33
大数据和AI躺过的坑
阅读(1682)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! 不带Hive支持 带Hive支持(推荐使用) 至于,为什么,请移步 Spark SQL 编程API入门系列之SparkSQL的入口 阅读全文
posted @ 2017-06-05 14:30
大数据和AI躺过的坑
阅读(2145)
评论(0)
推荐(1)
摘要:
不多说,直接上干货! 其实啊,很简单 分三步走 1、添加fcitx的键盘输入法系统,因为sogou是基于fcitx的,而系统默认的是iBus; 2、安装sogou输入法; 3、设置系统参数及一些注意点。 zhouls@zhouls-virtual-machine:~$ sudo -s [sudo] 阅读全文
posted @ 2017-06-05 09:03
大数据和AI躺过的坑
阅读(21804)
评论(4)
推荐(0)
摘要:
不多说,直接上干货! SparkSQL 与 Spark Core的关系 Spark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。 Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进, 简单来讲: Spark SQL 支持很多种结构 阅读全文
posted @ 2017-06-05 08:51
大数据和AI躺过的坑
阅读(1152)
评论(0)
推荐(0)

浙公网安备 33010602011771号