2017 年 6月 5 日随笔档案 - 大数据和AI躺过的坑

2017年6月5日

Spark Streaming概念学习系列之SparkStreaming性能调优

摘要： SparkStreaming性能调优合理的并行度减少批处理所消耗时间的常见方式还有提高并行度。有以下三种方式可以提高并行度： 1.增加接收器数目有时如果记录太多导致单台机器来不及读入并分发的话，接收器会成为系统瓶颈。这时你就需要通过创建多个输入DStream（这样会创建多个接收器）来增加接收器阅读全文

posted @ 2017-06-05 15:29 大数据和AI躺过的坑阅读(1092) 评论(0) 推荐(0)

Spark Streaming概念学习系列之Spark Streaming容错

摘要： Spark Streaming容错检查点机制-checkpoint 什么是检查点机制？ Spark Streaming 周期性地把应用数据存储到诸如HDFS 或Amazon S3 这样的可靠存储系统中以供恢复时使用的机制叫做检查点机制检查点机制的作用控制发生失败时需要重算的状态数 Spark 阅读全文

posted @ 2017-06-05 15:27 大数据和AI躺过的坑阅读(752) 评论(0) 推荐(0)

Spark Streaming概念学习系列之SparkStreaming的高层抽象DStream

摘要：不多说，直接上干货！ SparkStreaming的高层抽象DStream 为了便于理解，Spark Streaming提出了DStream抽象，代表连续不断的数据流。 DStream 是一个持续的RDD 序列。可以从外部输入源创建DStream，也可以对其他DStream 应用进行转化操作得到新阅读全文

posted @ 2017-06-05 15:10 大数据和AI躺过的坑阅读(575) 评论(0) 推荐(0)

Spark Streaming概念学习系列之SparkStreaming运行原理

摘要： SparkStreaming运行原理 Spark Streaming不断的从数据源获取数据(连续的数据流)，并将这些数据按照周期划分为batch。 Spark Streaming将每个batch的数据交给Spark Engine来处理(每个batch的处理实际上还是批处理，只不过批量很小，计算速度很阅读全文

posted @ 2017-06-05 15:08 大数据和AI躺过的坑阅读(369) 评论(0) 推荐(0)

Spark Streaming概念学习系列之Spark Streaming的竞争对手

摘要：不多说，直接上干货！ Spark Streaming的竞争对手 Storm 在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给工作节点（worker node）执行。一个阅读全文

posted @ 2017-06-05 14:58 大数据和AI躺过的坑阅读(451) 评论(0) 推荐(0)

Spark SQL概念学习系列之性能调优

摘要：不多说，直接上干货！性能调优 Caching Data In Memory Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache()，将表用一种柱状格式（ an inmemory columnar format）缓阅读全文

posted @ 2017-06-05 14:48 大数据和AI躺过的坑阅读(726) 评论(0) 推荐(0)

Spark SQL概念学习系列之用户自定义函数

摘要：不多说，直接上干货！用户自定义函数注册udf 我们可以使用Spark 支持的编程语言编写好函数，然后通过Spark SQL 内建的方法传递进来，非常便捷地注册我们自己的UDF 在Scala 和Python 中，可以利用语言原生的函数和lambda 语法的支持，而在Java 中，则需要扩展对应的U 阅读全文

posted @ 2017-06-05 14:46 大数据和AI躺过的坑阅读(1185) 评论(0) 推荐(0)

Spark SQL概念学习系列之分布式SQL引擎

摘要：不多说，直接上干货！ parkSQL作为分布式查询引擎：两种方式除了在Spark程序里使用Spark SQL，我们也可以把Spark SQL当作一个分布式查询引擎来使用，有以下两种使用方式： 1.Thrift JDBC/ODBC服务 2.CLI SparkSQL作为分布式查询引擎：Thrift J 阅读全文

posted @ 2017-06-05 14:45 大数据和AI躺过的坑阅读(1213) 评论(0) 推荐(0)

Spark SQL 编程API入门系列之SparkSQL数据源

摘要：不多说，直接上干货！ SparkSQL数据源：从各种数据源创建DataFrame 因为 spark sql，dataframe，datasets 都是共用 spark sql 这个库的，三者共享同样的代码优化，生成以及执行流程，所以 sql，dataframe，datasets 的入口都是 sqlC 阅读全文

posted @ 2017-06-05 14:42 大数据和AI躺过的坑阅读(2807) 评论(0) 推荐(0)

Spark SQL 编程API入门系列之Spark SQL支持的API

摘要：不多说，直接上干货！ Spark SQL支持的API SQL DataFrame(推荐方式，也能执行SQL) Dataset(还在发展) SQL SQL 支持basic SQL syntax/HiveQL 程序中使用SQL会返回DataFrame command-line和JDBC/ODBC中均可以阅读全文

posted @ 2017-06-05 14:38 大数据和AI躺过的坑阅读(547) 评论(0) 推荐(0)

Spark SQL 编程API入门系列之Spark SQL的作用与使用方式

摘要：不多说，直接上干货！ Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询，同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起。 CLI Spark SQL shell JDBC/ODBC 各种支持jdbc的软件、商业智能（BI）工具、平台阅读全文

posted @ 2017-06-05 14:36 大数据和AI躺过的坑阅读(595) 评论(0) 推荐(0)

Spark SQL 编程API入门系列之SparkSQL的入口

摘要：不多说，直接上干货！ SparkSQL的入口：SQLContext SQLContext是SparkSQL的入口 val sc: SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlConte 阅读全文

posted @ 2017-06-05 14:33 大数据和AI躺过的坑阅读(1689) 评论(0) 推荐(0)

Spark SQL 编程API入门系列之SparkSQL的依赖

摘要：不多说，直接上干货！不带Hive支持带Hive支持(推荐使用) 至于，为什么，请移步 Spark SQL 编程API入门系列之SparkSQL的入口阅读全文

posted @ 2017-06-05 14:30 大数据和AI躺过的坑阅读(2150) 评论(0) 推荐(1)

Ubuntu 16.04或14.04里下安装搜狗输入法（图文详解）（全网最简单）

摘要：不多说，直接上干货！其实啊，很简单分三步走 1、添加fcitx的键盘输入法系统，因为sogou是基于fcitx的，而系统默认的是iBus； 2、安装sogou输入法； 3、设置系统参数及一些注意点。 zhouls@zhouls-virtual-machine:~$ sudo -s [sudo] 阅读全文

posted @ 2017-06-05 09:03 大数据和AI躺过的坑阅读(21812) 评论(4) 推荐(0)

SparkSQL 与 Spark Core的关系

摘要：不多说，直接上干货！ SparkSQL 与 Spark Core的关系 Spark SQL构建在Spark Core之上，专门用来处理结构化数据(不仅仅是SQL)。 Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进，简单来讲： Spark SQL 支持很多种结构阅读全文

posted @ 2017-06-05 08:51 大数据和AI躺过的坑阅读(1154) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告