2019 年 10月 18 日随笔档案 - 努力的孔子

spark教程(九)-操作数据库

摘要：数据库也是 spark 数据源创建 df 的一种方式，因为比较重要，所以单独算一节。本文以 postgres 为例安装 JDBC 首先需要安装 postgres 的客户端驱动，即 JDBC 驱动，这是官方下载地址，JDBC，根据数据库版本下载对应的驱动上传至 spark 目录下的 jars 阅读全文

posted @ 2019-10-18 14:53 努力的孔子阅读(1625) 评论(0) 推荐(0)

spark教程(11)-sparkSQL 数据抽象

摘要：数据抽象 sparkSQL 的数据抽象是 DataFrame，df 相当于表格，它的每一行是一条信息，形成了一个 Row Row 它是 sparkSQL 的一个抽象，用于表示一行数据，从表现形式上看，相当于一个 tuple 或者表中的一行； from pyspark.sql import Row 阅读全文

posted @ 2019-10-18 14:52 努力的孔子阅读(1686) 评论(0) 推荐(0)

spark教程(七)-文件读取案例

摘要： sparkSession 读取 csv 1. 利用 sparkSession 作为 spark 切入点 2. 读取单个 csv 和多个 csv from pyspark.sql import SparkSession from pyspark.sql import SQLContext if _ 阅读全文

posted @ 2019-10-18 14:50 努力的孔子阅读(2096) 评论(0) 推荐(0)

spark教程(六)-Python 编程与 spark-submit 命令

摘要： hadoop 是 java 开发的，原生支持 java；spark 是 scala 开发的，原生支持 scala； spark 还支持 java、python、R，本文只介绍 python spark 1.x 和 spark 2.x 用法略有不同，spark 1.x 的用法大部分也适用于 spark 阅读全文

posted @ 2019-10-18 14:46 努力的孔子阅读(3444) 评论(0) 推荐(0)

spark算子篇-aggregate 系列

摘要： aggregate aggregate 是比较常用的行动操作，不是很好懂，这里做个解释。 aggregate(zeroValue, seqOp, combOp) zeroValue 是一个初始值，自己根据实际情况进行设定；首先我们知道 RDD 是被分区，然后并行操作的； seqOp 是对每个分阅读全文

posted @ 2019-10-18 14:46 努力的孔子阅读(1190) 评论(0) 推荐(0)

spark教程(四)-SparkContext 和 RDD 算子

摘要： SparkContext SparkContext 是在 spark 库中定义的一个类，作为 spark 库的入口点；它表示连接到 spark，在进行 spark 操作之前必须先创建一个 SparkContext 的实例，并且只能创建一个；利用 SparkContext 实例创建的对象都是 RD 阅读全文

posted @ 2019-10-18 14:44 努力的孔子阅读(2227) 评论(0) 推荐(1)

2019年10月18日

导航