// // // //

2019年10月18日

摘要: 数据库也是 spark 数据源创建 df 的一种方式,因为比较重要,所以单独算一节。 本文以 postgres 为例 安装 JDBC 首先需要 安装 postgres 的客户端驱动,即 JDBC 驱动,这是官方下载地址,JDBC,根据数据库版本下载对应的驱动 上传至 spark 目录下的 jars 阅读全文
posted @ 2019-10-18 14:53 努力的孔子 阅读(1625) 评论(0) 推荐(0)
 
摘要: 数据抽象 sparkSQL 的数据抽象是 DataFrame,df 相当于表格,它的每一行是一条信息,形成了一个 Row Row 它是 sparkSQL 的一个抽象,用于表示一行数据,从表现形式上看,相当于一个 tuple 或者 表中的一行; from pyspark.sql import Row 阅读全文
posted @ 2019-10-18 14:52 努力的孔子 阅读(1686) 评论(0) 推荐(0)
 
摘要: sparkSession 读取 csv 1. 利用 sparkSession 作为 spark 切入点 2. 读取 单个 csv 和 多个 csv from pyspark.sql import SparkSession from pyspark.sql import SQLContext if _ 阅读全文
posted @ 2019-10-18 14:50 努力的孔子 阅读(2096) 评论(0) 推荐(0)
 
摘要: hadoop 是 java 开发的,原生支持 java;spark 是 scala 开发的,原生支持 scala; spark 还支持 java、python、R,本文只介绍 python spark 1.x 和 spark 2.x 用法略有不同,spark 1.x 的用法大部分也适用于 spark 阅读全文
posted @ 2019-10-18 14:46 努力的孔子 阅读(3444) 评论(0) 推荐(0)
 
摘要: aggregate aggregate 是比较常用的 行动 操作,不是很好懂,这里做个解释。 aggregate(zeroValue, seqOp, combOp) zeroValue 是一个初始值,自己根据实际情况进行设定; 首先我们知道 RDD 是被分区,然后并行操作的; seqOp 是对每个分 阅读全文
posted @ 2019-10-18 14:46 努力的孔子 阅读(1190) 评论(0) 推荐(0)
 
摘要: SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点; 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个; 利用 SparkContext 实例创建的对象都是 RD 阅读全文
posted @ 2019-10-18 14:44 努力的孔子 阅读(2227) 评论(0) 推荐(1)