随笔分类 - Spark SQL
摘要:可参考官方文档 http://spark.apache.org/docs/2.2.0/sql-programming-guide.html 怎么读取外部数据 读:spark.read.format(format) 支持数据格式 内置:json、parquet、jdbc、csv(2.x) 外部:可访问 https://spark-packages.org/ ,这里面提供了很多外部数据源 ...
阅读全文
摘要:DateFrame产生背景 DateFrame不是Spark SQL提出的,早期是在R、Pandas语言就已经有了。 Spark RDD API 和 MapReduce API 给大数据生态圈提供基于通用语言(Java、Python、Scala等)的,并且简单易用的API。 Spark处理代码量很少 R/Pandas语言 局限性非常强 只支持单机处理 DateFrame概述 Da...
阅读全文
摘要:SQLContext的使用 创建一个Scala项目,创建一个主类SQLContextApp package com.yy.spark import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext /** * SQLContext的使用 * Spark 1.x使用 */ ...
阅读全文
摘要:为什么要用SQL 1)事实上的标准 MySQL、Oacle、DB2、SQL Server都是用的SQL操作,DBA、运维人员使用SQL门槛比较低 2)易学易用 SQL对于不懂的人学习较容易 3)受众面广 无论做Java、.Net、Php都需要与数据库交互,都需要编写SQL Hive: 类似于SQL的Hive QL语言,sql语句转换为MapReduce作业提交到集群运行 优点: ...
阅读全文
摘要:Spark官网和下载地址 官网 http://spark.apache.org/ spark-2.2.0源码下载链接 http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0.tgz spark-2.2.0安装包下载连接 http://archive.apache.org/dist/spark/spark-2.2.0/sp...
阅读全文

浙公网安备 33010602011771号