会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
jsqup
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
7
8
9
10
11
12
13
14
15
···
33
下一页
2022年8月29日
spark连接hive后的几个问题
摘要: 问题描述 一旦使用Spark SQL连接过Hive之后,无法使用Hive自带的命令行工具操作Hive了, 而且HiveServer2服务无法开启了,操作Hive报错:java.lang.RuntimeException: Unable to instantiate org.apache.hadoop
阅读全文
posted @ 2022-08-29 17:32 jsqup
阅读(142)
评论(0)
推荐(0)
2022年8月27日
从Hive中使用HQL语句创建DataFrame--常用方式
摘要: 默认情况下SparkSession不支持读取Hive中的数据,也不支持操作HQL语法, 如果要读取Hive中的数据,需要开启Hive的支持, 构建sparkSession的时候调用一个函数enableHiveSupport() val sparkConf = new SparkConf().setM
阅读全文
posted @ 2022-08-27 12:21 jsqup
阅读(81)
评论(0)
推荐(0)
从关系型数据库中创建DataFrame
摘要: 说明: /* 需要引入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.18</version> </dependency> */ 代码: objec
阅读全文
posted @ 2022-08-27 12:19 jsqup
阅读(25)
评论(0)
推荐(0)
从外部存储的结构化文件创建DataFrame(options的多种模式)---常用的一种方式
摘要: options的多种模式 Option可选操作项 .option("mode", "FAILFAST") // 读取模式 读取模式的常用值有 permissive:当遇到损坏的记录时,将其所有字段设置为 null, dropMalformed:删除格式不正确的行 failFast:遇到格式不正确的数
阅读全文
posted @ 2022-08-27 12:17 jsqup
阅读(155)
评论(0)
推荐(0)
sparkcore案例四:统计每个省份的用户访问量
摘要: 题目: /** * 统计每个省份的用户访问量,最终要求将不同省份用户访问量存放到不同的分区中 分区存放规则如下 * 省份是以包含 山 0 * 如果省份包含 海 1 * 其他省份 2 */ 代码: package sparkcorerddexample import org.apache.spark.
阅读全文
posted @ 2022-08-27 12:09 jsqup
阅读(104)
评论(0)
推荐(0)
sparkcore案例三:获取每一种状态码对应的访问量
摘要: 题目描述: /** * 清洗完成的数据中包含一个用户的响应状态码,获取每一种状态码对应的访问量 * 1、读取清洗完成的数据成为RDD[String] * 2、可以把上一步得到的RDD通过map算子转换成一个键值对类型的RDD,以状态码为key 以不同用户的访问日志为value的数据 * 3、键值对类
阅读全文
posted @ 2022-08-27 11:20 jsqup
阅读(30)
评论(0)
推荐(0)
2022年8月26日
spark core案例二:清洗过滤
摘要: 题目描述 /** * 用户的行为日志数据清洗过滤 * 网站的独立访客数:一个唯一的IP地址就是一个独立访客 * 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD * 2、RDD中重复的IP去重 * 3、RDD中的累加值 */ 案例 object A2DataAnaly {
阅读全文
posted @ 2022-08-26 23:02 jsqup
阅读(50)
评论(0)
推荐(0)
通过createDataFrame方法创建DataFrame对象
摘要: 从集合中借助createDataFrame函数创建DataFrame createDataFrame(Seq[T]) 列名会自动生成 案例: val dataFrame: DataFrame = session.createDataFrame(Array( ("zs", 20, "男"), ("ls
阅读全文
posted @ 2022-08-26 12:04 jsqup
阅读(396)
评论(0)
推荐(0)
通过隐式转换创建toDF函数来创建DataFrame对象
摘要: 方式一:Scala集合创建DataFrame import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object CreateSparkSession { def main(ar
阅读全文
posted @ 2022-08-26 12:03 jsqup
阅读(354)
评论(0)
推荐(0)
创建SparkSQL的项目
摘要: 创建项目方式和前面一样 pom依赖不一样 无需导入spark_core包,因为spark_sql中包含了spark_core pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or
阅读全文
posted @ 2022-08-26 11:14 jsqup
阅读(37)
评论(0)
推荐(0)
上一页
1
···
7
8
9
10
11
12
13
14
15
···
33
下一页
公告