摘要:
在建立maven项目时,遇到问题,只能对java代码的打包。 此问题出现的原因时,在建立项目的时候,建立的时java的项目,后期进行scala的添加,但是在pom.xml中并没有出现scala代码的打包配置,导致只能进行java代码的打包。 解决方法:... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(171)
评论(0)
推荐(0)
摘要:
api代码示例入下 object DataFrameCase { def main(args: Array[String]): Unit = { val sparksession = SparkSession.builder().appNa... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(39)
评论(0)
推荐(0)
摘要:
DataFrame与RDD互操作之一: 反射方式 使用反射来推断包含了特定数据类型的RDD的元数据信息 使用DataFrame API或者sql方式编程 代码如下 import org.apache.spark.sql.SparkSe... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(56)
评论(0)
推荐(0)
摘要:
不过有时候我们在创建SQLContext实例的时候遇到类似下面的 java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.ha... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(293)
评论(0)
推荐(0)
摘要:
提交命令 --class 任务的包名全路径 spark-submit --name sparksql --class com.binzaijun.SQLContextApp --master local[2] sql-1.0-SNAPSHOT.jar ... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(21)
评论(0)
推荐(0)
摘要:
一、环境准备 1.1硬件:centos7.6 2.1软件: jdk1.8 mysql5.7 MySQL JDBC jar cm6.3.1 连接:https://archive.cloudera.com/cm6/6.3.1/repo-as... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(280)
评论(0)
推荐(0)
摘要:
Linux 正常安装 rpm 的命令是: rpm -ivh xxx.rpm 重复安装时需加属性: 软件包重复安装将会失败,若仍需要安装必须加--replacepkgs 属性 软件包的某个文件已在安装其他软件包时... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(219)
评论(0)
推荐(0)
摘要:
在官方的maven仓库中找不到cdh版本的hadoop依赖jar包 需要在spark根目录下的pom.xml文件中添加源 在 cloudera https://repository.cloudera.com/artifacto... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(18)
评论(0)
推荐(0)
摘要:
1、order by hive中的order by 会对查询结果集执行一个全局排序,这也就是说所有的数据都通过一个reduce进行处理的过程,对于大数据集,这个过程将消耗很大的时间来执行。 2、sort by hive的sort by ... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(144)
评论(0)
推荐(0)
摘要:
前言:我们在学习hive窗口函数的时候,一定要先了解窗口函数的结构。而不是直接百度sum() over()、row_number() over()、或者count() over()的用法,如果这样做,永远也掌握不到窗口函数的核心,当然我刚开始的时候也是这样... 阅读全文
posted @ 2022-11-10 19:27
彬在俊
阅读(246)
评论(0)
推荐(0)

浙公网安备 33010602011771号