上一页 1 2 3 4 5 6 7 8 ··· 51 下一页
摘要: 在建立maven项目时,遇到问题,只能对java代码的打包。 此问题出现的原因时,在建立项目的时候,建立的时java的项目,后期进行scala的添加,但是在pom.xml中并没有出现scala代码的打包配置,导致只能进行java代码的打包。 解决方法:... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(171) 评论(0) 推荐(0)
摘要: api代码示例入下 object DataFrameCase { def main(args: Array[String]): Unit = { val sparksession = SparkSession.builder().appNa... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(39) 评论(0) 推荐(0)
摘要: DataFrame与RDD互操作之一: 反射方式 使用反射来推断包含了特定数据类型的RDD的元数据信息 使用DataFrame API或者sql方式编程 代码如下 import org.apache.spark.sql.SparkSe... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(56) 评论(0) 推荐(0)
摘要: 不过有时候我们在创建SQLContext实例的时候遇到类似下面的 java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.ha... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(293) 评论(0) 推荐(0)
摘要: 提交命令 --class 任务的包名全路径 spark-submit --name sparksql --class com.binzaijun.SQLContextApp --master local[2] sql-1.0-SNAPSHOT.jar ... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(21) 评论(0) 推荐(0)
摘要: 一、环境准备 1.1硬件:centos7.6 2.1软件: jdk1.8 mysql5.7 MySQL JDBC jar cm6.3.1 连接:https://archive.cloudera.com/cm6/6.3.1/repo-as... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(280) 评论(0) 推荐(0)
摘要: Linux 正常安装 rpm 的命令是: rpm -ivh xxx.rpm 重复安装时需加属性: 软件包重复安装将会失败,若仍需要安装必须加--replacepkgs 属性 软件包的某个文件已在安装其他软件包时... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(219) 评论(0) 推荐(0)
摘要: 在官方的maven仓库中找不到cdh版本的hadoop依赖jar包 需要在spark根目录下的pom.xml文件中添加源 在 cloudera https://repository.cloudera.com/artifacto... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(18) 评论(0) 推荐(0)
摘要: 1、order by hive中的order by 会对查询结果集执行一个全局排序,这也就是说所有的数据都通过一个reduce进行处理的过程,对于大数据集,这个过程将消耗很大的时间来执行。 2、sort by hive的sort by ... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(144) 评论(0) 推荐(0)
摘要: 前言:我们在学习hive窗口函数的时候,一定要先了解窗口函数的结构。而不是直接百度sum() over()、row_number() over()、或者count() over()的用法,如果这样做,永远也掌握不到窗口函数的核心,当然我刚开始的时候也是这样... 阅读全文
posted @ 2022-11-10 19:27 彬在俊 阅读(246) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 51 下一页