会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
10
11
12
13
14
15
16
17
18
···
45
下一页
2018年11月14日
在Java应用中通过SparkLauncher启动Spark任务
摘要: 本博客内容基于Spark2.2版本,在阅读文章并想实际操作前,请确保你有: 老版本 老版本任务提交是基于启动本地进程,执行脚本spark-submit xxx ** 的方式做的。其中一个关键的问题就是获得提交Spark任务的Application-id,因为这个id是跟任务状态的跟踪有关系的。如果你
阅读全文
posted @ 2018-11-14 17:01 大葱拌豆腐
阅读(7068)
评论(0)
推荐(0)
2018年11月8日
通过thriftserver的beeline/jdbc等方式连接到SparkSQL
摘要: thriftserver和beeline的简单配置和使用启动thriftserver: 默认端口是10000 ,可以修改 $ ./${SPARK_HOME}/sbin/start-thriftserver.sh --master local[2] --jars ~/software/mysql-co
阅读全文
posted @ 2018-11-08 10:43 大葱拌豆腐
阅读(2574)
评论(0)
推荐(0)
2018年11月7日
Spark:java.net.BindException: Address already in use: Service 'SparkUI' failed after 16 retries!
摘要: Spark多任务提交运行时候报错。 错误原因: 每一个Spark任务都会占用一个SparkUI端口,默认为4040,如果被占用则依次递增端口重试。但是有个默认重试次数,为16次。16次重试都失败后,会放弃该任务的运行。 解决方法
阅读全文
posted @ 2018-11-07 20:05 大葱拌豆腐
阅读(2930)
评论(0)
推荐(0)
Spark Sql之ThriftServer和Beeline的使用
摘要: 概述 ThriftServer相当于service层,而ThriftServer通过Beeline来连接数据库。客户端用于连接JDBC的Server的一个工具 步骤 1:启动metastore服务 2:连接 3:Spark编译时版本选择和Hive的关系 只要保证HDFS\MySQL没有问题,基本上S
阅读全文
posted @ 2018-11-07 19:30 大葱拌豆腐
阅读(2811)
评论(0)
推荐(0)
2018年11月2日
Spark SQL读取Oracle的number类型的数据时精度丢失问题
摘要: Spark SQL读取数据Oracle的数据时,发现number类型的字段在读取的时候精度丢失了,使用的spark版本是Spark2.1.0的版本,竟然最后经过排查和网上查资料发现是一个bug。在Spark2.1.2以上的版本解决了这个问题。 number类型的数据通过spark sql的jdbc读
阅读全文
posted @ 2018-11-02 18:56 大葱拌豆腐
阅读(2041)
评论(0)
推荐(0)
2018年10月27日
Scala的apply unapply unapplySeq 语法糖
摘要: apply 可以理解为注入 unapply unapplySeq 可以理解为提取 apply 与 unapply 虽然名字相近,但是使用起来区别挺大。apply有点像构造函数unapply主要是结合模式匹配进行提取工作unapply 与 unapplySeq的共同点是返回值类型都是Option,区别
阅读全文
posted @ 2018-10-27 16:35 大葱拌豆腐
阅读(472)
评论(0)
推荐(0)
Scala常用变量生命周期
摘要: val words = *** //在words被定义时取值 lazy val words = *** //在words被首次使用时取值 def words = *** //在每一次words被使用时取值
阅读全文
posted @ 2018-10-27 16:23 大葱拌豆腐
阅读(510)
评论(0)
推荐(0)
Scala对class/object反射
摘要: 近期有需求,要根据解析字符串,根据字符串的内容去调用方法。想到的基本就是使用反射。但是基本上能找到的资料,全没有讲scala的反射。只有零星点点的讲解。大部分都是用scala的语法写java反射最后翻了翻scala的官方文档 发现还在实验阶段。一不做二不休,索性两种反射方式都来尝试尝试。其实两种方式
阅读全文
posted @ 2018-10-27 16:21 大葱拌豆腐
阅读(4055)
评论(0)
推荐(1)
Spark函数详解系列之RDD基本转换
摘要: 摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作。 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑
阅读全文
posted @ 2018-10-27 11:59 大葱拌豆腐
阅读(2393)
评论(0)
推荐(0)
Spark算子之aggregateByKey详解
摘要: 一、基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑 每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑
阅读全文
posted @ 2018-10-27 10:27 大葱拌豆腐
阅读(4201)
评论(0)
推荐(0)
上一页
1
···
10
11
12
13
14
15
16
17
18
···
45
下一页
公告