大葱拌豆腐 - 博客园

2018年11月14日

摘要：本博客内容基于Spark2.2版本，在阅读文章并想实际操作前，请确保你有：老版本老版本任务提交是基于启动本地进程，执行脚本spark-submit xxx ** 的方式做的。其中一个关键的问题就是获得提交Spark任务的Application-id，因为这个id是跟任务状态的跟踪有关系的。如果你阅读全文

posted @ 2018-11-14 17:01 大葱拌豆腐阅读(7068) 评论(0) 推荐(0)

2018年11月8日

通过thriftserver的beeline/jdbc等方式连接到SparkSQL

摘要： thriftserver和beeline的简单配置和使用启动thriftserver: 默认端口是10000 ，可以修改 $ ./${SPARK_HOME}/sbin/start-thriftserver.sh --master local[2] --jars ~/software/mysql-co 阅读全文

posted @ 2018-11-08 10:43 大葱拌豆腐阅读(2574) 评论(0) 推荐(0)

2018年11月7日

Spark：java.net.BindException: Address already in use: Service 'SparkUI' failed after 16 retries!

摘要： Spark多任务提交运行时候报错。错误原因：每一个Spark任务都会占用一个SparkUI端口，默认为4040，如果被占用则依次递增端口重试。但是有个默认重试次数，为16次。16次重试都失败后，会放弃该任务的运行。解决方法阅读全文

posted @ 2018-11-07 20:05 大葱拌豆腐阅读(2930) 评论(0) 推荐(0)

Spark Sql之ThriftServer和Beeline的使用

摘要：概述 ThriftServer相当于service层，而ThriftServer通过Beeline来连接数据库。客户端用于连接JDBC的Server的一个工具步骤 1：启动metastore服务 2：连接 3：Spark编译时版本选择和Hive的关系只要保证HDFS\MySQL没有问题，基本上S 阅读全文

posted @ 2018-11-07 19:30 大葱拌豆腐阅读(2811) 评论(0) 推荐(0)

2018年11月2日

Spark SQL读取Oracle的number类型的数据时精度丢失问题

摘要： Spark SQL读取数据Oracle的数据时，发现number类型的字段在读取的时候精度丢失了，使用的spark版本是Spark2.1.0的版本，竟然最后经过排查和网上查资料发现是一个bug。在Spark2.1.2以上的版本解决了这个问题。 number类型的数据通过spark sql的jdbc读阅读全文

posted @ 2018-11-02 18:56 大葱拌豆腐阅读(2041) 评论(0) 推荐(0)

2018年10月27日

Scala的apply unapply unapplySeq 语法糖

摘要： apply 可以理解为注入 unapply unapplySeq 可以理解为提取 apply 与 unapply 虽然名字相近，但是使用起来区别挺大。apply有点像构造函数unapply主要是结合模式匹配进行提取工作unapply 与 unapplySeq的共同点是返回值类型都是Option，区别阅读全文

posted @ 2018-10-27 16:35 大葱拌豆腐阅读(472) 评论(0) 推荐(0)

Scala常用变量生命周期

摘要： val words = *** //在words被定义时取值 lazy val words = *** //在words被首次使用时取值 def words = *** //在每一次words被使用时取值阅读全文

posted @ 2018-10-27 16:23 大葱拌豆腐阅读(510) 评论(0) 推荐(0)

Scala对class/object反射

摘要：近期有需求，要根据解析字符串，根据字符串的内容去调用方法。想到的基本就是使用反射。但是基本上能找到的资料，全没有讲scala的反射。只有零星点点的讲解。大部分都是用scala的语法写java反射最后翻了翻scala的官方文档发现还在实验阶段。一不做二不休，索性两种反射方式都来尝试尝试。其实两种方式阅读全文

posted @ 2018-10-27 16:21 大葱拌豆腐阅读(4055) 评论(0) 推荐(1)

Spark函数详解系列之RDD基本转换

摘要：摘要： RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作。 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑阅读全文

posted @ 2018-10-27 11:59 大葱拌豆腐阅读(2393) 评论(0) 推荐(0)

Spark算子之aggregateByKey详解

摘要：一、基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑阅读全文

posted @ 2018-10-27 10:27 大葱拌豆腐阅读(4201) 评论(0) 推荐(0)

公告