Spark - 随笔分类 - tneduts

sparksql使用collect_list自定义排序的实现方式

摘要：原始数据如下：+ + + +|id |name |type|+ + + +|1 |name1|p ||2 |name2|p ||3 |name3|p ||1 |x1 |q ||2 |x2 |q ||3 |x3 |q |+ + + +目标数据如下：+ + +|type|value_list |+ + 阅读全文

posted @ 2021-05-21 11:03 tneduts 阅读(3598) 评论(0) 推荐(0)

SparkShell(sparkSql) on k8s

摘要：k8s上没有搭建zepplin,有时候想使用sparkshell/sparksql查一些数据不是很方便，尤其是数据量大的时候,下面描述一下在k8s上运行一个pod,然后在pod里面运行sparkshell/sparksql这样就可以方便查询数据。 (当然，如果你本机有固定的ip或可以使用花生壳之类的阅读全文

posted @ 2021-04-28 14:46 tneduts 阅读(682) 评论(0) 推荐(0)

spark on k8s too old Resource issue

摘要：问题描述 spark作业使用airflow调度，运行在k8s集群上，如果作业运行时间长超过一小时（甚至更短）则会出现too old Resource问题，造成airflow的hook无法正确判断作业运行完成的状态，然后重试作业。 airflow 是根据返回的日志中exit number部分，numb 阅读全文

posted @ 2020-08-02 14:56 tneduts 阅读(485) 评论(0) 推荐(0)

本机使用sparkshell测试s3读写数据小记

摘要：//step1 下载spark,我官网下载的spark2.4.4 hadoop2.7.3预编译版本解压即可以使用//这里需要注意一点，我本机安装了最新的openjdk13，执行sparksql的时候报错，//解决方法修改spark-env.sh 更新JAVA_HOME=/PATH/TO/JDK8 阅读全文

posted @ 2020-01-05 19:48 tneduts 阅读(1503) 评论(0) 推荐(0)

spark write data to minio test

摘要：想在本机测试一下,spark read write to s3 cloud storeage. minio是一个不错的选择，轻量，兼容aws s3协议。可以使用docker来做。 #拉取镜像 docker pull minio/minio#启动容器docker run -p 9000:9000 - 阅读全文

posted @ 2020-01-05 14:05 tneduts 阅读(1642) 评论(0) 推荐(0)

sparksql 练习题两道

摘要：第一题：select '{"id":1,"name":{"url":"http://xxx/yyy/zz/test.js"}}'##1 获取 //xxx/yyy/zz/test.js中的 xxx和 js ##2 获取 ip地址中的第一组数字 #### method 1 select split(ge 阅读全文

posted @ 2019-12-26 21:59 tneduts 阅读(952) 评论(0) 推荐(0)

geoip ip2region2 with spark

摘要：上一篇文章中我使用 maxmind的免费库开发了一个waterdrop的插件，测试数据发现，国内的有些市级还是不准确，而且香港并不是显示中国，这就不友好了。找了一下，发下 ip2region 这个很不错。https://github.com/lionsoul2014/ip2region 我使用阅读全文

posted @ 2019-12-26 21:43 tneduts 阅读(719) 评论(0) 推荐(0)

maxmind geoip2使用笔记

摘要：客户需求如下，nginx的访问日志中ip，匹配出对应的国家，省份和城市，然后给我了一个maxmind的连接参考。查找资料，有做成hive udf的使用方式，我们项目中一直使用 waterdrop 来做数据处理，所以决定开发一个 waterdrop的插件。关于这个功能,waterdrop本身提供阅读全文

posted @ 2019-12-23 22:23 tneduts 阅读(3199) 评论(0) 推荐(0)

hdp3.1 hive 3.0的使用记录

摘要：spark-sql如何访问hive3.1中的内部表阅读全文

posted @ 2019-05-11 11:59 tneduts 阅读(3620) 评论(1) 推荐(1)

spark examples 导入idea并测试

摘要：记录下自己使用idea导入spark examples项目的过程。 spark examples 项目可以给我们提供很多有益的参考，经常看看这些代码有助于提高我们写scala代码的水平。只导入spark-example项目，其他不管，这个项目使用maven管理依赖，导入的时候选择maven. 我并阅读全文

posted @ 2018-11-18 16:15 tneduts 阅读(990) 评论(0) 推荐(0)

spark restful 作业提交

摘要：spark1.4起，在启动master进程时候，同时会有一个restful的服务器，可以接受RESTFUL的请求，以下是提交应用的示例示例spark-streaming程从kafka中读取数据并写入到elasticsearch,都是在容器中使用的，遇到如下问题：org.apache.spark. 阅读全文

posted @ 2018-11-13 20:04 tneduts 阅读(1323) 评论(0) 推荐(0)

spark 作业提交

摘要：kafka-topics.sh --describe --zookeeper xxxxx:2181 --topic testkafka-run-class.sh kafka.tools.GetOffsetShell --topic test --broker-list xxxxxx:9092 --t 阅读全文

posted @ 2018-11-07 19:26 tneduts 阅读(286) 评论(0) 推荐(0)

spark-streaming读kafka数据到hive遇到的问题

摘要：在项目中使用spark-stream读取kafka数据源的数据,然后转成dataframe,再后通过sql方式来进行处理,然后放到hive表中, 遇到问题如下,hive-metastor在没有做高可用的情况下,有时候会出现退出,这个时候,spark streaminG的微批作业就会失败, 然后再启重阅读全文

posted @ 2017-09-16 20:38 tneduts 阅读(6590) 评论(1) 推荐(0)

zookeeper基础知识

摘要：Zookeeper 不仅能够帮你维护当前的集群中机器的服务状态，而且能够帮你选出一个“总管”，让这个总管来管理集群，这就是 Zookeeper 的另一个功能 Leader Election。配置管理（Configuration Management）配置的管理在分布式应用环境中很常见，例如同一个应用阅读全文

posted @ 2017-05-20 21:15 tneduts 阅读(230) 评论(0) 推荐(0)

spark streaming基础知识1

摘要：1.怎么理解spark streaming中的dstream? 它是spark streaming的基础数据结构,代表着(time,RDD)序列,有两种生成方式,一种是基于流数据创建(kafka,socket...),一种是基于已有的dstream进行转换产生.在spark streaming作业运阅读全文

posted @ 2017-05-20 12:30 tneduts 阅读(332) 评论(2) 推荐(0)

有关RDD的基础学习1

摘要：1.spark rdd为什么不能嵌套? 譬如 val rdd1=sc.parallel(range(1,100)) val rdd2=sc.parallel(range(1,100)) rdd1.map(x=>rdd.count()) 因为rdd的构造器中rdd(@trancient sc:Spar 阅读全文

posted @ 2017-05-18 21:50 tneduts 阅读(409) 评论(0) 推荐(0)

Hive的metastore

摘要：hive --service metastore 默认端口是9083 <property> <name>hive.metastore.uris</name> <value>thrift://hiveserver1:9083</value> </property> 在连接hive的客户端,如spark 阅读全文

posted @ 2017-04-18 23:13 tneduts 阅读(393) 评论(0) 推荐(0)

项目笔记

摘要：1.SPARK－SQL 执行几个集市表的ETL报错，出错为空指针异常，推断的表中数据内容有问题，同事重新生成一HIVE表后导入数据，问题消除，未找到根本原因 2.SQOOP提交时按队列 sqoop -D mapred.job.queue.name=queuename SQOOP通过METASTORE 阅读全文

posted @ 2016-12-29 18:33 tneduts 阅读(469) 评论(0) 推荐(0)

spark standalone ha spark submit

摘要：when you build a spark standalone ha cluster, when you submit your app, you should send it to the leader master, not the standby master, how to decide 阅读全文

posted @ 2016-09-19 15:45 tneduts 阅读(254) 评论(0) 推荐(0)

摘要：spark的安装简单，去官网下载与集群hadoop版本相一致的文件即可。解压后，主要需要修改spark-evn.sh文件。以spark standlone为例，配置dn1,nn2为master,使用zookeeper的方式进行HA。配置如下： export JAVA_HOME=/app/jdk17079 export SCALA_HOME=/app/scala2105 expo... 阅读全文

posted @ 2016-02-23 16:05 tneduts 阅读(366) 评论(1) 推荐(0)

我的空中楼阁

随笔分类 - Spark