随笔分类 -  Spark

sparksql使用collect_list自定义排序的实现方式
摘要:原始数据如下:+ + + +|id |name |type|+ + + +|1 |name1|p ||2 |name2|p ||3 |name3|p ||1 |x1 |q ||2 |x2 |q ||3 |x3 |q |+ + + +目标数据如下:+ + +|type|value_list |+ + 阅读全文

posted @ 2021-05-21 11:03 tneduts 阅读(3598) 评论(0) 推荐(0)

SparkShell(sparkSql) on k8s
摘要:k8s上没有搭建zepplin,有时候想使用sparkshell/sparksql查一些数据不是很方便,尤其是数据量大的时候,下面描述一下在k8s上运行一个pod,然后在pod里面运行sparkshell/sparksql这样就可以方便查询数据。 (当然,如果你本机有固定的ip或可以使用花生壳之类的 阅读全文

posted @ 2021-04-28 14:46 tneduts 阅读(682) 评论(0) 推荐(0)

spark on k8s too old Resource issue
摘要:问题描述 spark作业使用airflow调度,运行在k8s集群上,如果作业运行时间长超过一小时(甚至更短)则会出现too old Resource问题,造成airflow的hook无法正确判断作业运行完成的状态,然后重试作业。 airflow 是根据返回的日志中exit number部分,numb 阅读全文

posted @ 2020-08-02 14:56 tneduts 阅读(485) 评论(0) 推荐(0)

本机使用sparkshell测试s3读写数据小记
摘要://step1 下载spark,我官网下载的spark2.4.4 hadoop2.7.3预编译版本 解压即可以使用//这里需要注意一点,我本机安装了最新的openjdk13,执行sparksql的时候报错,//解决方法修改spark-env.sh 更新JAVA_HOME=/PATH/TO/JDK8 阅读全文

posted @ 2020-01-05 19:48 tneduts 阅读(1503) 评论(0) 推荐(0)

spark write data to minio test
摘要:想在本机测试一下,spark read write to s3 cloud storeage. minio是一个不错的选择,轻量,兼容aws s3协议。 可以使用docker来做。 #拉取镜像 docker pull minio/minio#启动容器docker run -p 9000:9000 - 阅读全文

posted @ 2020-01-05 14:05 tneduts 阅读(1642) 评论(0) 推荐(0)

sparksql 练习题两道
摘要:第一题:select '{"id":1,"name":{"url":"http://xxx/yyy/zz/test.js"}}'##1 获取 //xxx/yyy/zz/test.js中的 xxx和 js ##2 获取 ip地址中的第一组数字 #### method 1 select split(ge 阅读全文

posted @ 2019-12-26 21:59 tneduts 阅读(952) 评论(0) 推荐(0)

geoip ip2region2 with spark
摘要:上一篇文章中 我使用 maxmind的免费库开发了一个waterdrop的 插件,测试数据发现,国内的有些市级还是不准确,而且香港并不是显示中国,这就不友好了。 找了一下,发下 ip2region 这个很不错。https://github.com/lionsoul2014/ip2region 我使用 阅读全文

posted @ 2019-12-26 21:43 tneduts 阅读(719) 评论(0) 推荐(0)

maxmind geoip2使用笔记
摘要:客户需求如下,nginx的访问日志中ip,匹配出对应的国家,省份和城市,然后给我了一个maxmind的连接参考。 查找资料,有做成hive udf的使用方式, 我们项目中一直使用 waterdrop 来做数据处理,所以决定开发一个 waterdrop的插件。 关于这个功能,waterdrop本身提供 阅读全文

posted @ 2019-12-23 22:23 tneduts 阅读(3199) 评论(0) 推荐(0)

hdp3.1 hive 3.0的使用记录
摘要:spark-sql如何访问hive3.1中的内部表 阅读全文

posted @ 2019-05-11 11:59 tneduts 阅读(3620) 评论(1) 推荐(1)

spark examples 导入idea并测试
摘要:记录下自己使用idea导入spark examples项目的过程。 spark examples 项目可以给我们提供很多有益的参考,经常看看这些代码有助于提高我们写scala代码的水平。 只导入spark-example项目,其他不管,这个项目使用maven管理依赖,导入的时候选择maven. 我并 阅读全文

posted @ 2018-11-18 16:15 tneduts 阅读(990) 评论(0) 推荐(0)

spark restful 作业提交
摘要:spark1.4起,在启动master进程时候,同时会有一个restful的服务器,可以接受RESTFUL的请求, 以下是提交应用的示例 示例spark-streaming程从kafka中读取数据并写入到elasticsearch,都是在容器中使用的,遇到如下问题:org.apache.spark. 阅读全文

posted @ 2018-11-13 20:04 tneduts 阅读(1323) 评论(0) 推荐(0)

spark 作业提交
摘要:kafka-topics.sh --describe --zookeeper xxxxx:2181 --topic testkafka-run-class.sh kafka.tools.GetOffsetShell --topic test --broker-list xxxxxx:9092 --t 阅读全文

posted @ 2018-11-07 19:26 tneduts 阅读(286) 评论(0) 推荐(0)

spark-streaming读kafka数据到hive遇到的问题
摘要:在项目中使用spark-stream读取kafka数据源的数据,然后转成dataframe,再后通过sql方式来进行处理,然后放到hive表中, 遇到问题如下,hive-metastor在没有做高可用的情况下,有时候会出现退出,这个时候,spark streaminG的微批作业就会失败, 然后再启重 阅读全文

posted @ 2017-09-16 20:38 tneduts 阅读(6590) 评论(1) 推荐(0)

zookeeper基础知识
摘要:Zookeeper 不仅能够帮你维护当前的集群中机器的服务状态,而且能够帮你选出一个“总管”,让这个总管来管理集群,这就是 Zookeeper 的另一个功能 Leader Election。配置管理(Configuration Management)配置的管理在分布式应用环境中很常见,例如同一个应用 阅读全文

posted @ 2017-05-20 21:15 tneduts 阅读(230) 评论(0) 推荐(0)

spark streaming基础知识1
摘要:1.怎么理解spark streaming中的dstream? 它是spark streaming的基础数据结构,代表着(time,RDD)序列,有两种生成方式,一种是基于流数据创建(kafka,socket...),一种是基于已有的dstream进行转换产生.在spark streaming作业运 阅读全文

posted @ 2017-05-20 12:30 tneduts 阅读(332) 评论(2) 推荐(0)

有关RDD的基础学习1
摘要:1.spark rdd为什么不能嵌套? 譬如 val rdd1=sc.parallel(range(1,100)) val rdd2=sc.parallel(range(1,100)) rdd1.map(x=>rdd.count()) 因为rdd的构造器中rdd(@trancient sc:Spar 阅读全文

posted @ 2017-05-18 21:50 tneduts 阅读(409) 评论(0) 推荐(0)

Hive的metastore
摘要:hive --service metastore 默认端口是9083 <property> <name>hive.metastore.uris</name> <value>thrift://hiveserver1:9083</value> </property> 在连接hive的客户端,如spark 阅读全文

posted @ 2017-04-18 23:13 tneduts 阅读(393) 评论(0) 推荐(0)

项目笔记
摘要:1.SPARK-SQL 执行几个集市表的ETL报错,出错为空指针异常,推断的表中数据内容有问题,同事重新生成一HIVE表后导入数据,问题消除,未找到根本原因 2.SQOOP提交时按队列 sqoop -D mapred.job.queue.name=queuename SQOOP通过METASTORE 阅读全文

posted @ 2016-12-29 18:33 tneduts 阅读(469) 评论(0) 推荐(0)

spark standalone ha spark submit
摘要:when you build a spark standalone ha cluster, when you submit your app, you should send it to the leader master, not the standby master, how to decide 阅读全文

posted @ 2016-09-19 15:45 tneduts 阅读(254) 评论(0) 推荐(0)

Spark standlone安装与配置
摘要:spark的安装简单,去官网下载与集群hadoop版本相一致的文件即可。 解压后,主要需要修改spark-evn.sh文件。 以spark standlone为例,配置dn1,nn2为master,使用zookeeper的方式进行HA。 配置如下: export JAVA_HOME=/app/jdk17079 export SCALA_HOME=/app/scala2105 expo... 阅读全文

posted @ 2016-02-23 16:05 tneduts 阅读(366) 评论(1) 推荐(0)

导航