大数据 - 随笔分类 - RZ_Lee

只有注册用户登录后才能阅读该文。

posted @ 2019-12-29 11:44 RZ_Lee 阅读(3) 评论(0) 推荐(0)

Error- Overloaded method value createDirectStream in error Spark Streaming打包报错

摘要：直接上代码打包报错这是一个很长的信息，说主题需要设置[字符串]，而不是设置[字符]。我能看到解决这个问题的最佳方法是：但是，如果你真的只有一个主题，那么只需按照上面的Set(topics)将字符串拆分成一组单个字符。阅读全文

posted @ 2019-08-23 16:17 RZ_Lee 阅读(1316) 评论(2) 推荐(0)

Error- spark streaming 打包将全部依赖打进去Invalid signature file digest for Manifest main attributes

摘要：spark streaming 打包将全部依赖打进去，运行jar包报错：如下解决方式：只将有需要的包打进去，因为spark的lib下已经有很多jar包，不需要我们重复打进jar包，只需要把lib没有的jar包打进去运行就好。因为包的重复引用会导致生成多个MF文件阅读全文

posted @ 2019-08-23 15:56 RZ_Lee 阅读(588) 评论(0) 推荐(0)

spark- PySparkSQL之PySpark解析Json集合数据

摘要：PySparkSQL之PySpark解析Json集合数据数据样本正菜：提交作业数据结果阅读全文

posted @ 2019-06-27 01:48 RZ_Lee 阅读(2959) 评论(0) 推荐(0)

Spark- 常见问题

摘要：记录spark使用中常见问题 SparkSQL 日期解析时用到SimpleDateFormat， SimpleDateFormat是线程不安全的。可以使用 FastDateFormat 如：阅读全文

posted @ 2019-06-17 00:17 RZ_Lee 阅读(201) 评论(0) 推荐(0)

Hadoop- HDFS的API操作

摘要：1、引入依赖注：如需手动引入jar包，hdfs的jar包 hadoop的安装目录的share下 2、window下开发的说明建议在linux下进行hadoop应用的开发，不会存在兼容性问题。如在window上做客户端应用开发，需要设置以下环境： A、在windows的某个目录下解压一个hadoo 阅读全文

posted @ 2019-05-24 07:37 RZ_Lee 阅读(845) 评论(0) 推荐(1)

Spark- 数据清洗

摘要：输入输出转化工具类读取数据，清洗输出目标数据阅读全文

posted @ 2019-05-07 01:49 RZ_Lee 阅读(4489) 评论(0) 推荐(0)

Spark- 求最受欢迎的TopN课程

摘要：数据库操作工具类数据操作类：优化点（使用批量插入数据库，提交使用batch操作）业务实现类阅读全文

posted @ 2019-05-06 12:41 RZ_Lee 阅读(493) 评论(0) 推荐(0)

Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法

摘要：在SparkSQL中获取Row的值，而且Row的字段允许null时，在取值的时候取到null赋值给新的变量名会报NullPointerException错误，可以先用row.isNullAt(index)去判断该字段的值是否为空首先上错误修改为先初始化变量，判断row.isNullAt(6) 阅读全文

posted @ 2019-04-21 01:15 RZ_Lee 阅读(1330) 评论(0) 推荐(0)

Scala- Double类型工具类

摘要：格式化分数，按照指定小数位四舍五入工具类阅读全文

posted @ 2019-04-15 15:09 RZ_Lee 阅读(1439) 评论(0) 推荐(0)

HIVE- SCD缓慢变化

摘要：SCD缓慢变化维，比如一个用户维表，用户属性会变化，但是不会变化很剧烈，可能一年只会变化一两次，也不会所有用户的属性都会有变化，只有少量的数据发生变化，所以叫缓慢变化维。这种问题就是由于维度的变化所造成的。解决方式：是否保留历史数据保留多久历史数据历史状态如何与事实表关联 SCD1 保留最新阅读全文

posted @ 2019-04-12 12:49 RZ_Lee 阅读(1211) 评论(0) 推荐(0)

Spark- JdbcRDD以及注意事项

摘要：先上Demo 返回查询结果正确现象修改查询的SQL，返回的数据量不对。原因在触发Action的时候，Task在每个分区上的业务逻辑是相同的（id >= ? and id < ?"），只是读取的数据和处理的数据不一样。RDD根据数据量和分区数据，均匀地分配每个分区Task读取数据的范围。分区阅读全文

posted @ 2019-04-06 02:36 RZ_Lee 阅读(374) 评论(0) 推荐(0)

Spark- 自定义排序

摘要：考察spark自定义排序方式一：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成自定义类类型的RDD，使用本身排序即可。方式2：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成元组类型的RDD，使用就自定义类做排序规则。方阅读全文

posted @ 2019-04-06 01:52 RZ_Lee 阅读(636) 评论(0) 推荐(1)

Spark- 根据ip地址计算归属地

摘要：主要考察的是广播变量的使用： 1、将要广播的数据 IP 规则数据存放在HDFS上，（广播出去的内容一旦广播出去产就不能改变了，如果需要实时改变的规则，可以将规则放到Redis中） 2、在Spark中转成RDD，然后收集到Driver端， 3、把 IP 规则数据广播到Executor中。Driver端阅读全文

posted @ 2019-04-06 00:15 RZ_Lee 阅读(864) 评论(0) 推荐(1)

Spark- 使用第三方依赖解析IP地址

摘要：使用 github上已有的开源项目1)git clone https://github.com/wzhe06/ipdatabase.git 2)编译下载的项目: mvn clean package- DskipTests 3)安装jar包到自己的 maven仓库 mvn install: insta 阅读全文

posted @ 2019-03-28 00:30 RZ_Lee 阅读(1125) 评论(0) 推荐(0)

Spark- 使用hiveContext时提交作业报错

摘要：在spark上操作hive时不需要搭建hive环境，只需要从现有的hive集群中hive的conf目录下拷贝 hive-site.xml 到spark的conf目录下即可提交程序运行出现报错 root cause ：是没有给程序指定MySQL驱动包的路径 solution：在提交程序的命令中添加阅读全文

posted @ 2019-03-26 22:22 RZ_Lee 阅读(286) 评论(0) 推荐(0)

CDH- cdh kafka已经卸载了,但是服务器还有kafka-topics这些命令可用,导致重新安装kafka出现问题

摘要：cdh界面删除并不会将 kafka数据删除，需要将kafka集群节点 var/local/kafka/data 清理掉然后将zk brokers/topics 下的topic也清理掉阅读全文

posted @ 2019-01-16 11:56 RZ_Lee 阅读(1237) 评论(0) 推荐(0)

Hadoop- Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10

摘要：如题出现Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10，解决方案可以在core-site.xml文件中修改ha.health-monitor.rpc-timeout.ms参数值，来扩大zkfc监控检查超时时间。阅读全文

posted @ 2019-01-02 22:27 RZ_Lee 阅读(1456) 评论(0) 推荐(0)

Hbase- Hbase客户端读写数据时的路由流程

摘要：1、客户端先到zookeeper查找hbase:meta所在的RegionServer服务器 2、去hbase:meta表查找自己所要的数据所在的region server 3、去目标region server上的region要自己的数据可以看出客户端查找数据可以不经过master 阅读全文

posted @ 2019-01-01 12:50 RZ_Lee 阅读(405) 评论(0) 推荐(0)

Spark- 共享变量

摘要：Shared Variables Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separ 阅读全文

posted @ 2018-11-03 12:14 RZ_Lee 阅读(547) 评论(0) 推荐(0)

RZ_Lee

积累点滴，终成大器

随笔分类 - 大数据

公告