随笔分类 - 大数据
摘要:直接上代码 打包报错 这是一个很长的信息,说主题需要设置[字符串],而不是设置[字符]。 我能看到解决这个问题的最佳方法是: 但是,如果你真的只有一个主题,那么只需按照上面的Set(topics)将字符串拆分成一组单个字符。
阅读全文
摘要:spark streaming 打包将全部依赖打进去,运行jar包报错:如下 解决方式:只将有需要的包打进去,因为spark的lib下已经有很多jar包,不需要我们重复打进jar包,只需要把lib没有的jar包打进去运行就好。因为包的重复引用会导致生成多个MF文件
阅读全文
摘要:PySparkSQL之PySpark解析Json集合数据 数据样本 正菜: 提交作业 数据结果
阅读全文
摘要:记录spark使用中常见问题 SparkSQL 日期解析时用到SimpleDateFormat, SimpleDateFormat是线程不安全的。可以使用 FastDateFormat 如:
阅读全文
摘要:1、引入依赖 注:如需手动引入jar包,hdfs的jar包 hadoop的安装目录的share下 2、window下开发的说明 建议在linux下进行hadoop应用的开发,不会存在兼容性问题。如在window上做客户端应用开发,需要设置以下环境: A、在windows的某个目录下解压一个hadoo
阅读全文
摘要:数据库操作工具类 数据操作类:优化点(使用批量插入数据库,提交使用batch操作) 业务实现类
阅读全文
摘要:在SparkSQL中获取Row的值,而且Row的字段允许null时,在取值的时候取到null赋值给新的变量名会报NullPointerException错误, 可以先用row.isNullAt(index)去判断该字段的值是否为空 首先上错误 修改为先初始化变量,判断row.isNullAt(6)
阅读全文
摘要:格式化分数,按照指定小数位四舍五入工具类
阅读全文
摘要:SCD缓慢变化维,比如一个用户维表,用户属性会变化,但是不会变化很剧烈,可能一年只会变化一两次,也不会所有用户的属性都会有变化,只有少量的数据发生变化,所以叫缓慢变化维。这种问题就是由于维度的变化所造成的。 解决方式: 是否保留历史数据 保留多久历史数据 历史状态如何与事实表关联 SCD1 保留最新
阅读全文
摘要:先上Demo 返回查询结果正确 现象 修改查询的SQL,返回的数据量不对。 原因 在触发Action的时候,Task在每个分区上的业务逻辑是相同的(id >= ? and id < ?"),只是读取的数据和处理的数据不一样。RDD根据数据量和分区数据,均匀地分配每个分区Task读取数据的范围。 分区
阅读全文
摘要:考察spark自定义排序 方式一:自定义一个类继承Ordered和序列化,Driver端将数据变成RDD,整理数据转成自定义类类型的RDD,使用本身排序即可。 方式2:自定义一个类继承Ordered和序列化,Driver端将数据变成RDD,整理数据转成元组类型的RDD,使用就自定义类做排序规则。 方
阅读全文
摘要:主要考察的是广播变量的使用: 1、将要广播的数据 IP 规则数据存放在HDFS上,(广播出去的内容一旦广播出去产就不能改变了,如果需要实时改变的规则,可以将规则放到Redis中) 2、在Spark中转成RDD,然后收集到Driver端, 3、把 IP 规则数据广播到Executor中。Driver端
阅读全文
摘要:使用 github上已有的开源项目1)git clone https://github.com/wzhe06/ipdatabase.git 2)编译下载的项目: mvn clean package- DskipTests 3)安装jar包到自己的 maven仓库 mvn install: insta
阅读全文
摘要:在spark上操作hive时不需要搭建hive环境,只需要从现有的hive集群中hive的conf目录下拷贝 hive-site.xml 到spark的conf目录下即可提交程序运行 出现报错 root cause :是没有给程序指定MySQL驱动包的路径 solution:在提交程序的命令中添加
阅读全文
摘要:cdh界面删除并不会将 kafka数据删除,需要将kafka集群节点 var/local/kafka/data 清理掉 然后将zk brokers/topics 下的topic也清理掉
阅读全文
摘要:如题出现Namenode经常挂掉 IPC's epoch 9 is less than the last promised epoch 10, 解决方案 可以在core-site.xml文件中修改ha.health-monitor.rpc-timeout.ms参数值,来扩大zkfc监控检查超时时间。
阅读全文
摘要:1、客户端先到zookeeper查找hbase:meta所在的RegionServer服务器 2、去hbase:meta表查找自己所要的数据所在的region server 3、去目标region server上的region要自己的数据 可以看出客户端查找数据可以不经过master
阅读全文
摘要:Shared Variables Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separ
阅读全文

浙公网安备 33010602011771号