哈哈乐178

2019年11月22日

摘要：我用部署的是standalone模式，local单节点计算的时候，结果没问题，当集群计算的时候因为是分布式的，因此结果是乱序的。解决方法如下：有以下Hive表的定义： create table topic_recommend_score ( category_id int, topic_id bi 阅读全文

posted @ 2019-11-22 16:23 哈哈乐178 阅读(8578) 评论(0) 推荐(0) 编辑

2019年11月7日

idea连接spark集群报错：java.lang.RuntimeException: Stream '/jars/wordcount.jar' was not found.

摘要：设置setjars后，报错：java.lang.RuntimeException: Stream '/jars/wordcount.jar' was not found.，解决办法就是jar包没找到，指定正确的位置详情请见：https://www.maiyewang.com/2018/11/27/ 阅读全文

posted @ 2019-11-07 17:41 哈哈乐178 阅读(459) 评论(0) 推荐(0) 编辑

idea连接spark集群报错解析：Caused by: java.lang.ClassCastException

摘要： cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.aggregate.SortAggregateExec.aggre 阅读全文

posted @ 2019-11-07 17:28 哈哈乐178 阅读(2795) 评论(0) 推荐(0) 编辑

2019年11月4日

sqoop导入mysql数据到hdfs，数据量不一致

摘要：修改前：修改后：加上阅读全文

posted @ 2019-11-04 17:22 哈哈乐178 阅读(1086) 评论(0) 推荐(0) 编辑

sqoop导入hdfs时指定num-mappers参数

摘要： num-mappers可以指定mapper运行计算数量，当指定为1时，可以不用设置split-by参数，不指定num-mappers时，默认为4，当不指定或者num-mappers大于1时，需要指定split-by参数。例子如下: 使用查询语句（--e或--query）导入时，需要指定--split 阅读全文

posted @ 2019-11-04 16:12 哈哈乐178 阅读(1871) 评论(0) 推荐(1) 编辑

从CentOS7默认安装的/home中转移空间到根目录/ - LVM操作简明教程

摘要：转自 http://blog.csdn.net/evandeng2009/article/details/49814097 一、基础概念 Cent0S 7默认启用LVM2（Logical Volume Manager），把机器的一块硬盘分为两个区sda1和sda2，其中分区sda1作为系统盘/boo 阅读全文

posted @ 2019-11-04 13:56 哈哈乐178 阅读(853) 评论(0) 推荐(0) 编辑

windoes运行spark程序，报错:Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog'(转载)

摘要：本文将介绍spark在windows下本地模式的搭建 Spark的运行模式基本可以分为两种：本地模式即Driver程序只在本机运行集群模式即Dirver程序会在集群中运行，具体到集群模式，又可以分为spark集群、MESOS、YARN等。作为初学者入坑，自然是本地模式调通最方便。Spark 阅读全文

posted @ 2019-11-04 13:53 哈哈乐178 阅读(3751) 评论(0) 推荐(0) 编辑

spark集成外部hive（转载）

摘要：接下来做的操作是：（这个操作，将程序打成jar包到集群中运行）（1）编写spark程序在线上的hive中创建表并导入数据（2）查询hive中的数据（3）将查询结果保存到MySQL中代码：打jar包到集群中运行：https://blog.51cto.com/14048416/2337760 作业提交阅读全文

posted @ 2019-11-04 13:51 哈哈乐178 阅读(844) 评论(0) 推荐(0) 编辑

公告