摘要: 我用部署的是standalone模式,local单节点计算的时候,结果没问题,当集群计算的时候因为是分布式的,因此结果是乱序的。解决方法如下: 有以下Hive表的定义: create table topic_recommend_score ( category_id int, topic_id bi 阅读全文
posted @ 2019-11-22 16:23 哈哈乐178 阅读(8478) 评论(0) 推荐(0) 编辑
摘要: 设置setjars后,报错:java.lang.RuntimeException: Stream '/jars/wordcount.jar' was not found.,解决办法就是jar包没找到,指定正确的位置 详情请见:https://www.maiyewang.com/2018/11/27/ 阅读全文
posted @ 2019-11-07 17:41 哈哈乐178 阅读(449) 评论(0) 推荐(0) 编辑
摘要: cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.aggregate.SortAggregateExec.aggre 阅读全文
posted @ 2019-11-07 17:28 哈哈乐178 阅读(2736) 评论(0) 推荐(0) 编辑
摘要: 修改前: 修改后: 加上 阅读全文
posted @ 2019-11-04 17:22 哈哈乐178 阅读(1077) 评论(0) 推荐(0) 编辑
摘要: num-mappers可以指定mapper运行计算数量,当指定为1时,可以不用设置split-by参数,不指定num-mappers时,默认为4,当不指定或者num-mappers大于1时,需要指定split-by参数。例子如下: 使用查询语句(--e或--query)导入时,需要指定--split 阅读全文
posted @ 2019-11-04 16:12 哈哈乐178 阅读(1840) 评论(0) 推荐(1) 编辑
摘要: 转自 http://blog.csdn.net/evandeng2009/article/details/49814097 一、基础概念 Cent0S 7默认启用LVM2(Logical Volume Manager),把机器的一块硬盘分为两个区sda1和sda2,其中分区sda1作为系统盘/boo 阅读全文
posted @ 2019-11-04 13:56 哈哈乐178 阅读(844) 评论(0) 推荐(0) 编辑
摘要: 本文将介绍spark在windows下本地模式的搭建 Spark的运行模式基本可以分为两种: 本地模式 即Driver程序只在本机运行 集群模式 即Dirver程序会在集群中运行,具体到集群模式,又可以分为spark集群、MESOS、YARN等。 作为初学者入坑,自然是本地模式调通最方便。Spark 阅读全文
posted @ 2019-11-04 13:53 哈哈乐178 阅读(3669) 评论(0) 推荐(0) 编辑
摘要: 接下来做的操作是:(这个操作,将程序打成jar包到集群中运行)(1)编写spark程序在线上的hive中创建表并导入数据(2)查询hive中的数据(3)将查询结果保存到MySQL中代码: 打jar包到集群中运行:https://blog.51cto.com/14048416/2337760 作业提交 阅读全文
posted @ 2019-11-04 13:51 哈哈乐178 阅读(842) 评论(0) 推荐(0) 编辑