随笔分类 -  大数据

摘要:spark-sql(2.0.0)读取由json数据构成的hive外部表有bug java.lang.ClassCastException: java.util.ArrayList cannot be cast to org.apache.hive.hcatalog.data.HCatRecord a 阅读全文
posted @ 2021-03-20 20:24 风和雨滴 阅读(208) 评论(1) 推荐(0)
摘要:spark-sql操作hive on spark 失败 使用spark-sql操作hive存储在hbase的外表时失败,报错: Caused by: java.lang.IllegalStateException: The input format instance has not been pro 阅读全文
posted @ 2021-03-19 21:25 风和雨滴 阅读(478) 评论(0) 推荐(0)
摘要:spark master:默认是8080 修改方式:在sbin目录下编辑start-master.sh文件,修改SPARK_MASTER_WEBUI_PORT=8080 spark worker:默认是8081 修改方式:在sbin目录下编辑start-slave.sh文件,修改SPARK_MAST 阅读全文
posted @ 2021-02-24 20:29 风和雨滴 阅读(3527) 评论(0) 推荐(1)
摘要:hive中表的结构: 在hive目录下已经创建了auxlib子目录并放入下载的jar包以支持json: 代码,尝试用spark操作由json数据构成的hive表数据: uup.spark.sql('use profile') user_action = uup.spark.sql("select a 阅读全文
posted @ 2021-02-15 21:45 风和雨滴 阅读(2325) 评论(0) 推荐(1)
摘要:使用pyspark的sparkSession.sql操作hive表数据时遇到问题: jupyter代码: spark = SparkSession.builder.appName('hivetest').enableHiveSupport().config(conf=conf).getOrCreat 阅读全文
posted @ 2021-01-25 21:07 风和雨滴 阅读(1377) 评论(0) 推荐(1)
摘要:在训练模型时spark报错:too many open files Py4JJavaError: An error occurred while calling o315.showString. : org.apache.spark.SparkException: Job aborted due t 阅读全文
posted @ 2021-01-21 09:37 风和雨滴 阅读(615) 评论(0) 推荐(0)
摘要:在设置检查点的时候一开始的写法是这样的: spark.sparkContext.setCheckpointDir('/checkPoint') 提示路径明显为本地路径,请改为hdfs路径,于是显式的写成: spark.sparkContext.setCheckpointDir('hdfs://192 阅读全文
posted @ 2021-01-14 19:04 风和雨滴 阅读(749) 评论(0) 推荐(0)
摘要:代码功能:使用sparkStreaming的updateByKey()方法统计一段时间里面接收到的文本中每个单词出现的次数。 checkpoint地址默认放在hdfs的用户目录下。 在虚拟机中使用dc -lk 9999 -v在9999端口上放入文本,StreamingContext的socketTe 阅读全文
posted @ 2021-01-11 18:49 风和雨滴 阅读(185) 评论(0) 推荐(0)
摘要:spark的默认url路径问题: spark默认从hdfs的当前用户目录下读取数据,即./目录,可以用/来改为hdfs的根目录,不用显式的写成 'hdfs:///192.168.16.128:9000/xx.csv' 的形式,但前提是在spark-env.sh中配置了hadoop配置文件夹的位置: 阅读全文
posted @ 2021-01-11 17:33 风和雨滴 阅读(896) 评论(9) 推荐(0)