spark - 随笔分类 - 夏天换上冬装

使用spark进行hbase的bulkload

摘要：一、背景 HBase 是一个面向列，schemaless，高吞吐，高可靠可水平扩展的 NoSQL 数据库，用户可以通过 HBase client 提供的 put get 等 api 实现在数据的实时读写。在过去的几年里，HBase 有了长足的发展，它在越来越多的公司里扮演者越来越重要的角色。HBa 阅读全文

posted @ 2022-04-25 17:37 夏天换上冬装阅读(1452) 评论(0) 推荐(0)

spark Error while running command to get file permissions

摘要：环境:win10 +hadoop2.7.1，服务器hadoop2.6.0+spark2.2.1+hive1.1.0 代码： 1 import org.apache.spark.sql.Dataset; 2 import org.apache.spark.sql.Row; 3 import org.a 阅读全文

posted @ 2020-05-25 20:33 夏天换上冬装阅读(3590) 评论(0) 推荐(0)

Spark的map与mapPartitons的区别

摘要：从执行结果上看，结果相同，但是mapPartitions的速度比map快了一些。这是为什么呢？我们看下源码 1 /** 2 * Return a new RDD by applying a function to all elements of this RDD. 3 */ 4 def map[U: 阅读全文

posted @ 2020-04-26 10:59 夏天换上冬装阅读(552) 评论(0) 推荐(0)

spark window本地运行wordcount错误

摘要：在运行本地运行spark或者hadoop代码时可能会遇到一下三种问题 1.Exception in thread "main" java.lang.UnsatisfiedLinkError：org.apache.hadoop.io.native.NativeID$Windows.access0 2. 阅读全文

posted @ 2019-12-25 10:41 夏天换上冬装阅读(480) 评论(0) 推荐(0)

spark代码写入hdfs错误

摘要：报错： org.apache.hadoop.security.AccessControlException: Permission denied: user=hgm, access=WRITE 其实就是当前window下hgm user没有hdfs的写权限 sudo -u hdfs hdfs dfs 阅读全文

posted @ 2019-12-25 10:38 夏天换上冬装阅读(710) 评论(0) 推荐(0)

随笔分类 - spark

公告