随笔分类 -  spark

摘要:一、 背景 HBase 是一个面向列,schemaless,高吞吐,高可靠可水平扩展的 NoSQL 数据库,用户可以通过 HBase client 提供的 put get 等 api 实现在数据的实时读写。在过去的几年里,HBase 有了长足的发展,它在越来越多的公司里扮演者越来越重要的角色。HBa 阅读全文
posted @ 2022-04-25 17:37 夏天换上冬装 阅读(1452) 评论(0) 推荐(0)
摘要:环境:win10 +hadoop2.7.1,服务器hadoop2.6.0+spark2.2.1+hive1.1.0 代码: 1 import org.apache.spark.sql.Dataset; 2 import org.apache.spark.sql.Row; 3 import org.a 阅读全文
posted @ 2020-05-25 20:33 夏天换上冬装 阅读(3590) 评论(0) 推荐(0)
摘要:从执行结果上看,结果相同,但是mapPartitions的速度比map快了一些。这是为什么呢?我们看下源码 1 /** 2 * Return a new RDD by applying a function to all elements of this RDD. 3 */ 4 def map[U: 阅读全文
posted @ 2020-04-26 10:59 夏天换上冬装 阅读(552) 评论(0) 推荐(0)
摘要:在运行本地运行spark或者hadoop代码时可能会遇到一下三种问题 1.Exception in thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.native.NativeID$Windows.access0 2. 阅读全文
posted @ 2019-12-25 10:41 夏天换上冬装 阅读(480) 评论(0) 推荐(0)
摘要:报错: org.apache.hadoop.security.AccessControlException: Permission denied: user=hgm, access=WRITE 其实就是当前window下hgm user没有hdfs的写权限 sudo -u hdfs hdfs dfs 阅读全文
posted @ 2019-12-25 10:38 夏天换上冬装 阅读(710) 评论(0) 推荐(0)