随笔分类 - spark
摘要:一、 背景 HBase 是一个面向列,schemaless,高吞吐,高可靠可水平扩展的 NoSQL 数据库,用户可以通过 HBase client 提供的 put get 等 api 实现在数据的实时读写。在过去的几年里,HBase 有了长足的发展,它在越来越多的公司里扮演者越来越重要的角色。HBa
阅读全文
摘要:环境:win10 +hadoop2.7.1,服务器hadoop2.6.0+spark2.2.1+hive1.1.0 代码: 1 import org.apache.spark.sql.Dataset; 2 import org.apache.spark.sql.Row; 3 import org.a
阅读全文
摘要:从执行结果上看,结果相同,但是mapPartitions的速度比map快了一些。这是为什么呢?我们看下源码 1 /** 2 * Return a new RDD by applying a function to all elements of this RDD. 3 */ 4 def map[U:
阅读全文
摘要:在运行本地运行spark或者hadoop代码时可能会遇到一下三种问题 1.Exception in thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.native.NativeID$Windows.access0 2.
阅读全文
摘要:报错: org.apache.hadoop.security.AccessControlException: Permission denied: user=hgm, access=WRITE 其实就是当前window下hgm user没有hdfs的写权限 sudo -u hdfs hdfs dfs
阅读全文
浙公网安备 33010602011771号