随笔分类 -  大数据相关

摘要:1. 把IDEA的scala插件安装好,我是因为联网下载太慢,所以找了个这个版本的IDEA对应的scala插件,具体版本可以在Install jteBrains plugin里面搜Scala查看 2. 新建Maven工程,然后把相应的信息都填完 3. 完成以后,发现还不能直接新建Scala Clas 阅读全文
posted @ 2020-07-10 22:28 fionaplanet 阅读(339) 评论(0) 推荐(0)
摘要:sqoop:导入结构化数据 kafka:导入流式数据 HDFS:文件存储形式(数据存在Hadoop上是,存在HDFS)怎么访问呢?最传统的肯定是MR,后期有Hive(其实就是把MR通过sql转换了一下,Hive本身并没有存储功能,存储还是HDFS),现在也可以用spark进行数据操作(spark S 阅读全文
posted @ 2019-04-21 22:34 fionaplanet 阅读(695) 评论(0) 推荐(0)
摘要:RDD(弹性分布式数据集)。RDD以分区中的每一行进行分布式计算。父子依赖关系。 一、RDD创建操作 1)数据集合 Val data=Array(1, 2, 3, 4, 5, 6, 7, 8, 9) Val distData = sc.parallelize(data, 3) #分区,生成RDD数据 阅读全文
posted @ 2018-04-12 10:22 fionaplanet 阅读(407) 评论(0) 推荐(0)
摘要:一、大数据架构 并发计算: 并行计算: 很少会说并发计算,一般都是说并行计算,但是并行计算用的是并发技术。并发更偏向于底层。并发通常指的是单机上的并发运行,通过多线程来实现。而并行计算的范围更广,他是散布到集群上的分布式计算。 Spark内存计算比hadoop快100倍,磁盘计算快10倍,在work 阅读全文
posted @ 2018-04-08 16:00 fionaplanet 阅读(279) 评论(0) 推荐(0)
摘要:一、单机版本Spark安装 Win10下安装Spark2.2.1 1. 工具准备 JDK 8u161 with NetBeans 8.2: http://www.oracle.com/technetwork/java/javase/downloads/jdk-netbeans-jsp-142931. 阅读全文
posted @ 2018-03-07 22:30 fionaplanet 阅读(2611) 评论(0) 推荐(0)