大数据相关 - 随笔分类 - fionaplanet

IDEA新建Scala工程及 git克隆项目

摘要：1. 把IDEA的scala插件安装好，我是因为联网下载太慢，所以找了个这个版本的IDEA对应的scala插件，具体版本可以在Install jteBrains plugin里面搜Scala查看 2. 新建Maven工程，然后把相应的信息都填完 3. 完成以后，发现还不能直接新建Scala Clas 阅读全文

posted @ 2020-07-10 22:28 fionaplanet 阅读(342) 评论(0) 推荐(0)

小数据玩转pyspark（1）

摘要：sqoop：导入结构化数据 kafka：导入流式数据 HDFS：文件存储形式（数据存在Hadoop上是，存在HDFS）怎么访问呢？最传统的肯定是MR，后期有Hive（其实就是把MR通过sql转换了一下，Hive本身并没有存储功能，存储还是HDFS），现在也可以用spark进行数据操作（spark S 阅读全文

posted @ 2019-04-21 22:34 fionaplanet 阅读(697) 评论(0) 推荐(0)

sparkRDD相关操作

摘要：RDD（弹性分布式数据集）。RDD以分区中的每一行进行分布式计算。父子依赖关系。一、RDD创建操作 1）数据集合 Val data=Array(1, 2, 3, 4, 5, 6, 7, 8, 9) Val distData = sc.parallelize(data, 3) #分区，生成RDD数据阅读全文

posted @ 2018-04-12 10:22 fionaplanet 阅读(411) 评论(0) 推荐(0)

spark基础知识（1）

摘要：一、大数据架构并发计算：并行计算：很少会说并发计算，一般都是说并行计算，但是并行计算用的是并发技术。并发更偏向于底层。并发通常指的是单机上的并发运行，通过多线程来实现。而并行计算的范围更广，他是散布到集群上的分布式计算。 Spark内存计算比hadoop快100倍，磁盘计算快10倍，在work 阅读全文

posted @ 2018-04-08 16:00 fionaplanet 阅读(279) 评论(0) 推荐(0)

spark2.2.1安装、pycharm连接spark配置

摘要：一、单机版本Spark安装 Win10下安装Spark2.2.1 1. 工具准备 JDK 8u161 with NetBeans 8.2： http://www.oracle.com/technetwork/java/javase/downloads/jdk-netbeans-jsp-142931. 阅读全文

posted @ 2018-03-07 22:30 fionaplanet 阅读(2623) 评论(0) 推荐(0)

dataAlpha

随笔分类 - 大数据相关

公告