随笔分类 -  大数据

学习进度笔记8
摘要:今天完成spark实验7:Spark机器学习库MLlib编程实践。 1、数据导入 从文件中导入数据,并转化为 DataFrame。 //导入需要的包 import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row impo 阅读全文
posted @ 2021-01-08 17:55 嘻嘻_嘻 阅读(1462) 评论(4) 推荐(0)
学习进度笔记7
摘要:今天完成spark实验6:Spark Streaming编程初级实践。 1、安装Flume Flume 是 Cloudera 提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量 日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。Flume 的 核心是把数据从数据源收集过 阅读全文
posted @ 2021-01-07 13:18 嘻嘻_嘻 阅读(382) 评论(0) 推荐(0)
学习进度笔记6
摘要:今天完成spark实验5:Spark SQL编程初级实践。 1、Spark SQL基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name" 阅读全文
posted @ 2021-01-06 21:06 嘻嘻_嘻 阅读(573) 评论(0) 推荐(0)
学习进度笔记5
摘要:今天完成spark实验4:RDD编程初级实践。 1、spark-shell交互式编程 请根据给定的实验数据,在 spark-shell 中通过编程来计算以下内容: (1)该系总共有多少学生; (2)该系共开设了多少门课程; (3)Tom 同学的总成绩平均分是多少; (4)求每名同学的选修的课程门数; 阅读全文
posted @ 2021-01-05 21:32 嘻嘻_嘻 阅读(375) 评论(0) 推荐(0)
学习进度笔记4
摘要:今天完成spark实验3:Spark和Hadoop的安装。 1.安装 Hadoop 和 Spark 进入 Linux 系统,参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”,完 成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后,再安装 Spark(Local 模式) 阅读全文
posted @ 2021-01-04 21:45 嘻嘻_嘻 阅读(213) 评论(0) 推荐(0)
学习进度笔记3
摘要:今天完成spark实验2:Scala编程初级实践。 一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器 阅读全文
posted @ 2021-01-03 15:26 嘻嘻_嘻 阅读(156) 评论(0) 推荐(0)
学习进度笔记1
摘要:今天完成spark实验1:Linux系统的安装和常用命令。 1、安装Linux虚拟机 2、使用Linux系统的常用命令 (1)查看/usr/local下的所有文件 (2)进入/usr 目录,创建一个名为 test 的目录,并查看有多少目录存在; (3)在/usr 下新建目录 test1,再复制这个目 阅读全文
posted @ 2021-01-02 10:32 嘻嘻_嘻 阅读(77) 评论(0) 推荐(0)