大数据 - 随笔分类 - 嘻嘻_嘻

学习进度笔记8

摘要：今天完成spark实验7：Spark机器学习库MLlib编程实践。 1、数据导入从文件中导入数据，并转化为 DataFrame。 //导入需要的包 import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row impo 阅读全文

posted @ 2021-01-08 17:55 嘻嘻_嘻阅读(1462) 评论(4) 推荐(0)

学习进度笔记7

摘要：今天完成spark实验6：Spark Streaming编程初级实践。 1、安装Flume Flume 是 Cloudera 提供的一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。Flume 的核心是把数据从数据源收集过阅读全文

posted @ 2021-01-07 13:18 嘻嘻_嘻阅读(382) 评论(0) 推荐(0)

学习进度笔记6

摘要：今天完成spark实验5：Spark SQL编程初级实践。 1、Spark SQL基本操作将下列 JSON 格式数据复制到 Linux 系统中，并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name" 阅读全文

posted @ 2021-01-06 21:06 嘻嘻_嘻阅读(573) 评论(0) 推荐(0)

学习进度笔记5

摘要：今天完成spark实验4：RDD编程初级实践。 1、spark-shell交互式编程请根据给定的实验数据，在 spark-shell 中通过编程来计算以下内容：（1）该系总共有多少学生；（2）该系共开设了多少门课程；（3）Tom 同学的总成绩平均分是多少；（4）求每名同学的选修的课程门数；阅读全文

posted @ 2021-01-05 21:32 嘻嘻_嘻阅读(375) 评论(0) 推荐(0)

学习进度笔记4

摘要：今天完成spark实验3：Spark和Hadoop的安装。 1．安装 Hadoop 和 Spark 进入 Linux 系统，参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”，完成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后，再安装 Spark（Local 模式）阅读全文

posted @ 2021-01-04 21:45 嘻嘻_嘻阅读(213) 评论(0) 推荐(0)

学习进度笔记3

摘要：今天完成spark实验2：Scala编程初级实践。一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构； 2.掌握面向对象编程的基础知识，能够编写自定义类和特质； 3.掌握函数式编程的基础知识，能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本层次结构，熟练使用常用的容器阅读全文

posted @ 2021-01-03 15:26 嘻嘻_嘻阅读(156) 评论(0) 推荐(0)

学习进度笔记1

摘要：今天完成spark实验1：Linux系统的安装和常用命令。 1、安装Linux虚拟机 2、使用Linux系统的常用命令（1）查看/usr/local下的所有文件（2)进入/usr 目录，创建一个名为 test 的目录，并查看有多少目录存在； (3)在/usr 下新建目录 test1，再复制这个目阅读全文

posted @ 2021-01-02 10:32 嘻嘻_嘻阅读(77) 评论(0) 推荐(0)

随笔分类 - 大数据