随笔分类 - Spack学习
摘要:(1)在 MySQL 数据库中新建数据库 sparktest,再创建表 employee,包含如表 6-2 所示的 两行数据。 表 6-2 employee 表原有数据 id name gender Age 1 Alice F 22 2 John M 25 hadoop@hadoop-virtual
阅读全文
摘要:在官网下载MySQL的JDBC驱动时,发现下载下来的对应的安装包与之前用的不同,是dbd格式的(mysql-connector-java_8.0.19-1ubuntu16.04_all.deb),上网搜索了好多不同的方法才最终将其解压,找到对应的驱动。 一、deb、rpm、tar.gz三种不同lin
阅读全文
摘要:源文件内容如下(包含 id,name,age): 1,Ella,36 2,Bob,29 3,Jack,29 请将数据复制保存到 Linux 系统中,命名为 employee.txt,实现从 RDD 转换得到 DataFrame,并按“id:1,name:Ella,age:36”的格式打印出 Data
阅读全文
摘要:将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , "name":"Jack","ag
阅读全文
摘要:一、编写独立应用程序实现求平均值问题 每个输入文件表示班级学生某个学科的成绩,每行内容那个由两个字段组成,第一个使学生名字,第二个是学生成绩;编写spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。 供参考。 Algorithm 成绩: 小明 92 小红 87 小新 82 小丽 90
阅读全文
摘要:二、编写独立应用程序实现数据去重 对于两个输入文件A和B,编写spark独立应用程序。对两个文件进行合并,并剔除其中重复的内容。 输入文件A的样例如下:20170101 x20170102 y20170103 x20170104 y20170105 z20170106 z输入文件B的样例如下:201
阅读全文
摘要:一、spark-shell交互式编程 1.该系总共后多少学生 2.该系共开设多少门课程 3.Tom同学的总成绩平均分是多少 4.求每名同学的选修的课程门数 5.该系DataBase课程共有多少人选修 6.各门课程的平均分是多少
阅读全文
摘要:实验3 Spark读取文件系统的数据 1.在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数 2.在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统
阅读全文
摘要:一、编写Scala独立应用程序 1.安装sbt 使用 Scala 编写的程序需要使用 sbt 进行编译打包 安装截图: 在进行./sbt sbt-version 版本查看时,由于网络原因一直不出结果。所以没法判定是否安装成功过,所以打包操作明天早上再进行完成。 早上起来网速果然快。根据教程,完成了自
阅读全文
摘要:一、Spark安装 安装主要根据【林子雨老师的安装教程进行安装:http://dblab.xmu.edu.cn/blog/1307-2/】 安装截图如下:
阅读全文
摘要:一、Spark运行架构 1.基本概念 * RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型;* DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之
阅读全文
摘要:一、统计学生成绩 学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号、性别、课程名 1、课程名 2 等,后面每一行代表一个学生的信息,各字段之间用空白符隔开 Id gender Math English Physics 301610 male 80 64 78 301611 female
阅读全文
摘要:一、模拟图形绘制 对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特质,其包括一个 draw 方法,默认实现为输出对象的字符串表示。定义一个 Point 类表示点,其混入了 Drawable 特质,并包含一个 shift 方法,用于移动点。所有图形实体的抽象类为S
阅读全文
摘要:一、计算级数 请使用脚本的方式编程计算并输出下列级数的前n项之和Sn,直到Sn刚好大于或等于q为止,其中q为大于0的整数,其值通过键盘键入。 Sn=2/1+3/2+4/3+...+(n+1)/n import io.StdIn._object jishu{ def main(args: Array[
阅读全文
摘要:今天的学习主要是初步了解以及安装Scala以及学习了子雨大数据之Spark入门教程(Scala版)的前两章的介绍,现将今日所学成果总结如下: 一、Scala简介 Scala的设计吸收借鉴了许多种编程语言的思想,只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”,从写个小
阅读全文
摘要:今天的学习主要是了解spark生态体系以及观看了子雨大数据之Spark入门教程(Scala版)的介绍,现将对spark的初步了解以及日后可能会用到的一些知识总结如下: 一、spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People L
阅读全文

浙公网安备 33010602011771号