摘要:启动 TDH Client // 进入 TDH Client 目录下 1. // 执行 TDH Client 的 init.sh 脚本,此操作只对当前 Session 有效 2. 上传作业输入文件 //将本地文件 wordcount.txt 上传至 HDFS 作业输入目录中。 // 在本地创建 wo 阅读全文
posted @ 2020-02-27 21:42 20145232 阅读 (25) 评论 (0) 编辑
摘要:启动 TDH Client // 进入 TDH Client 目录下 1. // 执行 TDH Client 的 init.sh 脚本,此操作只对当前 Session 有效 2. 查看目录 //在 HDFS 上查看实验目录/training 下文件及目录结构。 创建目录 //在 HDFS 上创建目录 阅读全文
posted @ 2020-02-26 21:49 20145232 阅读 (20) 评论 (0) 编辑
摘要:过程记录 TDH Client 下载 进行 TDH Client 客户端下载(tdh client.tar) 先将 tdh client.tar 移动到/transwarp/Desktop 下,再解压和初始化,完成安装。 1. 进入到 Linux 控制台 // 进入到下载目录 2. // 将文件复制 阅读全文
posted @ 2020-02-26 19:11 20145232 阅读 (26) 评论 (0) 编辑
摘要:MapReduce 简介 概念 面向批处理的分布式计算框架 一种编程模型: MapReduce程序被分为Map(映射)和Reduce(化简)阶段 核心思想 分而治之, 并行计算 移动计算而非移动数据 特点 MapReduce有几个特点: 移动计算而不移动数据:分布式计算,计算跟着数据走,数据存放在哪 阅读全文
posted @ 2020-02-25 21:50 20145232 阅读 (23) 评论 (0) 编辑
摘要:HDFS简介 HDFS的运用非常广泛,基本上很多大数据平台大部分都会选用HDFS(或者类似HDFS)这样的分布式文件系统、来作为海量数据存储的一个解决方案。 优缺点 优势 1. 高容错性,HDFS提供了非常好的“副本冗余机制”,简单来说就是一份数据在HDFS当中存放,包含它自身在内至少会有(默认) 阅读全文
posted @ 2020-02-25 19:20 20145232 阅读 (19) 评论 (0) 编辑
摘要:基本特征 大数据基本特征包含4个,分别为:数据规模巨大(Volume)、数据类型多样(Variety)、生成和处理速度极快(Velocity)、价格巨大但密度较低(Value),一般也称之为4V。 应用场景 数据仓库。传统的架构中也会有数据仓库,但是传统架构中,他的数据流转大概是从业务系统产生数据存 阅读全文
posted @ 2020-02-24 21:25 20145232 阅读 (11) 评论 (0) 编辑
摘要:左连接 例1:查询所有学生的成绩,包括没有成绩的学生 例2:查询所有学生的成绩,包括没有成绩的学生,需要显示课程名 右连接 添加两门课程 例1:查询所有课程的成绩,包括没有成绩的课程 例2:查询所有课程的成绩,包括没有成绩的课程,包括学生信息 自关联 设计省信息的表结构provinces id pt 阅读全文
posted @ 2020-02-23 21:53 20145232 阅读 (8) 评论 (0) 编辑
摘要:数据操作 查询 创建数据表 准备数据 查询所有字段 例: 查询指定字段 在select后面的列名部分,可以使用as为列起别名,这个别名出现在结果集中 消除重复行 在select后面列前使用distinct可以消除重复的行 例: 条件 使用where子句对表中的数据筛选,符号条件的数据会出现在结果集中 阅读全文
posted @ 2020-02-23 15:16 20145232 阅读 (8) 评论 (0) 编辑
摘要:数据库概念 数据库 是指长期存储在计算机内、有组织的数据集合。简而言之,数据库就是一个存储数据的地方。表是数据库中存储数据的基本单位,数据按照分类存储到不同的表中,能够非常高效的查询其 中的数据 关系型数据库RDBMS 当前主要使用两种类型的数据库:关系型数据库、非关系型数据库,我们主要学习主流的关 阅读全文
posted @ 2020-02-22 23:01 20145232 阅读 (12) 评论 (0) 编辑
摘要:修改文件权限:chmod chmod 修改文件权限有两种使用格式:字母法与数字法。 字母法:chmod u/g/o/a +/ /= rwx 文件 | [ u/g/o/a ] | 含义 | | : : | : : | | u | user 表示该文件的所有者 | | g | group 表示与该文件的 阅读全文
posted @ 2020-02-22 13:28 20145232 阅读 (4) 评论 (0) 编辑