摘要: Hadoop IO的操作意义:基于海量数据集的完整性和压缩性,Hadoop提供了用于分布式系统的API,包括序列化操作以及底层的数据结构。 1.HDFS数据完整性 目的:保证用户在存储和处理数据时,数据不会有任何的丢失和损坏。 (1)校验和 检测数据的常见措施:在数据第一次引入系统时计算校验和(ch 阅读全文
posted @ 2018-01-27 08:39 M_study 阅读(556) 评论(0) 推荐(0) 编辑
摘要: HDFS文件操作常用命令: (1)列出HDFS下的文件 hadoop dfs -ls <目录> (2)上传文件 将Linux系统本地文件上传到HDFS中 hadoop dfs -put <本地文件> <HDFS文件> (3)下载文件 将HDFS 中的文件下载到Linux系统本地目录 hadoop d 阅读全文
posted @ 2018-01-24 19:20 M_study 阅读(9138) 评论(0) 推荐(0) 编辑
摘要: 1.Hadoop与HDFS的关系 Hadoop实现了一个分布式文件系统,即Hadoop Distributed File System,简称HDFS。对外部客户机而言,HDFS就像一个传统的分级文件系统,所以,很多时候,我们也叫它DFS(Distributed File System)。可以理解为H 阅读全文
posted @ 2018-01-24 18:59 M_study 阅读(1618) 评论(0) 推荐(0) 编辑
摘要: 上次已经在集群的各个节点生成了公钥、私钥,然后将公钥发放到了其他所有节点。 接下来将要修改hadoop的配置文件以下7个: hadoop2.7/etc/hadoop/hadoop-env.shhadoop2.7/etc/hadoop/yarn-env.shhadoop2.7/etc/hadoop/c 阅读全文
posted @ 2018-01-24 16:32 M_study 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 1.CAP原理,BASE原理 CAP原理是指在一个分布式系统中,Consistency(一致性)、Avzilability(可用性)、Partition tolerance(分区容错性),最多只能同时实现两点,三者不可兼得,所以必须做出取舍。 一致性(C):在分布式系统中的所有数据备份,在同一时刻是 阅读全文
posted @ 2018-01-23 21:39 M_study 阅读(1518) 评论(0) 推荐(0) 编辑
摘要: 1.大数据是什么?特点 大数据:是一种规模非常大的,在分析、管理、存储和获取等方面都超出了传统的数据库软件所具有的功能处理范围的巨大数据的调集。 特征:1.海量的数据规模(Volume) 2.数据类型多种多样(Variety) 3.快速的数据流转和动态的数据体系(Velocity) 4.巨大的数据价 阅读全文
posted @ 2018-01-23 21:26 M_study 阅读(443) 评论(0) 推荐(0) 编辑