01 2018 档案

摘要:1.概念了解 在hadoop中默认的排序算法中,只会针对key值进行排序。当key值相同时,需要对value进行排序。 简单来说,就是在数据文件中,如果按照第一列升序排序,当第一列相同时,第二列按照升序排序。 2.应用实例 输入样例 输出样例 3.算法思想 本样例使用了自定义的类MyGrouptes 阅读全文
posted @ 2018-01-30 19:20 M_study 阅读(405) 评论(0) 推荐(0)
摘要:倒排索引 1.了解概念 "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Invert 阅读全文
posted @ 2018-01-30 18:33 M_study 阅读(428) 评论(0) 推荐(0)
摘要:1.单表关联 "单表关联"要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘。 实例描述给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。 算法思想: 这个实例需要进行单表连接,连接的是左表的parent列和右表的 阅读全文
posted @ 2018-01-29 21:48 M_study 阅读(510) 评论(0) 推荐(0)
摘要:***坐标距离*** 场景描述: 已知一个单身美女的坐标,和一群单身帅哥的坐标,求离美女最近的帅哥 数据(空格分开x、y坐标): (10,12)(23,23)(20,20)(1,3)(23,7) 假设美女的坐标为(5,5) 代码实现: public class distance2 { static 阅读全文
posted @ 2018-01-29 19:28 M_study 阅读(318) 评论(0) 推荐(0)
摘要:***数据去重*** 目标:原始数据中出现次数超过一次的数据在输出文件中只出现一次。 算法思想:根据reduce的过程特性,会自动根据key来计算输入的value集合,把数据作为key输出给reduce,无论这个数据出现多少次,reduce最终结果中key只能输出一次。 1.实例中每个数据代表输入文 阅读全文
posted @ 2018-01-29 19:16 M_study 阅读(4796) 评论(0) 推荐(0)
摘要:1.Combiner Combiner是MapReduce的一种优化手段。每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少map和reduce结点之间的数据传输量,以提高网络IO性能。只有操作满足结合律的才可设置combiner。 Combine 阅读全文
posted @ 2018-01-29 08:40 M_study 阅读(1575) 评论(0) 推荐(1)
摘要:1.MapReduce的特点 软件框架、并行处理、可靠且容错、大规模集群、海量数据集 2.mapper和reducer mapper负责“分”:把复杂的任务分解为若干个“简单的任务”来处理。简单的任务包含三层含义: (1)数据或计算的规模相对原任务要大大缩小; (2)就近计算原则,任务会分配到存放着 阅读全文
posted @ 2018-01-27 19:57 M_study 阅读(434) 评论(0) 推荐(0)
摘要:1.关于MapReduce MapReduce是一种可用于数据处理的编程模型,能够支持java、Python、C++等语言。MapReduce程序本质上是并行运行的,因此可以处理大规模数据集,这也是它的优势。 2.使用hadoop分析数据 hadoop提供了并行处理,我们将查询表示成MapReduc 阅读全文
posted @ 2018-01-27 19:55 M_study 阅读(9243) 评论(0) 推荐(0)
摘要:Hadoop IO的操作意义:基于海量数据集的完整性和压缩性,Hadoop提供了用于分布式系统的API,包括序列化操作以及底层的数据结构。 1.HDFS数据完整性 目的:保证用户在存储和处理数据时,数据不会有任何的丢失和损坏。 (1)校验和 检测数据的常见措施:在数据第一次引入系统时计算校验和(ch 阅读全文
posted @ 2018-01-27 08:39 M_study 阅读(592) 评论(0) 推荐(0)
摘要:HDFS文件操作常用命令: (1)列出HDFS下的文件 hadoop dfs -ls <目录> (2)上传文件 将Linux系统本地文件上传到HDFS中 hadoop dfs -put <本地文件> <HDFS文件> (3)下载文件 将HDFS 中的文件下载到Linux系统本地目录 hadoop d 阅读全文
posted @ 2018-01-24 19:20 M_study 阅读(9178) 评论(0) 推荐(0)
摘要:1.Hadoop与HDFS的关系 Hadoop实现了一个分布式文件系统,即Hadoop Distributed File System,简称HDFS。对外部客户机而言,HDFS就像一个传统的分级文件系统,所以,很多时候,我们也叫它DFS(Distributed File System)。可以理解为H 阅读全文
posted @ 2018-01-24 18:59 M_study 阅读(1670) 评论(0) 推荐(0)
摘要:上次已经在集群的各个节点生成了公钥、私钥,然后将公钥发放到了其他所有节点。 接下来将要修改hadoop的配置文件以下7个: hadoop2.7/etc/hadoop/hadoop-env.shhadoop2.7/etc/hadoop/yarn-env.shhadoop2.7/etc/hadoop/c 阅读全文
posted @ 2018-01-24 16:32 M_study 阅读(495) 评论(0) 推荐(0)
摘要:1.CAP原理,BASE原理 CAP原理是指在一个分布式系统中,Consistency(一致性)、Avzilability(可用性)、Partition tolerance(分区容错性),最多只能同时实现两点,三者不可兼得,所以必须做出取舍。 一致性(C):在分布式系统中的所有数据备份,在同一时刻是 阅读全文
posted @ 2018-01-23 21:39 M_study 阅读(1549) 评论(0) 推荐(0)
摘要:1.大数据是什么?特点 大数据:是一种规模非常大的,在分析、管理、存储和获取等方面都超出了传统的数据库软件所具有的功能处理范围的巨大数据的调集。 特征:1.海量的数据规模(Volume) 2.数据类型多种多样(Variety) 3.快速的数据流转和动态的数据体系(Velocity) 4.巨大的数据价 阅读全文
posted @ 2018-01-23 21:26 M_study 阅读(455) 评论(0) 推荐(0)