摘要: 1.概念了解 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一个数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用, 阅读全文
posted @ 2018-02-02 19:18 M_study 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 1.概念了解 sqoop主要用于hadoop与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MYSQL,Oracle,Postgrep等)中的数据导到hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 2.sqoop的安装 阅读全文
posted @ 2018-02-02 09:51 M_study 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 1.概念了解 在hadoop中默认的排序算法中,只会针对key值进行排序。当key值相同时,需要对value进行排序。 简单来说,就是在数据文件中,如果按照第一列升序排序,当第一列相同时,第二列按照升序排序。 2.应用实例 输入样例 输出样例 3.算法思想 本样例使用了自定义的类MyGrouptes 阅读全文
posted @ 2018-01-30 19:20 M_study 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 倒排索引 1.了解概念 "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Invert 阅读全文
posted @ 2018-01-30 18:33 M_study 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 1.单表关联 "单表关联"要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘。 实例描述给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。 算法思想: 这个实例需要进行单表连接,连接的是左表的parent列和右表的 阅读全文
posted @ 2018-01-29 21:48 M_study 阅读(443) 评论(0) 推荐(0) 编辑
摘要: ***坐标距离*** 场景描述: 已知一个单身美女的坐标,和一群单身帅哥的坐标,求离美女最近的帅哥 数据(空格分开x、y坐标): (10,12)(23,23)(20,20)(1,3)(23,7) 假设美女的坐标为(5,5) 代码实现: public class distance2 { static 阅读全文
posted @ 2018-01-29 19:28 M_study 阅读(308) 评论(0) 推荐(0) 编辑
摘要: ***数据去重*** 目标:原始数据中出现次数超过一次的数据在输出文件中只出现一次。 算法思想:根据reduce的过程特性,会自动根据key来计算输入的value集合,把数据作为key输出给reduce,无论这个数据出现多少次,reduce最终结果中key只能输出一次。 1.实例中每个数据代表输入文 阅读全文
posted @ 2018-01-29 19:16 M_study 阅读(4680) 评论(0) 推荐(0) 编辑
摘要: 1.Combiner Combiner是MapReduce的一种优化手段。每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少map和reduce结点之间的数据传输量,以提高网络IO性能。只有操作满足结合律的才可设置combiner。 Combine 阅读全文
posted @ 2018-01-29 08:40 M_study 阅读(1477) 评论(0) 推荐(1) 编辑
摘要: 1.MapReduce的特点 软件框架、并行处理、可靠且容错、大规模集群、海量数据集 2.mapper和reducer mapper负责“分”:把复杂的任务分解为若干个“简单的任务”来处理。简单的任务包含三层含义: (1)数据或计算的规模相对原任务要大大缩小; (2)就近计算原则,任务会分配到存放着 阅读全文
posted @ 2018-01-27 19:57 M_study 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 1.关于MapReduce MapReduce是一种可用于数据处理的编程模型,能够支持java、Python、C++等语言。MapReduce程序本质上是并行运行的,因此可以处理大规模数据集,这也是它的优势。 2.使用hadoop分析数据 hadoop提供了并行处理,我们将查询表示成MapReduc 阅读全文
posted @ 2018-01-27 19:55 M_study 阅读(9092) 评论(0) 推荐(0) 编辑