随笔档案「2018年1月」 - M_study

大数据学习之十四——二次排序

摘要：1.概念了解在hadoop中默认的排序算法中，只会针对key值进行排序。当key值相同时，需要对value进行排序。简单来说，就是在数据文件中，如果按照第一列升序排序，当第一列相同时，第二列按照升序排序。 2.应用实例输入样例输出样例 3.算法思想本样例使用了自定义的类MyGrouptes 阅读全文

posted @ 2018-01-30 19:20 M_study 阅读(419) 评论(0) 推荐(0)

大数据学习之十三——倒排索引

摘要：倒排索引 1.了解概念 "倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Invert 阅读全文

posted @ 2018-01-30 18:33 M_study 阅读(431) 评论(0) 推荐(0)

大数据学习之十二——MapReduce代码实例：关联性操作

摘要：1.单表关联 "单表关联"要求从给出的数据中寻找所关心的数据，它是对原始数据所包含信息的挖掘。实例描述给出child-parent（孩子——父母）表，要求输出grandchild-grandparent（孙子——爷奶）表。算法思想：这个实例需要进行单表连接，连接的是左表的parent列和右表的阅读全文

posted @ 2018-01-29 21:48 M_study 阅读(521) 评论(0) 推荐(0)

大数据学习之十一——MapReduce代码实例：平面距离

摘要：***坐标距离*** 场景描述：已知一个单身美女的坐标，和一群单身帅哥的坐标，求离美女最近的帅哥数据（空格分开x、y坐标）：（10,12）（23，23）（20，20）（1，3）（23，7）假设美女的坐标为（5,5）代码实现： public class distance2 { static 阅读全文

posted @ 2018-01-29 19:28 M_study 阅读(327) 评论(0) 推荐(0)

大数据学习之十——MapReduce代码实例：数据去重和数据排序

摘要：***数据去重*** 目标：原始数据中出现次数超过一次的数据在输出文件中只出现一次。算法思想：根据reduce的过程特性,会自动根据key来计算输入的value集合，把数据作为key输出给reduce,无论这个数据出现多少次，reduce最终结果中key只能输出一次。 1.实例中每个数据代表输入文阅读全文

posted @ 2018-01-29 19:16 M_study 阅读(4805) 评论(0) 推荐(0)

大数据学习之九——Combiner,Partitioner,shuffle和MapReduce排序分组

摘要：1.Combiner Combiner是MapReduce的一种优化手段。每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先做一次合并，以减少map和reduce结点之间的数据传输量，以提高网络IO性能。只有操作满足结合律的才可设置combiner。 Combine 阅读全文

posted @ 2018-01-29 08:40 M_study 阅读(1588) 评论(0) 推荐(1)

大数据学习之八——MapReduce工作机制

摘要：1.MapReduce的特点软件框架、并行处理、可靠且容错、大规模集群、海量数据集 2.mapper和reducer mapper负责“分”：把复杂的任务分解为若干个“简单的任务”来处理。简单的任务包含三层含义：（1）数据或计算的规模相对原任务要大大缩小；（2）就近计算原则，任务会分配到存放着阅读全文

posted @ 2018-01-27 19:57 M_study 阅读(441) 评论(0) 推荐(0)

大数据学习之七——MapReduce简单代码实例

摘要：1.关于MapReduce MapReduce是一种可用于数据处理的编程模型，能够支持java、Python、C++等语言。MapReduce程序本质上是并行运行的，因此可以处理大规模数据集，这也是它的优势。 2.使用hadoop分析数据 hadoop提供了并行处理，我们将查询表示成MapReduc 阅读全文

posted @ 2018-01-27 19:55 M_study 阅读(9259) 评论(0) 推荐(0)

大数据学习之六——Hadoop I/O

摘要：Hadoop IO的操作意义：基于海量数据集的完整性和压缩性，Hadoop提供了用于分布式系统的API，包括序列化操作以及底层的数据结构。 1.HDFS数据完整性目的：保证用户在存储和处理数据时，数据不会有任何的丢失和损坏。（1）校验和检测数据的常见措施：在数据第一次引入系统时计算校验和（ch 阅读全文

posted @ 2018-01-27 08:39 M_study 阅读(593) 评论(0) 推荐(0)

大数据学习之五——HDFS常用命令

摘要：HDFS文件操作常用命令：（1）列出HDFS下的文件 hadoop dfs -ls <目录> （2）上传文件将Linux系统本地文件上传到HDFS中 hadoop dfs -put <本地文件> <HDFS文件> （3）下载文件将HDFS 中的文件下载到Linux系统本地目录 hadoop d 阅读全文

posted @ 2018-01-24 19:20 M_study 阅读(9186) 评论(0) 推荐(0)

大数据学习之四——HDFS

摘要：1.Hadoop与HDFS的关系 Hadoop实现了一个分布式文件系统，即Hadoop Distributed File System，简称HDFS。对外部客户机而言，HDFS就像一个传统的分级文件系统，所以，很多时候，我们也叫它DFS（Distributed File System）。可以理解为H 阅读全文

posted @ 2018-01-24 18:59 M_study 阅读(1689) 评论(0) 推荐(0)

大数据学习之三——hadoop集群安装部署

摘要：上次已经在集群的各个节点生成了公钥、私钥，然后将公钥发放到了其他所有节点。接下来将要修改hadoop的配置文件以下7个： hadoop2.7/etc/hadoop/hadoop-env.shhadoop2.7/etc/hadoop/yarn-env.shhadoop2.7/etc/hadoop/c 阅读全文

posted @ 2018-01-24 16:32 M_study 阅读(504) 评论(0) 推荐(0)

大数据学习之二——hadoop集群机器准备与连接

摘要：1.CAP原理，BASE原理 CAP原理是指在一个分布式系统中，Consistency（一致性）、Avzilability(可用性)、Partition tolerance（分区容错性），最多只能同时实现两点，三者不可兼得，所以必须做出取舍。一致性（C）：在分布式系统中的所有数据备份，在同一时刻是阅读全文

posted @ 2018-01-23 21:39 M_study 阅读(1565) 评论(0) 推荐(0)

大数据学习之一——了解简单概念

摘要：1.大数据是什么？特点大数据：是一种规模非常大的，在分析、管理、存储和获取等方面都超出了传统的数据库软件所具有的功能处理范围的巨大数据的调集。特征：1.海量的数据规模（Volume） 2.数据类型多种多样（Variety） 3.快速的数据流转和动态的数据体系（Velocity） 4.巨大的数据价阅读全文

posted @ 2018-01-23 21:26 M_study 阅读(468) 评论(0) 推荐(0)

M_study

01 2018 档案

公告