03 2019 档案

摘要:一、shuffle机制概述 shuffle机制就是发生在MR程序中,Mapper之后,Reducer之前的一系列分区排序的操作。shuffle的作用是为了保证Reducer收到的数据都是按键排序的。 二、shuffle机制的流程 还是按照上个随笔MR整体流程的需求来做参考: 1.Mapper中con 阅读全文
posted @ 2019-03-29 00:35 给你一个公主抱 阅读(778) 评论(0) 推荐(0)
摘要:一、辅助排序 需求:先有一个订单数据文件,包含了订单id、商品id、商品价格,要求将订单id正序,商品价格倒序,且生成结果文件个数为订单id的数量,每个结果文件中只要一条该订单最贵商品的数据。 思路:1.封装订单类OrderBean,实现WritableComparable接口; 2.自定义Mapp 阅读全文
posted @ 2019-03-28 21:47 给你一个公主抱 阅读(298) 评论(0) 推荐(0)
摘要:一、MR排序的分类 1.部分排序:MR会根据自己输出记录的KV对数据进行排序,保证输出到每一个文件内存都是经过排序的; 2.全局排序; 3.辅助排序:再第一次排序后经过分区再排序一次; 4.二次排序:经过一次排序后又根据业务逻辑再次进行排序。 二、MR排序的接口——WritableComparabl 阅读全文
posted @ 2019-03-24 23:11 给你一个公主抱 阅读(1358) 评论(0) 推荐(0)
摘要:一、Maptask并行度与决定机制 1.一个job任务的map阶段的并行度默认是由该任务的大小决定的; 2.一个split切分分配一个maprask来并行处理; 3.默认情况下,split切分的大小等于blocksize大小; 4.切片不是mapper类中对单词的切片,而是对每一个处理文件的单独切片 阅读全文
posted @ 2019-03-24 22:43 给你一个公主抱 阅读(763) 评论(0) 推荐(0)
摘要:一、Hadoop数据序列化的数据类型 Java数据类型 => Hadoop数据类型 int IntWritable float FloatWritable long LongWritable double DoubleWritable String Text boolean BooleanWrita 阅读全文
posted @ 2019-03-24 21:48 给你一个公主抱 阅读(320) 评论(0) 推荐(0)
摘要:一、Yarn集群概述及搭建 1.Mapreduce程序运行在多台机器的集群上,而且在运行是要使用很多maptask和reducertask,这个过程中需要一个自动化任务调度平台来调度任务,分配资源,这个平台就是Yarn! 2.Yarn提交任务的流程: 当我们向Yarn集群提交任务后,Yarn通过Re 阅读全文
posted @ 2019-03-24 01:47 给你一个公主抱 阅读(632) 评论(0) 推荐(0)
摘要:一、Mapreduce概述 Mapreduce是分布式程序编程框架,也是分布式计算框架,它简化了开发! Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。 二、Mapreduce优缺点 优点:1.易于编程:只用实现几个接口即可完成 阅读全文
posted @ 2019-03-24 01:08 给你一个公主抱 阅读(340) 评论(0) 推荐(0)
摘要:一、HDFS运行机制 概述:用户的文件会被切块后存储在多台datanode节点中,并且每个文件在整个集群中存放多个副本,副本的数量可以通过修改配置自己设定。 HDFS:Hadoop Distributed file system,分布式文件系统。 HDFS的机制: HDFS集群中,有两种节点,分别为 阅读全文
posted @ 2019-03-23 14:48 给你一个公主抱 阅读(2581) 评论(0) 推荐(0)
摘要:一、读取HDFS文件数据、将本地文件写入HDFS中文件、使用IOUtils读写数据 阅读全文
posted @ 2019-03-22 22:34 给你一个公主抱 阅读(274) 评论(0) 推荐(0)
摘要:一、HDFS集群API所需要jar包的maven配置信息 二、从HDFS下载数据文件/上传文件到HDFS文件系统 思路:1.获取配置信息 2.设置配置信息(块大小、副本数) 3.构造客户端 4.下载数据文件/上传数据文件 5.关闭资源 (1)下载文件 (2)上传文件 三、对HDFS系统进行操作的AP 阅读全文
posted @ 2019-03-22 22:28 给你一个公主抱 阅读(633) 评论(0) 推荐(0)
摘要:一、HDFS的客户端种类 1.网页形式 =>用于测试 网址为你的namenode节点的ip+50070的端口号,如: 192.168.50.128:50070 2.命令行形式 =>用于测试 3.企业级API 二、HDFS客户端的命令行操作 注释:/hdfs为HDFS上的目录 /root/linux为 阅读全文
posted @ 2019-03-22 16:11 给你一个公主抱 阅读(892) 评论(0) 推荐(0)
摘要:一、大数据存储和计算的各种框架即工具 1.存储:HDFS:分布式文件系统 Hbase:分布式数据库系统 Kafka:分布式消息缓存系统 2.计算:Mapreduce:离线计算框架 storm:实时流式计算 spark:离线批处理/实时流处理计算框架(MR的二次封装) 3.辅助类工具:hive:数据仓 阅读全文
posted @ 2019-03-22 15:08 给你一个公主抱 阅读(374) 评论(0) 推荐(0)
摘要:前言 折磨了我近一个月的Chrome打开网页慢的问题终于在今天告一段落,完结撒花~然后觉得很有必要发一篇文章来指引误入歧途的后来人~ 互联网上大部分教程无非都是教你在浏览器设置里取消勾选一些选项,在局域网设置里取消勾选云云,但还有一种情况一直被忽略,那就是——防火墙设置!这不是我说的,是Chrome 阅读全文
posted @ 2019-03-21 18:17 给你一个公主抱 阅读(15512) 评论(0) 推荐(0)
摘要:我们可以通过在maven中插入配置信息 来简化javabean,简化构造器,在我们写封装类时可以不用写有参、无参、getter、setter方法等, 但是在下载好jar包到maven工程后,去声明封装类对象时仍会让我们去创建构造方法!!! 这是因为Idea中没有下载lombok的插件!!! 下载方法 阅读全文
posted @ 2019-03-16 17:45 给你一个公主抱 阅读(6715) 评论(0) 推荐(1)
摘要:idea工具maven projects里面有9种生命周期,生命周期是包含在一个项目构建中的一系列有序的阶段。 一、最常用的两种打包方法: 1.clean,package(如果报错,很可能就是jar依赖的问题) 2.clean,install 二、9种生命周期: 1.clean,清理,在进行真正的构 阅读全文
posted @ 2019-03-13 23:01 给你一个公主抱 阅读(9744) 评论(0) 推荐(2)
摘要:这是因为格式化namenode之后,namenode节点中VERSION的ClusterID会改变!!! 解决办法: 1.打开namenode节点的hdfs-site.xml文件,查看你的namenode的元数据存储位置和datanode数据存储位置; 2.然后到对应的的目录下找到VERSION文件 阅读全文
posted @ 2019-03-12 11:52 给你一个公主抱 阅读(446) 评论(0) 推荐(0)
摘要:一、HBase表的基本结构 1.概述: 平时常见的MySQL、Oracle数据库都是传统型关系数据库,它们都是按行查询、按行存储;而HBase为非关系型数据库,它是按列存储的的。 在HBase插入数据时,先输入数据的格式为rowkey => info => column => value rowke 阅读全文
posted @ 2019-03-10 07:24 给你一个公主抱 阅读(14914) 评论(0) 推荐(0)
摘要:一、HBase读数据流程 1.Client访问Zookeeper,从ZK获取-ROOT-表的位置信息,通过访问-ROOT-表获取.META.表的位置,然后确定数据所在的HRegion位置; 2.Client访问HRegion所在的HRegionServer,通过HRegionServer获取需要查找 阅读全文
posted @ 2019-03-07 07:45 给你一个公主抱 阅读(3213) 评论(0) 推荐(1)
摘要:一、HBase概述 1.HBase是Hadoop数据库,是一个分布式、可扩展的大数据存储。 HBase是用于对大数据进行随机、实时读写访问的非关系型数据库,它的目标托管非常大的表——数十亿行N百万列。 正如Bigtable利用Google文件系统提供的分布式数据存储一样,HBase在Hadoop的H 阅读全文
posted @ 2019-03-07 04:21 给你一个公主抱 阅读(520) 评论(0) 推荐(0)
摘要:1.查看文件夹大小 =>ls -lht 路径 ls -lht /opt/jars 2.查看文件大小 =>du -sh / du -sh /opt/jars/calllog.csv 3.编辑文件时显示行数 => shift+: 输入 set nu 阅读全文
posted @ 2019-03-02 02:07 给你一个公主抱 阅读(205) 评论(0) 推荐(0)
摘要:一、DecimalFormat 1.概述 public class DecimalFormat extends NumberFormat DecimalFormat是格式为十进制数的NumberFormat的具体子类。 它具有各种功能,旨在使任何地区的数字解析和格式化。 2.构造方法 Decimal 阅读全文
posted @ 2019-03-01 00:48 给你一个公主抱 阅读(285) 评论(0) 推荐(0)