摘要: 1,hive架构 1)client,客户端 2)Driver:驱动器 3)解析器,编译器,优化器,执行器 4)底层默认使用mr作为数据处理引擎 5)元数据,通常配置mysql来存储,这样支持多个客户端的访问 2,hive和传统数据库的比较 相同之处:都拥有类似的查询语言 不同之处: 1)数据存储位置 阅读全文
posted @ 2020-06-21 12:36 大数据码农 阅读(517) 评论(0) 推荐(0)
摘要: 1,kafka架构 1)producer:生产者,生产消息发送到broker。 2)consumer:消费者,从broker上读取消息。 3)topic:主题,相当于一个队列。 4)consumer group:消费者组。这是kafka用来实现对topic消息的广播和单播的手段。如果想把消息广播给每 阅读全文
posted @ 2020-06-18 10:43 大数据码农 阅读(437) 评论(0) 推荐(0)
摘要: 1,kafka包含3个组件:source、channel、sink source:1.7以上的版本提供了 TaildirSource,支持断点续传,1.6前的版本,需要自己开发程序,存储flume读取的文件位置,以便后续接着读取数据。 channel: FileChannel:数据存储在磁盘上,稳定 阅读全文
posted @ 2020-06-17 10:20 大数据码农 阅读(422) 评论(0) 推荐(1)
摘要: 1,如果预聚合不影响最终结果,可以使用conbine,提前对数据聚合,减少数据量。 2,使用2次mr的方式。第一次mr,在map输出是给key加上一个前缀,则可以把相同的key分配到不同的reduce聚合,可以实现同一个key数据量大的问题;第二次mr对把第一次mr输出的数据的key去掉前缀,在聚合 阅读全文
posted @ 2020-06-16 11:50 大数据码农 阅读(705) 评论(0) 推荐(0)
摘要: 1,如果是mr程序导致的。需要考虑控制集群运行任务的并行度;控制单个任务可以申请的最大内存。 2,如果是namenode宕机了,需要考虑控制写入的速度。可以使用kafka来做中间缓存,kafka存储大小,控制kafka写入hdfs的速度。 阅读全文
posted @ 2020-06-16 11:41 大数据码农 阅读(1306) 评论(0) 推荐(0)
摘要: 1,在hdfs-site.xml 中配置多目录,提前配置好,以免以后要配置时,需要重启集群。 2,namenode 有一个工作线程池,用来处理不同的datanode的并发心跳和客户端访问并发请求。配置dfs.namenode.handler.count=20 * log2(Cluster Size) 阅读全文
posted @ 2020-06-16 11:34 大数据码农 阅读(405) 评论(0) 推荐(0)
摘要: yarn 一共有3个类型的调度器:FIFO调度器、容量调度器、公平调度器。 1,FIFO调度器。先进先出,队列中同一时间只有一个任务在运行。该任务独占整个集群的资源。 2,容量调度器。多队列,每个队列内部先进先出,同一个队列同时间只有一个任务在运行,任务的并行度为队列的个数。 3,公平调度器。同个队 阅读全文
posted @ 2020-06-16 11:25 大数据码农 阅读(1869) 评论(0) 推荐(0)
摘要: 1,客户端想RM申请一个application。 2,RM向客户端返回一个资源提交路径和一个application_id。 3,客户端提交资源,资源包含job.xml和job.split和jar包。 4,资源提交完成后,申请运行AppMaster。 5,RM将客户端请求,生成一个task,放入任务队 阅读全文
posted @ 2020-06-16 11:07 大数据码农 阅读(1081) 评论(0) 推荐(0)
摘要: 执行流程: 1,程序在调用submit()方法之前,会生成一份任务分配规划。 2,提交数据到RM,包含一份job.split 文件和job.xml文件和jar包。 3,RM根据提交的资源文件,分配任务,启动相应的mapTask任务。 4,mapTask任务根据程序设置的文件读取类去读文件数据,比如T 阅读全文
posted @ 2020-06-16 10:18 大数据码农 阅读(307) 评论(0) 推荐(0)
摘要: 1,客户端向nn请求上传文件,nn检查该文件和父目录是否存在。 2,nn返回响应给客户端,是否可以上传文件。 3,客户端向nn请求上传第一个块的dn的信息。 4,nn根据副本原则,返回给客户端块上传的dn节点信息。 5,客户端和dn1建立连接,请求上传数据,dn1接着和dn2建立连接,dn2和dn3 阅读全文
posted @ 2020-06-14 16:08 大数据码农 阅读(243) 评论(0) 推荐(0)