2021 年 8月 7 日随笔档案 - weiweidetiandi

2021年8月7日

摘要： 1、mapjion 2、行列过滤 3、列式存储 4、采用分区技术 5、合理设置map个数 6、合理设置reduce个数 7、map端提前combiner 8、小文件产生：动态分区导致的 reduce端生成的数据源本身就有小文件解决：在Map执行前合并小文件，减少Map数：CombineHiv 阅读全文

posted @ 2021-08-07 17:15 weiweidetiandi 阅读(38) 评论(0) 推荐(0)

自定义UDF，UDTF

摘要： udt继承udf，一进一出，重写evaluate方法 udtf:继承GenericUDTF，一进多出，重写3个方法：initialize(自定义输出的列名和类型)，process（将结果返回forward(result)），close 为啥自定义：可以自己埋点打lag，出现问题的时候方便调试阅读全文

posted @ 2021-08-07 16:06 weiweidetiandi 阅读(62) 评论(0) 推荐(0)

hive中四个BY区别

摘要： order by:全局排序，只有一个reduce sort by:分区内排序 Distrbute By：相当于mr中的partition,进行分区，结合sort by使用。 Cluster By：当Distribute by和Sorts by字段相同时，可以使用Cluster by方式。Cluste 阅读全文

posted @ 2021-08-07 15:19 weiweidetiandi 阅读(594) 评论(0) 推荐(0)

hive内部表和外部表

摘要：内部表和外部表的区别是在删除的时候：内部表：删除元数据，原始数据外部表：元数据在公司中我们通常建立外部表，自己在使用的临时表可以用内部表阅读全文

posted @ 2021-08-07 15:16 weiweidetiandi 阅读(86) 评论(0) 推荐(0)

hive和数据库比较

摘要： 1、数据规模： Hive支持很大规模的数据计算；数据库可以支持的数据规模较小。 2、执行延迟： hive执行延迟高，数据库执行延迟低，但是这个是由条件的，即数据规模较小，当数据规模唱过数据库处理能力的时候，hive的并行计算的优势就显现出来了 3、是否更新数据：通常情况下，hive的数据我们是不建阅读全文

posted @ 2021-08-07 15:14 weiweidetiandi 阅读(357) 评论(0) 推荐(0)

hive架构

摘要： Hive存储海量结构化日志文件数据统计，是基于Hadoop的一个数据仓库工具，HQL本质是：mapreduce 阅读全文

posted @ 2021-08-07 15:08 weiweidetiandi 阅读(43) 评论(0) 推荐(0)

CAP法则

摘要： cap法则就是：分区容错性，高可用性，强一致性 zookeeper就是：高可用和强一致性阅读全文

posted @ 2021-08-07 15:04 weiweidetiandi 阅读(64) 评论(0) 推荐(0)

zookeeper选举机制

摘要：半数机制，安装奇数台阅读全文

posted @ 2021-08-07 15:02 weiweidetiandi 阅读(16) 评论(0) 推荐(0)

mr出现数据倾斜解决办法

摘要： 1、在map端提前进行conmbiner合并，减少数据传输量在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候，阅读全文

posted @ 2021-08-07 15:00 weiweidetiandi 阅读(619) 评论(0) 推荐(0)

hadhoop宕机

摘要： 1、宕机如果是mr导致的，我们应该调整任务的并行度，以及每个任务获取的最大资源 2、如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度阅读全文

posted @ 2021-08-07 14:04 weiweidetiandi 阅读(42) 评论(0) 推荐(0)

yum 调度器

摘要： FIFO：支持单独列，先进先出容量调度器：支持多队列，保证先进来的任务优先执行公平调度器：支持多队列，保证每个任务公平的享有队列资源阅读全文

posted @ 2021-08-07 14:01 weiweidetiandi 阅读(31) 评论(0) 推荐(0)

项目经验之基准测试

摘要：搭建完Hadoop集群后需要对HDFS读写性能和MR计算能力测试。测试jar包在hadoop的share文件夹下。阅读全文

posted @ 2021-08-07 14:01 weiweidetiandi 阅读(46) 评论(0) 推荐(0)

hadhoop yum工作机制

摘要：客户端请求resource manager 一个application resource manager 回去application提交路径以及id 客户端提交job所需要的资源资源提交完成，申请运行mrappmaster resource manager将客户端的请求形成一个一个task,由FI 阅读全文

posted @ 2021-08-07 13:57 weiweidetiandi 阅读(29) 评论(0) 推荐(0)

shuffle

摘要： 1、客户端在提交的时候会根据配置形成一个一个任务分配规划 2、客户端提交信息 3、yum会计算出maptask的个数 4、文件默认以textInputFormat进入map端 5、map端进行逻辑计算 6、向环形缓冲区写数据，一半写索引，一半写数据 7、在写的时候会进行分区和排序，排序规则为字典排序阅读全文

posted @ 2021-08-07 10:15 weiweidetiandi 阅读(159) 评论(0) 推荐(0)

hadhoop小文件处理

摘要： 1、采用har归档，将小文件归并为har文件 2、采用CombineTextInputFormat 3、开启jvm：没有小文件的时候不要开启，因为jvm会一直占据的task，知道任务结束才释放，浪费资源阅读全文

posted @ 2021-08-07 10:06 weiweidetiandi 阅读(73) 评论(0) 推荐(0)

hadhoop写流程

摘要：客户端请求nomanode上传数据 namenode应答可以上传客户端请求上传第一个block，请返回datanode namenode返回那些datanode可以上传数据客户端请求datanode建立block通道 datanode应答客户端上传packet 等到上传完毕，给namenode 阅读全文

posted @ 2021-08-07 10:02 weiweidetiandi 阅读(41) 评论(0) 推荐(0)

hadhoop读流程

摘要：客户端请求namenode下载文件 namenode返回目标文件的元数据客户端请求datanode读取数据 datanode传输数据阅读全文

posted @ 2021-08-07 09:58 weiweidetiandi 阅读(37) 评论(0) 推荐(0)

hadhoop搭建

摘要：搭建： 1、安装jdk 2、配置ssh免密 3、配置hadhoop配置文件 4、格式化namende 阅读全文

posted @ 2021-08-07 09:54 weiweidetiandi 阅读(72) 评论(0) 推荐(0)

hadhooop常用端口号

摘要： hadhoop常用端口号： 1、50070 访问hdfs端口号 2、8088 访问mr运行情况端口号 3、9000 客户端访问hadhoop端口号阅读全文

posted @ 2021-08-07 09:16 weiweidetiandi 阅读(71) 评论(0) 推荐(0)

weiweidetiandi

公告