随笔分类 -  hadoop

摘要:当向HDFS上写文件时,可以通过设置dfs.blocksize配置项来设置文件的block size,这导致HDFS上不同文件的block size是不同的。有时候我们需要知道HDFS上某个文件的block size,比如想知道该该文件作为job的输入会创建几个map等。 Hadoop FS She 阅读全文
posted @ 2019-10-14 16:17 wqbin 阅读(800) 评论(0) 推荐(0)
摘要:1.在HADOOP扮演的角色 JournalNode是在MR2也就是Yarn中新加的,journalNode的作用是存放EditLog的, 在MR1中editlog是和fsimage存放在一起的然后SecondNamenode做定期合并,Yarn在这上面就不用SecondNamanode了. Act 阅读全文
posted @ 2019-10-08 16:05 wqbin 阅读(14470) 评论(0) 推荐(2)
摘要:1 阅读全文
posted @ 2019-07-24 12:16 wqbin 阅读(458) 评论(0) 推荐(0)
摘要:1 阅读全文
posted @ 2019-07-24 10:25 wqbin 阅读(248) 评论(0) 推荐(0)
摘要:avro官网 1、Avro历史 Avro是Hadoop的一个数据序列化系统,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)开发,设计用于支持大批量数据交换的应用。 它的主要特点有: 支持二进制序列化方式,可以便捷,快速地处理大量数据; 动态语言友好,Av 阅读全文
posted @ 2019-07-22 20:27 wqbin 阅读(34358) 评论(0) 推荐(4)
摘要:1.序列化 所谓的序列化,就是将结构化对象转化为字节流,以便在网络上传输或是写道磁盘进行永久存储。 反序列化,就是将字节流转化为结构化对象。 序列化在分布式数据处理的两大领域经常出现:进程间通信和永久存储。 在Hadoop中,系统中多个节点上进程间的通信是通过“远程过程调用”(remote proc 阅读全文
posted @ 2019-07-21 11:43 wqbin 阅读(531) 评论(0) 推荐(0)
摘要:1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方 阅读全文
posted @ 2019-06-14 14:30 wqbin 阅读(552) 评论(0) 推荐(0)
摘要:hive 的 join 类型有好几种,其实都是把 MR 中的几种方式都封装实现了,其中 join on、left semi join 算是里边具有代表性,且使用频率较高的 join 方式。 1、联系 他们都是 hive join 方式的一种,join on 属于 common join(shuffl 阅读全文
posted @ 2019-06-14 14:12 wqbin 阅读(3672) 评论(0) 推荐(0)
摘要:hdfs haadmin -transitionToActive --forcemanual nn1 将nn1强制转换为Active hdfs haadmin -transitionToStandby --forcemanual nn2 将nn2强制转换为standby 阅读全文
posted @ 2019-06-04 22:07 wqbin 阅读(1565) 评论(0) 推荐(0)
摘要:Windows|Eclipse 运行HDFS程序之后,报:org.apache.Hadoop.security.AccessControlException: Permission denied: user=WQbin, access=WRITE, inode="":hadoop:supergrou 阅读全文
posted @ 2019-06-04 21:58 wqbin 阅读(1442) 评论(0) 推荐(0)