随笔分类 - Hadoop
Hadoop。
摘要:本文收录于我的Git仓库,我的Git地址 大数据技术派 大数据技术派,分享优质文章,技术资料,包括但不限于主流的大数据技术:Hadoop、Kafka、Hbase、Flink、Spark等。 资料 整理的一些资料,后面也会一直更新,一直维护,Git也会一直维护更新。 大数据技术 干货,主流大数据技术总
阅读全文
摘要:关注公众号:大数据技术派,回复“资料”,领取1000G资料。 本文首发于我的个人博客:大数据学习路线 前言 要从事计算机行业的工作,不管是什么工作,开发、测试、还是算法等,都是要有一门自己比较熟练的编程语言,编程语言可以是C语言、Java、C等,只要是和你后续工作所相关的就可以(后续用到其他语言的话
阅读全文
摘要:1、请简述Zookeeper的选举机制 假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。 假设这些服务器依序启动,来看看会发生什么。 (1)服务器1启动,此时只有它一台服务器启动了,它发出去的报没有任何响
阅读全文
摘要:1、简述hadoop1与hadoop2 的架构异同 1)加入了yarn解决了资源调度的问题。 2)加入了对zookeeper的支持实现比较可靠的高可用。 2、为什么会产生 yarn,它解决了什么问题,有什么优势? 1)Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。 2)Yarn上
阅读全文
摘要:1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1)序列化和反序列化 (1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 (2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 (3)
阅读全文
摘要:1、 HDFS 中的 block 默认保存几份? 默认保存3份 2、HDFS 默认 BlockSize 是多大? 默认64MB 3、负责HDFS数据存储的是哪一部分? DataNode负责数据存储 4、SecondaryNameNode的目的是什么? 他的目的使帮助NameNode合并编辑日志,减少
阅读全文
摘要:1、集群的最主要瓶颈 磁盘IO 2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 2)Flume:一个高可用的,高可靠的,
阅读全文
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本
阅读全文
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi
阅读全文

浙公网安备 33010602011771号