随笔分类 - 大数据
摘要:Spark(scala)是一个用来实现快速而通用的集群计算的平台。 RDD (resilient distributed dataset) 弹性分布式数据集 速度快 提供的接口非常丰富 spark: spark core 包含任务调度、内存管理、错误恢复、与存储系统交互等模块 spark sql 操
阅读全文
posted @ 2020-08-02 09:22
慕沁
摘要:Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational database
阅读全文
posted @ 2020-07-21 23:49
慕沁
摘要:1、表的设计 1、Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regio
阅读全文
posted @ 2020-07-10 19:45
慕沁
摘要:hive 数据仓库,不能做到实时读写gfs->hdfsmapreduce->mapreducebigtable->hbase Use Apache HBase™ when you need random, realtime read/write access to your Big Data. Th
阅读全文
posted @ 2020-07-08 14:11
慕沁
摘要:- hdfs作为存储层- MapReduce作为计算层sql->mr --查看执行计划,添加extended关键字可以查看更加详细的执行计划 explain [extended] query 1、抽象语法树2、查询块3、逻辑查询计划4、物理查询计划5、优化执行 执行模式 1、本地模式(开发,速度会有
阅读全文
posted @ 2020-07-05 11:41
慕沁
摘要:启动HS2时, 10000端口 可能会等会才会开启;可能要等10+秒 /tmp/username/hive.log查看日志 HiveServer2 (HS2) is a server interface that enables remote clients to execute queries a
阅读全文
posted @ 2020-07-02 21:37
慕沁
摘要:数据库:支撑业务数据的访问 数据仓库:本质也是MapReduce,只是将MapReduce封装为了SQL语句 Hive的元数据 存储在关系型数据库中 The Apache Hive ™ data warehouse software facilitates reading, writing, and
阅读全文
posted @ 2020-07-01 20:06
慕沁
摘要:yarn是hadoop2.x中出现的,为了解决多个集群中 资源争抢的问题 不同的计算框架会运行在一个环境中,各自之间不能争抢资源,所以所有倾向于将对资源的管理切出交给 一个人去管,一个人对环境资源的任志是一致的 > 资源管理独立出来yarn(RM、NM) 主从,支持HA1.x >2.x: JT,TT
阅读全文
posted @ 2020-06-26 13:58
慕沁
摘要:MapReduce 计算框架计算向数据偏移1、获取文件的location、offset2、根据设定的split大小 ,构造新的offset3、拿着新的offset去定位location 一个map对应一个split4、然后将切片清单 发送到ResourceManager map 1、split不同于
阅读全文
posted @ 2020-06-26 12:53
慕沁
摘要:在第一篇的基础上,要解决的问题 1、NN单点故障 2、内存压力过大 解决方案: 1、多个NN将数据分片,NN管理不同路径分支的数据 1 先启动JN 2 hadoop-daemon.sh start journalnode 3 选择一个NN做格式化, 这样JN中的数据也可以格式化 <只有第一次搭建做,
阅读全文
posted @ 2020-06-25 20:13
慕沁
摘要:存储模型 以下 用户没有感知 1 文件线性按字节切割成块;具有id和offset 2 文件与文件的大小可以不一样 3 一个文件出最后一个block,其他block大小一致 4 blook的大小依据硬件IO特性调整 5 block被分割存放在集群中的节点,具有location 6 block具有副本,
阅读全文
posted @ 2020-06-25 15:17
慕沁
摘要:谷歌三驾马车 1、GFS 开源实现HDFS、2、MapReduce 开源实现MapReduce 统称Hadoop3、Bigtable 开源实现为 HBase spark-SQL前身shark 以前spark依托于hive Hadoop2 负责批量数据抽取的 Sqoop,负责流式数据传输的 Flume
阅读全文
posted @ 2020-05-14 09:47
慕沁