大数据 - 随笔分类 - 慕沁

13、spark

摘要：Spark（scala）是一个用来实现快速而通用的集群计算的平台。 RDD (resilient distributed dataset) 弹性分布式数据集速度快提供的接口非常丰富 spark: spark core 包含任务调度、内存管理、错误恢复、与存储系统交互等模块 spark sql 操阅读全文

posted @ 2020-08-02 09:22 慕沁

12、sqoop

摘要：Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational database 阅读全文

posted @ 2020-07-21 23:49 慕沁

10、LSM

摘要：Log Struct Merge Tree 阅读全文

posted @ 2020-07-10 22:33 慕沁

9、HBase优化

摘要：1、表的设计 1、Pre-Creating Regions 默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regio 阅读全文

posted @ 2020-07-10 19:45 慕沁

8、Hbase

摘要：hive 数据仓库，不能做到实时读写gfs->hdfsmapreduce->mapreducebigtable->hbase Use Apache HBase™ when you need random, realtime read/write access to your Big Data. Th 阅读全文

posted @ 2020-07-08 14:11 慕沁

7、Hive 优化

摘要：- hdfs作为存储层- MapReduce作为计算层sql->mr --查看执行计划，添加extended关键字可以查看更加详细的执行计划 explain [extended] query 1、抽象语法树2、查询块3、逻辑查询计划4、物理查询计划5、优化执行执行模式 1、本地模式（开发,速度会有阅读全文

posted @ 2020-07-05 11:41 慕沁

6、HiveServer2

摘要：启动HS2时， 10000端口可能会等会才会开启；可能要等10+秒 /tmp/username/hive.log查看日志 HiveServer2 (HS2) is a server interface that enables remote clients to execute queries a 阅读全文

posted @ 2020-07-02 21:37 慕沁

5、Hive

摘要：数据库：支撑业务数据的访问数据仓库：本质也是MapReduce，只是将MapReduce封装为了SQL语句 Hive的元数据存储在关系型数据库中 The Apache Hive ™ data warehouse software facilitates reading, writing, and 阅读全文

posted @ 2020-07-01 20:06 慕沁

4、Hadoop.yarn

摘要：yarn是hadoop2.x中出现的，为了解决多个集群中资源争抢的问题不同的计算框架会运行在一个环境中，各自之间不能争抢资源，所以所有倾向于将对资源的管理切出交给一个人去管，一个人对环境资源的任志是一致的 > 资源管理独立出来yarn(RM、NM) 主从，支持HA1.x >2.x: JT,TT 阅读全文

posted @ 2020-06-26 13:58 慕沁

3、Hadoop.MapReduce

摘要：MapReduce 计算框架计算向数据偏移1、获取文件的location、offset2、根据设定的split大小，构造新的offset3、拿着新的offset去定位location 一个map对应一个split4、然后将切片清单发送到ResourceManager map 1、split不同于阅读全文

posted @ 2020-06-26 12:53 慕沁

2、Hadoop.hdfs集群

摘要：在第一篇的基础上，要解决的问题 1、NN单点故障 2、内存压力过大解决方案： 1、多个NN将数据分片，NN管理不同路径分支的数据 1 先启动JN 2 hadoop-daemon.sh start journalnode 3 选择一个NN做格式化, 这样JN中的数据也可以格式化 <只有第一次搭建做，阅读全文

posted @ 2020-06-25 20:13 慕沁

1、Hadoop.hdfs单点

摘要：存储模型以下用户没有感知 1 文件线性按字节切割成块；具有id和offset 2 文件与文件的大小可以不一样 3 一个文件出最后一个block，其他block大小一致 4 blook的大小依据硬件IO特性调整 5 block被分割存放在集群中的节点，具有location 6 block具有副本，阅读全文

posted @ 2020-06-25 15:17 慕沁

Hadoop|Spark

摘要：谷歌三驾马车 1、GFS 开源实现HDFS、2、MapReduce 开源实现MapReduce 统称Hadoop3、Bigtable 开源实现为 HBase spark-SQL前身shark 以前spark依托于hive Hadoop2 负责批量数据抽取的 Sqoop，负责流式数据传输的 Flume 阅读全文

posted @ 2020-05-14 09:47 慕沁

慕沁

随笔分类 - 大数据

公告