摘要:一般来说,一个spark程序包含两种 JVM 程序,Dirver 和 Executor。Dirver 是主要的控制程序,负责创建 context,提交任务,那 job 转换为 task 并且协调 task 在 executor 中的执行。Executor 主要是负责执行计算任务并且将结果返回给 Dr 阅读全文
hadoop Shuffle Spark Shuffle
2020-05-24 22:15 by DataBases, 345 阅读, 0 推荐, 收藏,
摘要:hadoop Shuffle Spark Shuffle 阅读全文
大数据量情况下数据的导入导出工具
2020-04-29 15:29 by DataBases, 541 阅读, 0 推荐, 收藏,
摘要:IBM DB2 DB2 export Oracle SQLUDR2 Informix Unload SQL Server BCP MySQL mysqldump Sysbase BCP 阅读全文
数据倾斜及小文件合并
2020-04-23 10:55 by DataBases, 642 阅读, 0 推荐, 收藏,
摘要:数据倾斜常见表现:在 hive 中 map 阶段早就跑完了, reduce 阶段一直卡在 99% 。很大情况是发生了数据倾斜,整个任务在等某个节点跑完。在spark 中大部分的 task 执行的特别快,剩下的一些 task 执行的特别慢,要几分钟或几十分钟才执行完一个 taskHive中大表 joi 阅读全文
Hbase相关总结
2020-04-19 21:07 by DataBases, 302 阅读, 0 推荐, 收藏,
摘要:HBase 架构组件 物理上,Hbase 是由三种类型的 server 组成的的主从式(master-slave)架构: Region Server 负责处理数据的读写请求,客户端请求数据时直接和 Region Server 交互。HBase Master 负责 Region 的分配,DDL(创建, 阅读全文
数据仓库建模工具及ETL工具
2020-04-19 16:18 by DataBases, 6072 阅读, 0 推荐, 收藏,
摘要:建模工具,一般企业以Erwin、powerdesigner、visio,甚至Excel等为主。 PowerDesigner 是Sybase的企业建模和设计解决方案,是能进行数据库设计的强大的软件,是一款开发人员常用的数据库建模工具。使用它可以分别从概念数据模型(Conceptual Data Mod 阅读全文
数据仓库逻辑分层
2020-04-19 16:01 by DataBases, 3429 阅读, 0 推荐, 收藏,
摘要:OLTP 与 OLAPOLTP 联机事务处理OLTP是传统关系型数据库的主要应用,主要用于日常事物、交易系统的处理1、数据量存储相对来说不大2、实时性要求高,需要支持事物3、数据一般存储在关系型数据库 (oracle 或 mysql 、postgresql中)OLAP 联机分析处理OLAP是数据仓库 阅读全文
大数据数据倾斜
2020-04-19 12:27 by DataBases, 822 阅读, 0 推荐, 收藏,
摘要:什么是数据倾斜 我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾斜"的情况。 数据倾斜一般有两种情况: 变量值很少: 单个变量值的占比极大,常见的字段如性别、学历、年龄等。 变量值很多: 阅读全文
hive中的小文件问题
2020-04-19 12:10 by DataBases, 1625 阅读, 0 推荐, 收藏,
摘要:小文件问题原因: ① 众所周知,小文件在HDFS中存储本身就会占用过多的内存空间,那么对于MR查询过程中过多的小文件又会造成启动过多的Mapper Task, 每个Mapper都是一个后台线程,会占用JVM的空间。 ② 在Hive中,动态分区会造成在插入数据过程中,生成过多零碎的小文件。 ③ 不合理 阅读全文
数据仓库建模
2020-04-16 15:57 by DataBases, 1920 阅读, 0 推荐, 收藏,
摘要:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增, 阅读全文
浙公网安备 33010602011771号