DataBases - 博客园

Spark内存管理模型

2020-05-24 23:07 by DataBases, 696 阅读, 0 推荐, 收藏,

摘要：一般来说，一个spark程序包含两种 JVM 程序，Dirver 和 Executor。Dirver 是主要的控制程序，负责创建 context，提交任务，那 job 转换为 task 并且协调 task 在 executor 中的执行。Executor 主要是负责执行计算任务并且将结果返回给 Dr 阅读全文

0 Comment

hadoop Shuffle Spark Shuffle

2020-05-24 22:15 by DataBases, 346 阅读, 0 推荐, 收藏,

摘要：hadoop Shuffle Spark Shuffle 阅读全文

0 Comment

大数据量情况下数据的导入导出工具

2020-04-29 15:29 by DataBases, 541 阅读, 0 推荐, 收藏,

摘要：IBM DB2 DB2 export Oracle SQLUDR2 Informix Unload SQL Server BCP MySQL mysqldump Sysbase BCP 阅读全文

0 Comment

数据倾斜及小文件合并

2020-04-23 10:55 by DataBases, 643 阅读, 0 推荐, 收藏,

摘要：数据倾斜常见表现：在 hive 中 map 阶段早就跑完了， reduce 阶段一直卡在 99% 。很大情况是发生了数据倾斜，整个任务在等某个节点跑完。在spark 中大部分的 task 执行的特别快，剩下的一些 task 执行的特别慢，要几分钟或几十分钟才执行完一个 taskHive中大表 joi 阅读全文

0 Comment

Hbase相关总结

2020-04-19 21:07 by DataBases, 305 阅读, 0 推荐, 收藏,

摘要：HBase 架构组件物理上，Hbase 是由三种类型的 server 组成的的主从式（master-slave）架构： Region Server 负责处理数据的读写请求，客户端请求数据时直接和 Region Server 交互。HBase Master 负责 Region 的分配，DDL（创建，阅读全文

0 Comment

数据仓库建模工具及ETL工具

2020-04-19 16:18 by DataBases, 6075 阅读, 0 推荐, 收藏,

摘要：建模工具，一般企业以Erwin、powerdesigner、visio，甚至Excel等为主。 PowerDesigner 是Sybase的企业建模和设计解决方案，是能进行数据库设计的强大的软件，是一款开发人员常用的数据库建模工具。使用它可以分别从概念数据模型(Conceptual Data Mod 阅读全文

0 Comment

数据仓库逻辑分层

2020-04-19 16:01 by DataBases, 3440 阅读, 0 推荐, 收藏,

摘要：OLTP 与 OLAPOLTP 联机事务处理OLTP是传统关系型数据库的主要应用，主要用于日常事物、交易系统的处理1、数据量存储相对来说不大2、实时性要求高，需要支持事物3、数据一般存储在关系型数据库 (oracle 或 mysql 、postgresql中)OLAP 联机分析处理OLAP是数据仓库阅读全文

0 Comment

大数据数据倾斜

2020-04-19 12:27 by DataBases, 823 阅读, 0 推荐, 收藏,

摘要：什么是数据倾斜我们在用hive取数的时候，有的时候只是跑一个简单的join语句，但是却跑了很长的时间，有的时候我们会觉得是集群资源不够导致的，但是很大情况下就是出现了"数据倾斜"的情况。数据倾斜一般有两种情况：变量值很少：单个变量值的占比极大，常见的字段如性别、学历、年龄等。变量值很多：阅读全文

0 Comment

hive中的小文件问题

2020-04-19 12:10 by DataBases, 1632 阅读, 0 推荐, 收藏,

摘要：小文件问题原因： ① 众所周知，小文件在HDFS中存储本身就会占用过多的内存空间，那么对于MR查询过程中过多的小文件又会造成启动过多的Mapper Task, 每个Mapper都是一个后台线程，会占用JVM的空间。 ② 在Hive中，动态分区会造成在插入数据过程中，生成过多零碎的小文件。 ③ 不合理阅读全文

0 Comment

数据仓库建模

2020-04-16 15:57 by DataBases, 1923 阅读, 0 推荐, 收藏,

摘要：数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临，数据量暴增，阅读全文

0 Comment

About