上一页 1 2 3 4 5 6 7 8 9 10 ··· 20 下一页
摘要: spark shuffle参数调优 spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才 阅读全文
posted @ 2020-03-26 23:09 DB乐之者 阅读(906) 评论(0) 推荐(0) 编辑
摘要: 一、Hbase的六大特点: (1)、表大:一个表可以有数亿行,上百万列。 (2)、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态增加,同一个表中的不同行的可以有截然不同的列。 (3)、面向列:HBase是面向列的的存储和权限控制,列族独立索引。 (4)、稀疏:空(null)列并不占 阅读全文
posted @ 2020-03-26 19:53 DB乐之者 阅读(2615) 评论(0) 推荐(0) 编辑
摘要: hbase是一个构建在hdfs上的分布式列存储系统; hbase是apache hadoop生态系统中的重要一员,主要用于海量结构化数据存储 从逻辑上讲,hbase将数据按照表、行和列进行存储 hbase表特点: 1.大:一个表可以有数十亿行,上百万列; 2.无模式:每行都有一个可排序的主键和任意多 阅读全文
posted @ 2020-03-26 19:47 DB乐之者 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 背景 在 SQL Server 2012 和 2014 中,初始化 SQL Server Always On 可用性组中的次要副本的唯一方法是使用备份、复制和还原。 在一个高可用组里面添加一个数据库需要很多手动任务和一些必要条件。需要完成的这些工作中,有一些是有些困难的,比如: 我们需要从主副本中备 阅读全文
posted @ 2020-03-26 19:07 DB乐之者 阅读(511) 评论(1) 推荐(0) 编辑
摘要: 1) 窗口函数 Lag, Lead, First_value,Last_valueLag, Lead、这两个函数为常用的窗口函数,可以返回上下数据行的数据. LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值, 与LAG 阅读全文
posted @ 2020-03-25 17:20 DB乐之者 阅读(1749) 评论(0) 推荐(0) 编辑
摘要: 一、数据仓库建模的意义 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。 数据模型就是数据组织和存储 阅读全文
posted @ 2020-03-25 17:16 DB乐之者 阅读(429) 评论(0) 推荐(0) 编辑
摘要: Spark DataFrame基础操作 创建SparkSession和SparkContext val spark = SparkSession.builder.master("local").getOrCreate() val sc = spark.sparkContext 从数组创建DataFr 阅读全文
posted @ 2020-03-23 17:22 DB乐之者 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。 2. 什么是 Spark SQL DataFrame? 从Spark1.3.0版本开始,DF 阅读全文
posted @ 2020-03-16 12:05 DB乐之者 阅读(4775) 评论(0) 推荐(0) 编辑
摘要: 什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe 阅读全文
posted @ 2020-03-11 09:52 DB乐之者 阅读(403) 评论(0) 推荐(0) 编辑
摘要: Data Vault 简介 Data Vault 2.0 不仅是建模技术,也提供了一整套数据仓库项目的方法论。它能提供一套非常可行的方案来满足数据仓库项目中对于历史轨迹和审核两个方面的需求。 多年来,商业智能(BI)项目一直并将继续在瀑布模型下运行。它是由每个阶段的长时间延伸的序列定义的,该序列需要 阅读全文
posted @ 2020-03-09 16:07 DB乐之者 阅读(4920) 评论(1) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 20 下一页