DB乐之者 - 博客园

2020年4月20日

摘要：准备工作创建测试表 CREATE TABLE my_table ( rowkey VARCHAR NOT NULL PRIMARY KEY, v1 VARCHAR, v2 VARCHAR, v3 VARCHAR ); UPSERT INTO my_table values('1','value1' 阅读全文

posted @ 2020-04-20 10:34 DB乐之者阅读(892) 评论(0) 推荐(0)

2020年3月26日

spark shuffle参数调优

摘要： spark shuffle参数调优 spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才阅读全文

posted @ 2020-03-26 23:09 DB乐之者阅读(998) 评论(0) 推荐(0)

hbase 面试问题汇总

摘要：一、Hbase的六大特点：（1）、表大：一个表可以有数亿行，上百万列。（2）、无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态增加，同一个表中的不同行的可以有截然不同的列。（3）、面向列：HBase是面向列的的存储和权限控制，列族独立索引。（4）、稀疏：空（null）列并不占阅读全文

posted @ 2020-03-26 19:53 DB乐之者阅读(2751) 评论(0) 推荐(0)

hbase数据原理及基本架构

摘要： hbase是一个构建在hdfs上的分布式列存储系统； hbase是apache hadoop生态系统中的重要一员，主要用于海量结构化数据存储从逻辑上讲，hbase将数据按照表、行和列进行存储 hbase表特点： 1.大：一个表可以有数十亿行，上百万列； 2.无模式：每行都有一个可排序的主键和任意多阅读全文

posted @ 2020-03-26 19:47 DB乐之者阅读(405) 评论(0) 推荐(0)

sqlserver 自动初始化从节点数据

摘要：背景在 SQL Server 2012 和 2014 中，初始化 SQL Server Always On 可用性组中的次要副本的唯一方法是使用备份、复制和还原。在一个高可用组里面添加一个数据库需要很多手动任务和一些必要条件。需要完成的这些工作中，有一些是有些困难的，比如: 我们需要从主副本中备阅读全文

posted @ 2020-03-26 19:07 DB乐之者阅读(587) 评论(1) 推荐(0)

2020年3月25日

hive sql 窗口函数

摘要： 1）窗口函数 Lag, Lead, First_value,Last_valueLag, Lead、这两个函数为常用的窗口函数,可以返回上下数据行的数据. LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值, 与LAG 阅读全文

posted @ 2020-03-25 17:20 DB乐之者阅读(1893) 评论(0) 推荐(0)

数据仓库建模

摘要：一、数据仓库建模的意义如果把数据看作图书馆里的书，我们希望看到它们在书架上分门别类地放置；如果把数据看作城市的建筑，我们希望城市规划布局合理；如果把数据看作电脑文件和文件夹，我们希望按照自己的习惯有很好的文件夹组织方式，而不是糟糕混乱的桌面，经常为找一个文件而不知所措。数据模型就是数据组织和存储阅读全文

posted @ 2020-03-25 17:16 DB乐之者阅读(470) 评论(0) 推荐(0)

2020年3月23日

Spark DataFrame简介(二)

摘要： Spark DataFrame基础操作创建SparkSession和SparkContext val spark = SparkSession.builder.master("local").getOrCreate() val sc = spark.sparkContext 从数组创建DataFr 阅读全文

posted @ 2020-03-23 17:22 DB乐之者阅读(492) 评论(0) 推荐(0)

2020年3月16日

Spark DataFrame简介（一）

摘要： 1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame（DF）如何克服这些限制，从如何创建DataFrame，到DF的各种特性，以及如何优化执行计划。最后还会介绍DF有哪些限制。 2. 什么是 Spark SQL DataFrame? 从Spark1.3.0版本开始，DF 阅读全文

posted @ 2020-03-16 12:05 DB乐之者阅读(4919) 评论(0) 推荐(0)

2020年3月11日

sparksql 概述

摘要：什么是Spark SQL？ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapRe 阅读全文

posted @ 2020-03-11 09:52 DB乐之者阅读(476) 评论(0) 推荐(0)

Stay hungery

公告