03 2019 档案

摘要:转自:http://blog.csdn.net/column/details/datastructureinjava 一、数据结构详解 (1)数据结构与算法概念解析 (2)数据结构之数组 (3)数据结构之栈 (4)数据结构之队列 (5)数据结构之链表 (6)数... 阅读全文
posted @ 2019-03-29 15:02 大数据技术与数仓 阅读(196) 评论(0) 推荐(0)
摘要:一、MYSQL索引的分类 索引用于快速查找具有特定列值的行。如果没有索引,MySQL必须从第一行开始,然后读取整个表以查找相关行。表越大,成本越高。如果表中有相关​​列的索引,MySQL可以快速确定要在数据文件中间寻找的位置,而无需查看所有数据。这比按顺序读取... 阅读全文
posted @ 2019-03-28 17:53 大数据技术与数仓 阅读(389) 评论(0) 推荐(0)
摘要:1.问题描述 一张成绩表class有如下字段,班级ID,英语成绩,数学成绩,语文成绩 id english math chinese classid ... 阅读全文
posted @ 2019-03-21 12:24 大数据技术与数仓 阅读(925) 评论(0) 推荐(0)
摘要:1.数据准备 hadoop hadoop hadoop spark spark spark hive impala 2.创建表 create table wordcount(rowdata string); 3.加载数据 load data local inp... 阅读全文
posted @ 2019-03-21 10:08 大数据技术与数仓 阅读(412) 评论(0) 推荐(0)
摘要:一、简介 当使用静态分区时,在向分区表中插入数据时,我们需要指定具体分区列的值。此外,hive还支持动态提供分区值(即在插入数据时,不指定具体的分区列值,而是仅仅指定分区字段)。动态分区在默认情况下是禁用的(在hive2.3.4版本中默认是开启的,在hive-... 阅读全文
posted @ 2019-03-16 22:04 大数据技术与数仓 阅读(417) 评论(0) 推荐(0)
摘要:目录 一、简介 二、使用Thrift JDBC/ODBC server 2.1概述 2.2使用案例 三、使用Spark SQL cli 一、简介 Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在此模式下,终端用户或应... 阅读全文
posted @ 2019-03-15 14:15 大数据技术与数仓 阅读(261) 评论(0) 推荐(0)
摘要:Spark2.X的内存管理模型如下图所示: Spark中的内存使用大致包括两种类型:执行和存储。执行内存是指用于用于shuffle、join、排序、聚合等计算的内存,而存储内存是指用于在集群中持久化和广播内部数据的内存。在Spark中,执行内存和存储内存共享... 阅读全文
posted @ 2019-03-08 17:31 大数据技术与数仓 阅读(193) 评论(0) 推荐(0)
摘要:转自:https://www.iteblog.com/archives/1672.html 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计... 阅读全文
posted @ 2019-03-08 15:48 大数据技术与数仓 阅读(138) 评论(0) 推荐(0)
摘要:1.系统资源使用 核心调优参数如下: (1)num-executors :该参数一定会被设置, Yarn 会按照Driver 的申请最终为当前的Application 生产指定个数的Executors。实际生产环境下分配80 个左右的Exe... 阅读全文
posted @ 2019-03-08 12:12 大数据技术与数仓 阅读(191) 评论(0) 推荐(0)
摘要:Impala性能调优最佳实践概览 1选择合适的文件格式 通常对于大数据集而言(每个分区或者表的大小为几个G或者更大),推荐使用Parquet文件格式。因为它按列存储,单词IO可以请求更多的数据,另外它支持更好的压缩算法对二进制文件进行压缩。 对于小表而言(每个... 阅读全文
posted @ 2019-03-04 17:18 大数据技术与数仓 阅读(692) 评论(0) 推荐(0)
摘要:分析函数又称为开窗函数,是一种特殊的内置函数。分析函数不会仅限于对每个group by的分组产生一个结果,它操作的是一个窗口(window),输入的行是排序和分组的,可以通过over()语句使用灵活的条件。impala的分析函数是从impala2.0.0开始添... 阅读全文
posted @ 2019-03-03 23:19 大数据技术与数仓 阅读(1190) 评论(0) 推荐(0)
摘要:目录 一、概述 1.1简介 1.2优势 1.3主要特点 二、Impala架构 2.1Impala Daemon 2.2Impala Statestore 2.3Impala Catalog Service 三、Impala查询的执行过程 3.1Impala查询... 阅读全文
posted @ 2019-03-03 18:10 大数据技术与数仓 阅读(742) 评论(0) 推荐(0)
摘要:当数据集比较大时,可能需要通过采集一部分数据集进行分析,称之为采样。在HQL中支持三种方式的采样:随机采样(random sampling)、分桶表采样(bucket table sampling)以及块采样(block sampling)。 1.随机采样 随... 阅读全文
posted @ 2019-03-02 14:37 大数据技术与数仓 阅读(1067) 评论(0) 推荐(0)
摘要:1.基本语法 Function (arg1,..., argn) OVER ([PARTITION BY ] [ORDER BY ][]) Function (arg1,..., argn) 可以是下面的四类函数: (1)Aggregat... 阅读全文
posted @ 2019-03-01 23:00 大数据技术与数仓 阅读(144) 评论(0) 推荐(0)