随笔分类 - 大数据
摘要:HiveSQL 原理 join join 分为 MapJoin、ReduceJoin 两种,其中 MapJoin 思想是将小表存内存,然后大表分片,与小表完成连接操作。 MapJoin Map 阶段分为两个操作: 将小表数据读入内存,生成分片文件后存储到分布式存储系统中; 每个 Mapper 从分布
阅读全文
摘要:注意点 全局排序 OrderBy SELECT <select_expression>, <select_expression>, ... FROM <table_name> ORDER BY <col_name> [ASC|DESC] [,col_name [ASC|DESC], ...] Hiv
阅读全文
摘要:窗口函数 窗口函数可以更加灵活地对一定范围内的数据进行操作和分析,它能够为每行数据划分一个窗口,然后对窗口范围内的数据进行计算,最后将计算结果返回给该行数据; 举个例子,区别于 GroupBy,GroupBy 对分组范围内的数据进行聚合统计,得到当前分组的一条结果;窗口函数对每一条数据处理,展开一个
阅读全文
摘要:Hive 分区表 https://blog.csdn.net/weixin_41122339/article/details/81584110 表在存储时,可以将数据根据分区键的列值存储在表目录的子目录中。这样将数据切分到不同目录存储后,可以加快对分区键字段的查询和过滤速度,通过在查询条件中指定过滤
阅读全文
摘要:Hive DDL 操作 操作前需要保证 hive 成功启动: # 启动 HiveServer2 hive --service hiveserver2 & # 启动 MetaStore hive --service metastore & # 进入 hive 命令行界面 beeline -u jdbc
阅读全文
摘要:SparkStreaming sparkStreaming 用于处理流式数据,其中输入数据源包括 Kafka、Flume、HDFS 等;结果输出目的地址包括 HDFS、数据库。 SparkCore 对应 RDD;SparkSQL 对应 DataFrame/DataSet;SparkStreaming
阅读全文
摘要:SparkSQL简介 为什么需要 SparkSQL? Spark 的 RDD有一定局限性,无法处理结构化数据(比如 json 格式等等); SparkSQL 提供了两种编程的抽象,DataFrame(关心数据结构不关心类型),DataSet(关心面向对象的数据); RDD、DataFrame、Dat
阅读全文
摘要:hive简介 为什么产生 hive? MapReduce 提供了通用的分布式开发能力,但是是一个通用的计算引擎,对于一些特殊的数据处理效率较低。比如常见的结构化数据用 SQL 处理,但是数据达到某个量级后单机数据库无法承受,势必要转向大数据平台,而大数据平台有自己单独的计算引擎,所以之前所有使用 S
阅读全文
摘要:任务执行流程 宏观执行流程 通过 bin/spark-submit -class [主类] --master [启动模式] --deploy-mode client WordCounter.jar ./input ./output 脚本启动任务; 启动 Driver,执行用户类的 main 方法,完
阅读全文
摘要:Transformation 转换算子 RDD 整体上分为 Value、双Value、Key-Value 三种类型。 Value 类型 Map算子 函数签名 def map[U:ClassTag](f:T=>U):RDD[U],它通过接受一个参数,并且遍历该 RDD 中每一个数据项,依次应用函数 f
阅读全文
摘要:运行案例程序 计算圆周率——Local Local 模式下,解压安装 spark 后,运行 example 包下的案例程序: bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples
阅读全文
摘要:Spark Spark 作为分布式计算框架,基于 MapReduce 框架开发,但是也有以下区别: Spark 基于 Scala 语言开发,MR 基于 Java 语言开发;Scala 是函数式编程语言,对于函数间相互调用效率更高;而 Java 是面向对象语言,函数间调用必须依赖于对象,效率低。 Ma
阅读全文
摘要:Scala Scala特点: 和 Java 无缝整合,满足各自语法基础上调用 Java 库; 类型推断,类似于 Golang,Scala 通过 val 声明常量,通过 var 声明变量。 支持并行和分布式; 高阶函数编程,可以理解为面向对象编程,但是函数可以作为对象并当作参数传入。 数据类型 Nul
阅读全文
摘要:Yarn Hadoop 1.x 中包括 HDFS、MapReduce,其中 MapReduce 既是计算框架又是资源管理框架,它的架构为主从架构。 JobTracker 作为主节点,接受客户端提交的作业 Job,然后为该 Job 在 TaskTracker 上分配资源,之后将 Job 拆分为 Tas
阅读全文
摘要:MapReduce 模型 MapReduce 核心思想是移动任务而非移动数据 MapReduce 是一种编程模型,对数据集执行 MAP 映射,然后对结果进行 Reduce 规约,适用于大规模数据集的并行计算。核心思想可以理解为分治法,数据固定不动,分派计算任务到不同计算节点计算。 模型介绍 MapR
阅读全文
摘要:生态架构 数据导入 离线方式处理的数据,需要通过 ETL 模块实现导入到大数据存储系统进行存储;其中 Sqoop 是常见的抽取结构化数据工具,而 Flume、LogStach 是用于抽取结构化、半结构化数据的工具。 数据存储 大数据的数据存储系统,最常见的包括分布式文件系统 HDFS;如果需要使用
阅读全文
摘要:HDFS HDFS全称Hadoop Distributed File System,Hadoop分布式文件系统。 HDFS 有以下缺点: 不适合低延迟的数据访问,因为数据存储到 HDFS 上,首先会切分为固定大小的数据块,然后对每块存储并进行多副本备份。读取数据时首先要从各个节点读取小数据块然后合并
阅读全文
摘要:Hadoop 不同版本的组成 MapReduce 模型 MapReduce 是一种编程模型,对数据集执行 MAP 映射,然后对结果进行 Reduce 规约,适用于大规模数据集的并行计算。核心思想可以理解为分治法,数据固定不动,分派计算任务到不同计算节点计算。 模型介绍 MapReduce 适用场景:
阅读全文

浙公网安备 33010602011771号