大数据 - 随笔分类 - Stitches

hive06_SQL优化

摘要：HiveSQL 原理 join join 分为 MapJoin、ReduceJoin 两种，其中 MapJoin 思想是将小表存内存，然后大表分片，与小表完成连接操作。 MapJoin Map 阶段分为两个操作：将小表数据读入内存，生成分片文件后存储到分布式存储系统中；每个 Mapper 从分布阅读全文

posted @ 2024-08-08 11:07 Stitches 阅读(156) 评论(0) 推荐(0)

hive04_DQL操作

摘要：注意点全局排序 OrderBy SELECT <select_expression>, <select_expression>, ... FROM <table_name> ORDER BY <col_name> [ASC|DESC] [,col_name [ASC|DESC], ...] Hiv 阅读全文

posted @ 2024-08-08 11:07 Stitches 阅读(74) 评论(0) 推荐(0)

hive05_窗口函数

摘要：窗口函数窗口函数可以更加灵活地对一定范围内的数据进行操作和分析，它能够为每行数据划分一个窗口，然后对窗口范围内的数据进行计算，最后将计算结果返回给该行数据；举个例子，区别于 GroupBy，GroupBy 对分组范围内的数据进行聚合统计，得到当前分组的一条结果；窗口函数对每一条数据处理，展开一个阅读全文

posted @ 2024-08-08 11:06 Stitches 阅读(462) 评论(0) 推荐(0)

hive03_高级操作

摘要：Hive 分区表 https://blog.csdn.net/weixin_41122339/article/details/81584110 表在存储时，可以将数据根据分区键的列值存储在表目录的子目录中。这样将数据切分到不同目录存储后，可以加快对分区键字段的查询和过滤速度，通过在查询条件中指定过滤阅读全文

posted @ 2024-07-26 19:16 Stitches 阅读(87) 评论(0) 推荐(0)

hive02_SQL操作

摘要：Hive DDL 操作操作前需要保证 hive 成功启动： # 启动 HiveServer2 hive --service hiveserver2 & # 启动 MetaStore hive --service metastore & # 进入 hive 命令行界面 beeline -u jdbc 阅读全文

posted @ 2024-07-26 19:15 Stitches 阅读(45) 评论(0) 推荐(0)

06_sparkStreaming

摘要：SparkStreaming sparkStreaming 用于处理流式数据，其中输入数据源包括 Kafka、Flume、HDFS 等；结果输出目的地址包括 HDFS、数据库。 SparkCore 对应 RDD；SparkSQL 对应 DataFrame/DataSet；SparkStreaming 阅读全文

posted @ 2024-07-26 14:51 Stitches 阅读(38) 评论(0) 推荐(0)

05_sparkSQL

摘要：SparkSQL简介为什么需要 SparkSQL？ Spark 的 RDD有一定局限性，无法处理结构化数据（比如 json 格式等等）； SparkSQL 提供了两种编程的抽象，DataFrame(关心数据结构不关心类型)，DataSet(关心面向对象的数据)； RDD、DataFrame、Dat 阅读全文

posted @ 2024-07-23 20:59 Stitches 阅读(79) 评论(0) 推荐(0)

hive01_入门

摘要：hive简介为什么产生 hive？ MapReduce 提供了通用的分布式开发能力，但是是一个通用的计算引擎，对于一些特殊的数据处理效率较低。比如常见的结构化数据用 SQL 处理，但是数据达到某个量级后单机数据库无法承受，势必要转向大数据平台，而大数据平台有自己单独的计算引擎，所以之前所有使用 S 阅读全文

posted @ 2024-07-19 15:17 Stitches 阅读(51) 评论(0) 推荐(0)

04_spark_RDD深入

摘要：任务执行流程宏观执行流程通过 bin/spark-submit -class [主类] --master [启动模式] --deploy-mode client WordCounter.jar ./input ./output 脚本启动任务；启动 Driver，执行用户类的 main 方法，完阅读全文

posted @ 2024-07-18 10:43 Stitches 阅读(47) 评论(0) 推荐(0)

03_spark_RDD算子

摘要：Transformation 转换算子 RDD 整体上分为 Value、双Value、Key-Value 三种类型。 Value 类型 Map算子函数签名 def map[U:ClassTag](f:T=>U):RDD[U]，它通过接受一个参数，并且遍历该 RDD 中每一个数据项，依次应用函数 f 阅读全文

posted @ 2024-07-15 00:16 Stitches 阅读(49) 评论(0) 推荐(0)

02_spark实操

摘要：运行案例程序计算圆周率——Local Local 模式下，解压安装 spark 后，运行 example 包下的案例程序： bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples 阅读全文

posted @ 2024-07-15 00:16 Stitches 阅读(52) 评论(0) 推荐(0)

01_spark入门

摘要：Spark Spark 作为分布式计算框架，基于 MapReduce 框架开发，但是也有以下区别: Spark 基于 Scala 语言开发，MR 基于 Java 语言开发；Scala 是函数式编程语言，对于函数间相互调用效率更高；而 Java 是面向对象语言，函数间调用必须依赖于对象，效率低。 Ma 阅读全文

posted @ 2024-07-11 23:10 Stitches 阅读(90) 评论(0) 推荐(0)

Scala入门

摘要：Scala Scala特点：和 Java 无缝整合，满足各自语法基础上调用 Java 库；类型推断，类似于 Golang，Scala 通过 val 声明常量，通过 var 声明变量。支持并行和分布式；高阶函数编程，可以理解为面向对象编程，但是函数可以作为对象并当作参数传入。数据类型 Nul 阅读全文

posted @ 2024-07-10 15:29 Stitches 阅读(108) 评论(0) 推荐(0)

hadoop03_Yarn

摘要：Yarn Hadoop 1.x 中包括 HDFS、MapReduce，其中 MapReduce 既是计算框架又是资源管理框架，它的架构为主从架构。 JobTracker 作为主节点，接受客户端提交的作业 Job，然后为该 Job 在 TaskTracker 上分配资源，之后将 Job 拆分为 Tas 阅读全文

posted @ 2024-06-28 20:00 Stitches 阅读(35) 评论(0) 推荐(0)

hadoop04_MapReduce

摘要：MapReduce 模型 MapReduce 核心思想是移动任务而非移动数据 MapReduce 是一种编程模型，对数据集执行 MAP 映射，然后对结果进行 Reduce 规约，适用于大规模数据集的并行计算。核心思想可以理解为分治法，数据固定不动，分派计算任务到不同计算节点计算。模型介绍 MapR 阅读全文

posted @ 2024-06-28 20:00 Stitches 阅读(52) 评论(0) 推荐(0)

hadoop00_大数据技术介绍

摘要：生态架构数据导入离线方式处理的数据，需要通过 ETL 模块实现导入到大数据存储系统进行存储；其中 Sqoop 是常见的抽取结构化数据工具，而 Flume、LogStach 是用于抽取结构化、半结构化数据的工具。数据存储大数据的数据存储系统，最常见的包括分布式文件系统 HDFS；如果需要使用阅读全文

posted @ 2024-06-26 20:19 Stitches 阅读(31) 评论(0) 推荐(0)

hadoop02_HDFS

摘要：HDFS HDFS全称Hadoop Distributed File System，Hadoop分布式文件系统。 HDFS 有以下缺点：不适合低延迟的数据访问，因为数据存储到 HDFS 上，首先会切分为固定大小的数据块，然后对每块存储并进行多副本备份。读取数据时首先要从各个节点读取小数据块然后合并阅读全文

posted @ 2024-06-26 20:19 Stitches 阅读(57) 评论(0) 推荐(0)

hadoop01_组成

摘要：Hadoop 不同版本的组成 MapReduce 模型 MapReduce 是一种编程模型，对数据集执行 MAP 映射，然后对结果进行 Reduce 规约，适用于大规模数据集的并行计算。核心思想可以理解为分治法，数据固定不动，分派计算任务到不同计算节点计算。模型介绍 MapReduce 适用场景：阅读全文

posted @ 2024-06-26 20:19 Stitches 阅读(40) 评论(0) 推荐(0)

istitches

随笔分类 - 大数据

公告