2024 年 7月随笔档案 - yu_lu

spark sql的知识碎片

摘要：spark sql Apache Spark SQL 是 Apache Spark 中用于结构化数据处理的模块。它允许在大规模数据集上运行 SQL 查询，提供数据查询、分析和转换的能力。Spark SQL 与 Spark 核心集成，允许你将 SQL 查询与其他 Spark 函数结合使用。主要特点：阅读全文

posted @ 2024-07-16 22:05 yu_lu 阅读(46) 评论(0) 推荐(0)

Spark Core的知识碎片

摘要：spark初识什么是spark？ Apache Spark 是一个开源集群计算系统，旨在快速进行数据分析。既好写运行时的也快 BDAS BDAS 是由加利福尼亚大学伯克利分校的AMPLab开发的一套开源大数据分析工具集。其目的是为数据分析和机器学习提供高效、易用的工具。 Spark Spark 阅读全文

posted @ 2024-07-15 19:38 yu_lu 阅读(44) 评论(0) 推荐(0)

DataX的知识碎片

摘要：DATAX概览 DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，阅读全文

posted @ 2024-07-10 10:08 yu_lu 阅读(50) 评论(0) 推荐(0)

Scala的基础知识点

摘要：scala特点 Scala介绍 Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言大数据计算引擎Spark由Scala编写 Scala特点多范式面向对象函数式编程兼容JAVA 类库调用互操作语法简洁代码行短类型推断抽象控制静态类型化可检验安全重构支持并发控制阅读全文

posted @ 2024-07-08 22:39 yu_lu 阅读(29) 评论(0) 推荐(0)

一些关于flume的知识知识碎片

摘要：Flume架构 Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据; 同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。 flume的数据流由事件(Even 阅读全文

posted @ 2024-07-03 19:54 yu_lu 阅读(39) 评论(0) 推荐(0)

07 2024 档案

公告