07 2024 档案
摘要:spark sql Apache Spark SQL 是 Apache Spark 中用于结构化数据处理的模块。它允许在大规模数据集上运行 SQL 查询,提供数据查询、分析和转换的能力。Spark SQL 与 Spark 核心集成,允许你将 SQL 查询与其他 Spark 函数结合使用。 主要特点:
阅读全文
摘要:spark初识 什么是spark? Apache Spark 是一个开源集群计算系统,旨在快速进行数据分析。 既好写运行时的也快 BDAS BDAS 是由加利福尼亚大学伯克利分校的AMPLab开发的一套开源大数据分析工具集。其目的是为数据分析和机器学习提供高效、易用的工具。 Spark Spark
阅读全文
摘要:DATAX概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,
阅读全文
摘要:scala特点 Scala介绍 Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言 大数据计算引擎Spark由Scala编写 Scala特点 多范式 面向对象 函数式编程 兼容JAVA 类库调用 互操作 语法简洁 代码行短 类型推断 抽象控制 静态类型化 可检验 安全重构 支持并发控制
阅读全文
摘要:Flume架构 Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 支持在日志系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 flume的数据流由事件(Even
阅读全文