摘要: spark sql Apache Spark SQL 是 Apache Spark 中用于结构化数据处理的模块。它允许在大规模数据集上运行 SQL 查询,提供数据查询、分析和转换的能力。Spark SQL 与 Spark 核心集成,允许你将 SQL 查询与其他 Spark 函数结合使用。 主要特点: 阅读全文
posted @ 2024-07-16 22:05 yu_lu 阅读(46) 评论(0) 推荐(0)
摘要: spark初识 什么是spark? Apache Spark 是一个开源集群计算系统,旨在快速进行数据分析。 既好写运行时的也快 BDAS BDAS 是由加利福尼亚大学伯克利分校的AMPLab开发的一套开源大数据分析工具集。其目的是为数据分析和机器学习提供高效、易用的工具。 Spark Spark 阅读全文
posted @ 2024-07-15 19:38 yu_lu 阅读(44) 评论(0) 推荐(0)
摘要: DATAX概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路, 阅读全文
posted @ 2024-07-10 10:08 yu_lu 阅读(50) 评论(0) 推荐(0)
摘要: scala特点 Scala介绍 Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言 大数据计算引擎Spark由Scala编写 Scala特点 多范式 面向对象 函数式编程 兼容JAVA 类库调用 互操作 语法简洁 代码行短 类型推断 抽象控制 静态类型化 可检验 安全重构 支持并发控制 阅读全文
posted @ 2024-07-08 22:39 yu_lu 阅读(29) 评论(0) 推荐(0)
摘要: Flume架构 Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 支持在日志系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 flume的数据流由事件(Even 阅读全文
posted @ 2024-07-03 19:54 yu_lu 阅读(39) 评论(0) 推荐(0)
摘要: IO操作 Flie类 介绍: File对象表示路径,可以是文件、也可以是文件夹。 这个路径可以是存在的,也可以是不存在的 绝对路径是带盘符的。相对路径是不带盘符的,默认到当前项目下去找 File对象代表磁盘中实际存在的文件和目录。通过以下构造方法创建一个File对象: 通过给定的父抽象路径名和子路径 阅读全文
posted @ 2024-06-26 22:19 yu_lu 阅读(27) 评论(0) 推荐(0)
摘要: 异常:在程序运行过程中,如果JVM检测出一个不可能执行的操作时,就会出现运行时错误(runtime error)。在Java中,运行时错误会作为异常抛出。异常就是一种对象,表示阻止正常进行程序执行的错误或情况。如果异常没有被处理,那么程序将会非正常终止。 异常是对象,异常封装成类Exception, 阅读全文
posted @ 2024-06-26 14:02 yu_lu 阅读(36) 评论(0) 推荐(0)
摘要: 集合与数组的区别 长度区别 数组固定 集合可变 内容区别 数组可以是基本类型,也可以是引用类型 集合只能是引用类型 元素区别 数组只能存储同一种类型 集合可以存储不同类型(一般存储一种类型——泛型) Collection集合的方法 Boolean add(E e):在集合末尾添加元素 Boolean 阅读全文
posted @ 2024-06-26 11:25 yu_lu 阅读(30) 评论(0) 推荐(0)
摘要: clickhouse概述 OLTP(联机事务处理系统) 例如mysql等关系型数据库,在对于存储小数据量的时候,查询数据并分析速度很快,OLTP本身其实是一个逻辑上的概念,指的是某个数据库,主要是针对增删改操作的。 里面的数据经常发生变化 OLAP(联机分析处理系统) 指的是数据库中的数据长期不变, 阅读全文
posted @ 2024-06-25 10:55 yu_lu 阅读(35) 评论(0) 推荐(0)
摘要: 大数据概念 什么是大数据? 大数据是指高速(velocity)涌现的大量(volume)多样化(variety)具有一定价值(value)并且真实(veracity)的数据,其特性可简单概括为5V。 原理流程 数据采集 大数据首先需要将来自不同来源和应用的数据汇集在一起。需要导入和处理数据、执行格式 阅读全文
posted @ 2024-06-19 19:46 yu_lu 阅读(24) 评论(0) 推荐(0)