摘要: 数据湖Hudi与对象存储Minio及Hive\Spark\Flink的集成 本文主要记录对象存储组件Minio、数据湖组件Hudi及查询引擎Hive\Spark之间的兼容性配置及测试情况,Spark及Hive无需多言,这里简单介绍下Minio及Hudi。 MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。 它是与 Amazon S3 阅读全文
posted @ 2023-02-06 10:58 ^王晓明^ 阅读(1943) 评论(0) 推荐(0) 编辑
摘要: Linux操作系统的网络模块是负责网络通信的核心部分。它通过实现各种协议和算法,使得计算机能够在网络中进行数据交换和通信。网络模块主要包括以下几个方面的功能: (1)IP协议栈:负责处理网络层的数据包,实现IP地址的分配、路由选择等功能。 IP协议栈是网络模块中最基本的部分,它负责处理网络层的数据包 阅读全文
posted @ 2023-04-18 14:54 ^王晓明^ 阅读(472) 评论(0) 推荐(0) 编辑
摘要: 一、概述 XGBoost是一种基于决策树的集成学习算法,它在处理结构化数据方面表现优异。相比其他算法,XGBoost能够处理大量特征和样本,并且支持通过正则化控制模型的复杂度。XGBoost也可以自动进行特征选择并对缺失值进行处理。 二、代码实现步骤 1、导入相关库 import org.apach 阅读全文
posted @ 2023-04-12 16:28 ^王晓明^ 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 一、贝叶斯定理 贝叶斯定理是关于随机事件A和B的条件概率,生活中,我们可能很容易知道P(A|B),但是我需要求解P(B|A),学习了贝叶斯定理,就可以解决这类问题,计算公式如下: P(A)是A的先验概率 P(B)是B的先验概率 P(A|B)是A的后验概率(已经知道B发生过了) P(B|A)是B的后验 阅读全文
posted @ 2023-04-12 15:24 ^王晓明^ 阅读(238) 评论(0) 推荐(1) 编辑
摘要: FlinkSQL自定义函数开发 本次需求场景主要为实现将flinksql中collect()函数输出的Mutiset(VARCHAR<100>)多行结果转换为字符串。 一、FlinkSQL自定义函数分类 Flink SQL 的自定义函数是用户可以自行编写的一种函数,用于扩展 Flink SQL 的功能。自定义函数可以在 SQL 查 阅读全文
posted @ 2023-03-31 10:23 ^王晓明^ 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 基于datax抽取mysql数据到HDFS 一、安装datax 通过https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202210/datax.tar.gz这个地址下载datax.tar.gz,解压到某个目录,如我的目录/opt/conf/datax-20230301,解压完后会在当前 阅读全文
posted @ 2023-03-06 17:18 ^王晓明^ 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 压测工具Jmeter介绍及使用 一、压测工具选型 1.1、前言 压力测试是每一个Web应用程序上线之前都需要做的一个测试,他可以帮助我们发现系统中的瓶颈问题,减少发布到生产环境后出问题的几率;预估系统的承载能力,使我们能根据其做出一些应对措施。所以压力测试是一个非常重要的步骤,关于java应用的压力测试,业界常用工具为Apache 阅读全文
posted @ 2023-03-06 17:06 ^王晓明^ 阅读(1615) 评论(2) 推荐(3) 编辑
摘要: 数据转换工具DBT介绍及实操 一、什么是DBT dbt (data build tool)是一款流行的开源数据转换工具,能够通过 SQL 实现数据转化,将命令转化为表或者视图,提升数据分析师的工作效率。dbt 主要功能在于转换数据库或数据仓库中的数据,在 E(Extract)、L(Load)、T(Transform) 的流程中, 阅读全文
posted @ 2023-03-02 16:56 ^王晓明^ 阅读(4198) 评论(0) 推荐(1) 编辑
摘要: 基于FLink实现的实时安全检测(一段时间内连续登录失败20次后,下一次登录成功场景) 研发背景 公司安全部目前针对内部系统的网络访问日志的安全审计,大部分都是T+1时效,每日当天,启动Python编写的定时任务,完成昨日的日志审计和检测,定时任务运行完成后,统一进行企业微信告警推送。这种方案在目前的网络环境和人员规模下,呈现两个痛点,一是面对日益频繁的网络攻击、钓鱼链接,T+1的定时 阅读全文
posted @ 2023-02-23 14:00 ^王晓明^ 阅读(507) 评论(0) 推荐(1) 编辑
摘要: 一、研发背景 DataX官方开源的版本支持HDFS文件的读写,但是截止目前,并没有支持Parquet文件的读写,得益于DataX出色的数据同步性能,去年公司的项目大部分采用了DataX作为数据同步工具,但是从CDH集群同步Parquet或者将其他数据源的数据以Parquet格式写入HDFS,这两个常 阅读全文
posted @ 2023-02-13 10:24 ^王晓明^ 阅读(1651) 评论(14) 推荐(0) 编辑
摘要: DataX二次开发——新增HiveReader插件 一、研发背景 DataX官方开源的版本支持HDFS文件的读写,并没有支持基于JDBC的Hive数据读写,很多时候一些数据同步不太方便,比如在读取Hive之前先执行一些sql、读取一些Hive的视图数据、或者在数据同步时执行一段固定的SQL,将SQL执行结果写入下游等各种场景,实际上还是需要Hive插 阅读全文
posted @ 2023-02-07 11:26 ^王晓明^ 阅读(801) 评论(3) 推荐(1) 编辑