^王晓明^

[置顶] 数据湖Hudi与对象存储Minio及Hive\Spark\Flink的集成

摘要： $数据湖Hudi与对象存储Minio及Hive\Spark\Flink的集成$ 本文主要记录对象存储组件Minio、数据湖组件Hudi及查询引擎Hive\Spark之间的兼容性配置及测试情况，Spark及Hive无需多言，这里简单介绍下Minio及Hudi。 MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它是与 Amazon S3 阅读全文

posted @ 2023-02-06 10:58 ^王晓明^ 阅读(3637) 评论(0) 推荐(0)

2023年4月18日

Linux操作系统网络模块

摘要： Linux操作系统的网络模块是负责网络通信的核心部分。它通过实现各种协议和算法，使得计算机能够在网络中进行数据交换和通信。网络模块主要包括以下几个方面的功能：（1）IP协议栈：负责处理网络层的数据包，实现IP地址的分配、路由选择等功能。 IP协议栈是网络模块中最基本的部分，它负责处理网络层的数据包阅读全文

posted @ 2023-04-18 14:53 ^王晓明^ 阅读(657) 评论(0) 推荐(0)

2023年4月12日

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

摘要：一、概述 XGBoost是一种基于决策树的集成学习算法，它在处理结构化数据方面表现优异。相比其他算法，XGBoost能够处理大量特征和样本，并且支持通过正则化控制模型的复杂度。XGBoost也可以自动进行特征选择并对缺失值进行处理。二、代码实现步骤 1、导入相关库 import org.apach 阅读全文

posted @ 2023-04-12 16:28 ^王晓明^ 阅读(682) 评论(0) 推荐(0)

Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器

摘要：一、贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率，生活中，我们可能很容易知道P（A|B），但是我需要求解P（B|A），学习了贝叶斯定理，就可以解决这类问题，计算公式如下： P（A）是A的先验概率 P（B）是B的先验概率 P（A|B）是A的后验概率（已经知道B发生过了） P（B|A）是B的后验阅读全文

posted @ 2023-04-12 15:24 ^王晓明^ 阅读(372) 评论(0) 推荐(1)

2023年3月31日

FlinkSQL自定义函数开发

摘要：

本次需求场景主要为实现将flinksql中collect()函数输出的Mutiset(VARCHAR<100>)多行结果转换为字符串。一、FlinkSQL自定义函数分类 Flink SQL 的自定义函数是用户可以自行编写的一种函数，用于扩展 Flink SQL 的功能。自定义函数可以在 SQL 查阅读全文

posted @ 2023-03-31 10:22 ^王晓明^ 阅读(2012) 评论(0) 推荐(0)

2023年3月6日

基于datax抽取mysql数据到HDFS

摘要：

一、安装datax 通过https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202210/datax.tar.gz这个地址下载datax.tar.gz，解压到某个目录，如我的目录/opt/conf/datax-20230301，解压完后会在当前阅读全文

posted @ 2023-03-06 17:18 ^王晓明^ 阅读(768) 评论(0) 推荐(0)

压测工具Jmeter介绍及使用

摘要：

一、压测工具选型 1.1、前言压力测试是每一个Web应用程序上线之前都需要做的一个测试，他可以帮助我们发现系统中的瓶颈问题，减少发布到生产环境后出问题的几率；预估系统的承载能力，使我们能根据其做出一些应对措施。所以压力测试是一个非常重要的步骤，关于java应用的压力测试，业界常用工具为Apache 阅读全文

posted @ 2023-03-06 17:06 ^王晓明^ 阅读(2255) 评论(2) 推荐(3)

2023年3月2日

数据转换工具DBT介绍及实操

摘要：

一、什么是DBT dbt （data build tool）是一款流行的开源数据转换工具，能够通过 SQL 实现数据转化，将命令转化为表或者视图，提升数据分析师的工作效率。dbt 主要功能在于转换数据库或数据仓库中的数据，在 E（Extract）、L（Load）、T（Transform）的流程中，阅读全文

posted @ 2023-03-02 16:56 ^王晓明^ 阅读(10155) 评论(0) 推荐(1)

2023年2月23日

基于FLink实现的实时安全检测（一段时间内连续登录失败20次后，下一次登录成功场景）

摘要：

研发背景公司安全部目前针对内部系统的网络访问日志的安全审计，大部分都是T+1时效，每日当天，启动Python编写的定时任务，完成昨日的日志审计和检测，定时任务运行完成后，统一进行企业微信告警推送。这种方案在目前的网络环境和人员规模下，呈现两个痛点，一是面对日益频繁的网络攻击、钓鱼链接，T+1的定时阅读全文

posted @ 2023-02-23 14:00 ^王晓明^ 阅读(876) 评论(0) 推荐(1)

2023年2月13日

DataX二次开发——HdfsReader和HdfsWriter插件增加parquet文件读写

摘要：一、研发背景 DataX官方开源的版本支持HDFS文件的读写，但是截止目前，并没有支持Parquet文件的读写，得益于DataX出色的数据同步性能，去年公司的项目大部分采用了DataX作为数据同步工具，但是从CDH集群同步Parquet或者将其他数据源的数据以Parquet格式写入HDFS，这两个常阅读全文

posted @ 2023-02-13 10:24 ^王晓明^ 阅读(2673) 评论(14) 推荐(0)

2023年2月7日

DataX二次开发——新增HiveReader插件

摘要：

一、研发背景 DataX官方开源的版本支持HDFS文件的读写，并没有支持基于JDBC的Hive数据读写，很多时候一些数据同步不太方便，比如在读取Hive之前先执行一些sql、读取一些Hive的视图数据、或者在数据同步时执行一段固定的SQL，将SQL执行结果写入下游等各种场景，实际上还是需要Hive插阅读全文

posted @ 2023-02-07 11:26 ^王晓明^ 阅读(1919) 评论(3) 推荐(1)

公告