ARYOUOK - 博客园

摘要：下面是部分机器学习的案例，合适入门的朋友学习，有numpy、pandas、matplotlib、scipy、skearn、TensorFlow等库的基本案例教程。阅读全文

posted @ 2018-09-12 15:17 ARYOUOK 阅读(910) 评论(0) 推荐(0)

摘要：下面就不一一列举了，所有的资料都和GitHub对接，到时候我有更新就直接拖到GitHub上面了。入门的小伙伴们可以进来看看，估计后面还会有很多项目，待更新。阅读全文

posted @ 2018-09-12 11:15 ARYOUOK 阅读(431) 评论(0) 推荐(0)

2026年5月16日

摘要： val spark = SparkSession.builder() .master("local[5]") .appName("jobTask") .enableHiveSupport() // 元数据存储到 MySQL .config("javax.jdo.option.ConnectionUR 阅读全文

posted @ 2026-05-16 00:32 ARYOUOK 阅读(6) 评论(0) 推荐(0)

spark local不启动hive支持，不持久化元数据，直接读取parquet文件

摘要： package job.model import org.apache.spark.sql.SparkSession object sparkLocalDatabase_2 { // 伴生对象：存放静态成员（相当于 Java 的 static） val baseSession: SparkSessi 阅读全文

posted @ 2026-05-16 00:23 ARYOUOK 阅读(7) 评论(0) 推荐(0)

spark local 模式spark SQL建表数据持久化启动元数据持久化，启动hive支持

摘要： package job.model import org.apache.spark.sql.SparkSession object sparkLocalDatabase { // 伴生对象：存放静态成员（相当于 Java 的 static） val baseSession: SparkSession 阅读全文

posted @ 2026-05-16 00:17 ARYOUOK 阅读(7) 评论(0) 推荐(0)

2026年5月14日

sparklocal封装进行session视图隔离封装

摘要： package aml.core import ibp.core.ComplexSqlExtractor import org.apache.spark.scheduler.SparkListener import org.apache.spark.sql.{DataFrame, SparkSess 阅读全文

posted @ 2026-05-14 22:42 ARYOUOK 阅读(6) 评论(0) 推荐(0)

2026年5月10日

sparksql读取mysql表处理etl数据加工过程在把结果反插入库

摘要： package main.scala.M import org.apache.spark.sql.{DataFrame, SparkSession} object amJobTask { def main(args: Array[String]): Unit = { // 1. 创建SparkSes 阅读全文

posted @ 2026-05-10 22:54 ARYOUOK 阅读(6) 评论(0) 推荐(0)

2026年4月5日

python 线程池并行计算封装

摘要： import multiprocessing from concurrent.futures import ThreadPoolExecutor, as_completed import threading class parallelPool(): def __init__(self,jobNam 阅读全文

posted @ 2026-04-05 16:18 ARYOUOK 阅读(7) 评论(0) 推荐(0)

2026年4月3日

python3.14t线程池进行并行计算

摘要： from concurrent.futures import ThreadPoolExecutor, as_completed import time # 定义一个任务函数 def fibonacci(n,m): if n <= 1: return n+m else: return fibonacc 阅读全文

posted @ 2026-04-03 22:29 ARYOUOK 阅读(5) 评论(0) 推荐(0)

2026年4月1日

python3.14实现多线程计算 python3.14t.exe testDemo2.py

摘要： import threading def fibonacci(n): if n <= 1: return n else: return fibonacci(n-1) + fibonacci(n-2) def calculate_fibonacci(n): result = fibonacci(n) 阅读全文

posted @ 2026-04-01 23:23 ARYOUOK 阅读(9) 评论(0) 推荐(0)

2026年3月19日

python 通过操作鼠标定位来操作Windows软件模拟人工操作

摘要： import pyautogui import time # 安全设置：启用紧急停止（将鼠标移动到屏幕左上角可停止脚本） pyautogui.FAILSAFE = True # 设置每个操作之间的暂停时间（秒） pyautogui.PAUSE = 1.0 from pynput.keyboard i 阅读全文

posted @ 2026-03-19 22:49 ARYOUOK 阅读(22) 评论(0) 推荐(0)

2026年3月12日

针对上游数据参考全量数据处理为增量的方法 MySQL Oracle 全量表转为增量表的方法

摘要： truncate table TMP_CUST_I_NEW; INSERT INTO TMP_CUST_I_NEW (object_id,md5_code) select object_id, md5(concat(object_id,u_name,col3,...)) as md5_code fr 阅读全文

posted @ 2026-03-12 14:17 ARYOUOK 阅读(11) 评论(0) 推荐(0)

2026年2月3日

为什么Oracle 创建交易日分区的时候， PT_20250101 VALUES(DATE '2025-01-02') 相差一天呢？

摘要：你观察到的现象是Oracle范围分区（Range Partitioning）的一个关键特性：分区定义的是上边界（exclusive），而不是包含边界。我来详细解释一下：核心原理在Oracle范围分区中： PARTITION PT_20250101 VALUES LESS THAN (DATE ' 阅读全文

posted @ 2026-02-03 10:02 ARYOUOK 阅读(5) 评论(0) 推荐(0)

2026年1月3日

优化spark RDD autoKMeans one-hot数据无监督聚类

摘要： package scala.learningRDD import org.apache.spark.SparkContext import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.rdd.RDD 阅读全文

posted @ 2026-01-03 01:42 ARYOUOK 阅读(14) 评论(0) 推荐(0)

spark RDD 实现 autoKMeans算法 spark 实现分布式无监督聚类算法

摘要： package scala.learningRDD import org.apache.spark.SparkContext import org.apache.spark.broadcast.Broadcast import org.apache.spark.mllib.linalg.{Vecto 阅读全文

posted @ 2026-01-03 00:52 ARYOUOK 阅读(15) 评论(0) 推荐(0)

2025年12月28日

spark3 wordcount 案例可以使用 spark-submit 进行远程提交

摘要： package scala import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} object wordCountTest { def main(args: Array[String 阅读全文

posted @ 2025-12-28 13:23 ARYOUOK 阅读(8) 评论(0) 推荐(0)

2025年12月27日

spark 编写自定义业务代码提交到远程 yarn 上进行运行spark on yarn

摘要： 1、Scala代码编译打包 package scala import org.apache.spark.sql.SparkSession import scala.math.random object excutpi { def main(args: Array[String]): Unit = { 阅读全文

posted @ 2025-12-27 21:07 ARYOUOK 阅读(12) 评论(0) 推荐(0)

2025年12月25日

hadoop 分布式集群启动命令停止命令 hadoop jps查看每个节点状态命令

摘要： #!/bin/bash # 判断参数个数 if [ $# -lt 1 ] then echo "使用方法: ./myhadoop.sh {start|stop}" exit fi case $1 in "start") echo " 启动 Hadoop 集群 " echo " 启动 HDFS " # 阅读全文

posted @ 2025-12-25 21:54 ARYOUOK 阅读(22) 评论(0) 推荐(0)

hive 命令大全 hive优化数据倾斜分区分桶

摘要： SELECT T.sname,T.ctfid,T.gender,t.address, count(*) OVER(PARTITION BY T.sname) AS FM_CNT FROM test_db.room3 T WHERE T.address like "%北京%" AND instr(T. 阅读全文

posted @ 2025-12-25 20:47 ARYOUOK 阅读(81) 评论(0) 推荐(0)

2025年12月24日

hive3之数据倾斜解决方案

摘要： -- 优化方法 -- common join -- 正常关联逻辑 -- mapjoin 通过广播小表到内存中进行优化 -- bucket map join -- 通过分桶广播大表到内存中进行优化 -- sort merge bucket map join -- 通过分桶成倍数的关系进行优化阅读全文

posted @ 2025-12-24 23:00 ARYOUOK 阅读(17) 评论(0) 推荐(0)

2025年12月20日

Linux多台服务器配置分发脚本xsync 免密登录

摘要： #先配置免密登录 ssh-keygen -t rsa -P '' ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop01 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop02 ssh-copy-id -i ~/.s 阅读全文

posted @ 2025-12-20 16:40 ARYOUOK 阅读(13) 评论(0) 推荐(0)

如何为 Linux centos7 Minimal系统配置国内镜像

摘要：在CentOS 7 Minimal系统上配置国内镜像源，确实是提升软件包下载速度和系统可用性的关键一步，尤其考虑到CentOS 7已于2024年6月停止官方更新支持。下面为你梳理详细的操作流程和注意事项。 🔧 更换镜像源步骤备份现有源配置这是一个好习惯，以便在需要时可以恢复。 sudo cp 阅读全文

posted @ 2025-12-20 15:21 ARYOUOK 阅读(63) 评论(0) 推荐(0)

2025年12月14日

hive 分区表二级分区分区分桶表动态分区

摘要： -- 分区表 -- 分区表，动态分区 drop table db_hive1.t2a_trans purge; CREATE EXTERNAL TABLE t2a_trans ( TR_ID STRING COMMENT '交易流水号', CUST_ID STRING COMMENT '用户ID', 阅读全文

posted @ 2025-12-14 00:09 ARYOUOK 阅读(25) 评论(0) 推荐(0)

2025年12月8日

hive ddl dml hivesql命令大全

摘要： SELECT T.sname,T.ctfid,T.gender,t.address, count(*) OVER(PARTITION BY T.sname) AS FM_CNT FROM test_db.room3 T WHERE T.address like "%北京%" AND instr(T. 阅读全文

posted @ 2025-12-08 21:41 ARYOUOK 阅读(30) 评论(0) 推荐(0)

spark整合hive，spark连接hive spark on hive ,hive 与spark集成

摘要： 1、成功配置和启动Hadoop 集群 2、配置hive metastroge元数据服务 3、把hive config 里面的 hist-site.xml 文件拷贝到 spark config 目录下 4、启动spark sbin 路径下 start-thriftserver.sh 服务 5、使用数阅读全文

posted @ 2025-12-08 09:33 ARYOUOK 阅读(37) 评论(0) 推荐(0)

2025年11月29日

如何重新初始化hive3.1.1

摘要： # 1. 停止Hive服务 $HIVE_HOME/bin/hive --service metastore --stop pkill -f HiveServer2 # 2. 备份现有元数据（如果存在重要数据） mysqldump -u root -p hive_metastore > hive_me 阅读全文

posted @ 2025-11-29 12:40 ARYOUOK 阅读(24) 评论(0) 推荐(0)

2025年10月30日

oracle实现从当天回顾工作日前n天对应的具体工作日日期

摘要： SELECT day FROM ( SELECT day, SUM(CASE WHEN is_zm = 'N' THEN 1 ELSE 0 END) OVER (ORDER BY day DESC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) a 阅读全文

posted @ 2025-10-30 10:12 ARYOUOK 阅读(24) 评论(0) 推荐(0)

公告