摘要: 下面是部分机器学习的案例,合适入门的朋友学习,有numpy、pandas、matplotlib、scipy、skearn、TensorFlow等库的基本案例教程。 阅读全文
posted @ 2018-09-12 15:17 ARYOUOK 阅读(910) 评论(0) 推荐(0)
摘要: 下面就不一一列举了,所有的资料都和GitHub对接,到时候我有更新就直接拖到GitHub上面了。入门的小伙伴们可以进来看看,估计后面还会有很多项目,待更新。 阅读全文
posted @ 2018-09-12 11:15 ARYOUOK 阅读(431) 评论(0) 推荐(0)
摘要: val spark = SparkSession.builder() .master("local[5]") .appName("jobTask") .enableHiveSupport() // 元数据存储到 MySQL .config("javax.jdo.option.ConnectionUR 阅读全文
posted @ 2026-05-16 00:32 ARYOUOK 阅读(6) 评论(0) 推荐(0)
摘要: package job.model import org.apache.spark.sql.SparkSession object sparkLocalDatabase_2 { // 伴生对象:存放静态成员(相当于 Java 的 static) val baseSession: SparkSessi 阅读全文
posted @ 2026-05-16 00:23 ARYOUOK 阅读(7) 评论(0) 推荐(0)
摘要: package job.model import org.apache.spark.sql.SparkSession object sparkLocalDatabase { // 伴生对象:存放静态成员(相当于 Java 的 static) val baseSession: SparkSession 阅读全文
posted @ 2026-05-16 00:17 ARYOUOK 阅读(7) 评论(0) 推荐(0)
摘要: package aml.core import ibp.core.ComplexSqlExtractor import org.apache.spark.scheduler.SparkListener import org.apache.spark.sql.{DataFrame, SparkSess 阅读全文
posted @ 2026-05-14 22:42 ARYOUOK 阅读(6) 评论(0) 推荐(0)
摘要: package main.scala.M import org.apache.spark.sql.{DataFrame, SparkSession} object amJobTask { def main(args: Array[String]): Unit = { // 1. 创建SparkSes 阅读全文
posted @ 2026-05-10 22:54 ARYOUOK 阅读(6) 评论(0) 推荐(0)
摘要: import multiprocessing from concurrent.futures import ThreadPoolExecutor, as_completed import threading class parallelPool(): def __init__(self,jobNam 阅读全文
posted @ 2026-04-05 16:18 ARYOUOK 阅读(7) 评论(0) 推荐(0)
摘要: from concurrent.futures import ThreadPoolExecutor, as_completed import time # 定义一个任务函数 def fibonacci(n,m): if n <= 1: return n+m else: return fibonacc 阅读全文
posted @ 2026-04-03 22:29 ARYOUOK 阅读(5) 评论(0) 推荐(0)
摘要: import threading def fibonacci(n): if n <= 1: return n else: return fibonacci(n-1) + fibonacci(n-2) def calculate_fibonacci(n): result = fibonacci(n) 阅读全文
posted @ 2026-04-01 23:23 ARYOUOK 阅读(9) 评论(0) 推荐(0)
摘要: import pyautogui import time # 安全设置:启用紧急停止(将鼠标移动到屏幕左上角可停止脚本) pyautogui.FAILSAFE = True # 设置每个操作之间的暂停时间(秒) pyautogui.PAUSE = 1.0 from pynput.keyboard i 阅读全文
posted @ 2026-03-19 22:49 ARYOUOK 阅读(22) 评论(0) 推荐(0)
摘要: truncate table TMP_CUST_I_NEW; INSERT INTO TMP_CUST_I_NEW (object_id,md5_code) select object_id, md5(concat(object_id,u_name,col3,...)) as md5_code fr 阅读全文
posted @ 2026-03-12 14:17 ARYOUOK 阅读(11) 评论(0) 推荐(0)
摘要: 你观察到的现象是Oracle范围分区(Range Partitioning)的一个关键特性:分区定义的是上边界(exclusive),而不是包含边界。我来详细解释一下: 核心原理 在Oracle范围分区中: PARTITION PT_20250101 VALUES LESS THAN (DATE ' 阅读全文
posted @ 2026-02-03 10:02 ARYOUOK 阅读(5) 评论(0) 推荐(0)
摘要: package scala.learningRDD import org.apache.spark.SparkContext import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.rdd.RDD 阅读全文
posted @ 2026-01-03 01:42 ARYOUOK 阅读(14) 评论(0) 推荐(0)
摘要: package scala.learningRDD import org.apache.spark.SparkContext import org.apache.spark.broadcast.Broadcast import org.apache.spark.mllib.linalg.{Vecto 阅读全文
posted @ 2026-01-03 00:52 ARYOUOK 阅读(15) 评论(0) 推荐(0)
摘要: package scala import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} object wordCountTest { def main(args: Array[String 阅读全文
posted @ 2025-12-28 13:23 ARYOUOK 阅读(8) 评论(0) 推荐(0)
摘要: 1、Scala代码编译打包 package scala import org.apache.spark.sql.SparkSession import scala.math.random object excutpi { def main(args: Array[String]): Unit = { 阅读全文
posted @ 2025-12-27 21:07 ARYOUOK 阅读(12) 评论(0) 推荐(0)
摘要: #!/bin/bash # 判断参数个数 if [ $# -lt 1 ] then echo "使用方法: ./myhadoop.sh {start|stop}" exit fi case $1 in "start") echo " 启动 Hadoop 集群 " echo " 启动 HDFS " # 阅读全文
posted @ 2025-12-25 21:54 ARYOUOK 阅读(22) 评论(0) 推荐(0)
摘要: SELECT T.sname,T.ctfid,T.gender,t.address, count(*) OVER(PARTITION BY T.sname) AS FM_CNT FROM test_db.room3 T WHERE T.address like "%北京%" AND instr(T. 阅读全文
posted @ 2025-12-25 20:47 ARYOUOK 阅读(81) 评论(0) 推荐(0)
摘要: -- 优化方法 -- common join -- 正常关联逻辑 -- mapjoin 通过广播小表到内存中进行优化 -- bucket map join -- 通过分桶 广播大表到内存中进行优化 -- sort merge bucket map join -- 通过分桶 成 倍数的关系 进行优化 阅读全文
posted @ 2025-12-24 23:00 ARYOUOK 阅读(17) 评论(0) 推荐(0)
摘要: #先配置免密登录 ssh-keygen -t rsa -P '' ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop01 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop02 ssh-copy-id -i ~/.s 阅读全文
posted @ 2025-12-20 16:40 ARYOUOK 阅读(13) 评论(0) 推荐(0)
摘要: 在CentOS 7 Minimal系统上配置国内镜像源,确实是提升软件包下载速度和系统可用性的关键一步,尤其考虑到CentOS 7已于2024年6月停止官方更新支持。下面为你梳理详细的操作流程和注意事项。 🔧 更换镜像源步骤 备份现有源配置 这是一个好习惯,以便在需要时可以恢复。 sudo cp 阅读全文
posted @ 2025-12-20 15:21 ARYOUOK 阅读(63) 评论(0) 推荐(0)
摘要: -- 分区表 -- 分区表,动态分区 drop table db_hive1.t2a_trans purge; CREATE EXTERNAL TABLE t2a_trans ( TR_ID STRING COMMENT '交易流水号', CUST_ID STRING COMMENT '用户ID', 阅读全文
posted @ 2025-12-14 00:09 ARYOUOK 阅读(25) 评论(0) 推荐(0)
摘要: SELECT T.sname,T.ctfid,T.gender,t.address, count(*) OVER(PARTITION BY T.sname) AS FM_CNT FROM test_db.room3 T WHERE T.address like "%北京%" AND instr(T. 阅读全文
posted @ 2025-12-08 21:41 ARYOUOK 阅读(30) 评论(0) 推荐(0)
摘要: 1、成功配置和启动Hadoop 集群 2、配置hive metastroge元数据 服务 3、把hive config 里面的 hist-site.xml 文件拷贝到 spark config 目录下 4、启动spark sbin 路径下 start-thriftserver.sh 服务 5、使用数 阅读全文
posted @ 2025-12-08 09:33 ARYOUOK 阅读(37) 评论(0) 推荐(0)
摘要: # 1. 停止Hive服务 $HIVE_HOME/bin/hive --service metastore --stop pkill -f HiveServer2 # 2. 备份现有元数据(如果存在重要数据) mysqldump -u root -p hive_metastore > hive_me 阅读全文
posted @ 2025-11-29 12:40 ARYOUOK 阅读(24) 评论(0) 推荐(0)
摘要: SELECT day FROM ( SELECT day, SUM(CASE WHEN is_zm = 'N' THEN 1 ELSE 0 END) OVER (ORDER BY day DESC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) a 阅读全文
posted @ 2025-10-30 10:12 ARYOUOK 阅读(24) 评论(0) 推荐(0)