ARYOUOK - 博客园

摘要：下面是部分机器学习的案例，合适入门的朋友学习，有numpy、pandas、matplotlib、scipy、skearn、TensorFlow等库的基本案例教程。阅读全文

posted @ 2018-09-12 15:17 ARYOUOK 阅读(908) 评论(0) 推荐(0)

摘要：下面就不一一列举了，所有的资料都和GitHub对接，到时候我有更新就直接拖到GitHub上面了。入门的小伙伴们可以进来看看，估计后面还会有很多项目，待更新。阅读全文

posted @ 2018-09-12 11:15 ARYOUOK 阅读(428) 评论(0) 推荐(0)

2026年1月3日

摘要： package scala.learningRDD import org.apache.spark.SparkContext import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.rdd.RDD 阅读全文

posted @ 2026-01-03 01:42 ARYOUOK 阅读(6) 评论(0) 推荐(0)

spark RDD 实现 autoKMeans算法 spark 实现分布式无监督聚类算法

摘要： package scala.learningRDD import org.apache.spark.SparkContext import org.apache.spark.broadcast.Broadcast import org.apache.spark.mllib.linalg.{Vecto 阅读全文

posted @ 2026-01-03 00:52 ARYOUOK 阅读(7) 评论(0) 推荐(0)

2025年12月28日

spark3 wordcount 案例可以使用 spark-submit 进行远程提交

摘要： package scala import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} object wordCountTest { def main(args: Array[String 阅读全文

posted @ 2025-12-28 13:23 ARYOUOK 阅读(5) 评论(0) 推荐(0)

2025年12月27日

spark 编写自定义业务代码提交到远程 yarn 上进行运行spark on yarn

摘要： 1、Scala代码编译打包 package scala import org.apache.spark.sql.SparkSession import scala.math.random object excutpi { def main(args: Array[String]): Unit = { 阅读全文

posted @ 2025-12-27 21:07 ARYOUOK 阅读(6) 评论(0) 推荐(0)

2025年12月25日

hadoop 分布式集群启动命令停止命令 hadoop jps查看每个节点状态命令

摘要： #!/bin/bash # 判断参数个数 if [ $# -lt 1 ] then echo "使用方法: ./myhadoop.sh {start|stop}" exit fi case $1 in "start") echo " 启动 Hadoop 集群 " echo " 启动 HDFS " # 阅读全文

posted @ 2025-12-25 21:54 ARYOUOK 阅读(9) 评论(0) 推荐(0)

hive 命令大全 hive优化数据倾斜分区分桶

摘要： SELECT T.sname,T.ctfid,T.gender,t.address, count(*) OVER(PARTITION BY T.sname) AS FM_CNT FROM test_db.room3 T WHERE T.address like "%北京%" AND instr(T. 阅读全文

posted @ 2025-12-25 20:47 ARYOUOK 阅读(31) 评论(0) 推荐(0)

2025年12月24日

hive3之数据倾斜解决方案

摘要： -- 优化方法 -- common join -- 正常关联逻辑 -- mapjoin 通过广播小表到内存中进行优化 -- bucket map join -- 通过分桶广播大表到内存中进行优化 -- sort merge bucket map join -- 通过分桶成倍数的关系进行优化阅读全文

posted @ 2025-12-24 23:00 ARYOUOK 阅读(9) 评论(0) 推荐(0)

2025年12月20日

Linux多台服务器配置分发脚本xsync 免密登录

摘要： #先配置免密登录 ssh-keygen -t rsa -P '' ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop01 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop02 ssh-copy-id -i ~/.s 阅读全文

posted @ 2025-12-20 16:40 ARYOUOK 阅读(7) 评论(0) 推荐(0)

如何为 Linux centos7 Minimal系统配置国内镜像

摘要：在CentOS 7 Minimal系统上配置国内镜像源，确实是提升软件包下载速度和系统可用性的关键一步，尤其考虑到CentOS 7已于2024年6月停止官方更新支持。下面为你梳理详细的操作流程和注意事项。 🔧 更换镜像源步骤备份现有源配置这是一个好习惯，以便在需要时可以恢复。 sudo cp 阅读全文

posted @ 2025-12-20 15:21 ARYOUOK 阅读(20) 评论(0) 推荐(0)

2025年12月14日

hive 分区表二级分区分区分桶表动态分区

摘要： -- 分区表 -- 分区表，动态分区 drop table db_hive1.t2a_trans purge; CREATE EXTERNAL TABLE t2a_trans ( TR_ID STRING COMMENT '交易流水号', CUST_ID STRING COMMENT '用户ID', 阅读全文

posted @ 2025-12-14 00:09 ARYOUOK 阅读(17) 评论(0) 推荐(0)

2025年12月8日

hive ddl dml hivesql命令大全

摘要： SELECT T.sname,T.ctfid,T.gender,t.address, count(*) OVER(PARTITION BY T.sname) AS FM_CNT FROM test_db.room3 T WHERE T.address like "%北京%" AND instr(T. 阅读全文

posted @ 2025-12-08 21:41 ARYOUOK 阅读(25) 评论(0) 推荐(0)

spark整合hive，spark连接hive spark on hive ,hive 与spark集成

摘要： 1、成功配置和启动Hadoop 集群 2、配置hive metastroge元数据服务 3、把hive config 里面的 hist-site.xml 文件拷贝到 spark config 目录下 4、启动spark sbin 路径下 start-thriftserver.sh 服务 5、使用数阅读全文

posted @ 2025-12-08 09:33 ARYOUOK 阅读(28) 评论(0) 推荐(0)

2025年11月29日

如何重新初始化hive3.1.1

摘要： # 1. 停止Hive服务 $HIVE_HOME/bin/hive --service metastore --stop pkill -f HiveServer2 # 2. 备份现有元数据（如果存在重要数据） mysqldump -u root -p hive_metastore > hive_me 阅读全文

posted @ 2025-11-29 12:40 ARYOUOK 阅读(13) 评论(0) 推荐(0)

2025年10月30日

oracle实现从当天回顾工作日前n天对应的具体工作日日期

摘要： SELECT day FROM ( SELECT day, SUM(CASE WHEN is_zm = 'N' THEN 1 ELSE 0 END) OVER (ORDER BY day DESC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) a 阅读全文

posted @ 2025-10-30 10:12 ARYOUOK 阅读(11) 评论(0) 推荐(0)

2025年9月4日

java 并行计算并行执行多任务多线程并行计算线程池封装并行池

摘要： package main.java.work; import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.concurrent.*; class parallel 阅读全文

posted @ 2025-09-04 23:50 ARYOUOK 阅读(14) 评论(0) 推荐(0)

2025年9月2日

python 多进程并行密集型计算，单参数于多参数的实例

摘要： import multiprocessing import time import numba as nb class parallelPool: def __init__(self,cpu_count:int=multiprocessing.cpu_count()): self.pool = mu 阅读全文

posted @ 2025-09-02 22:19 ARYOUOK 阅读(14) 评论(0) 推荐(0)

2025年8月27日

hadoop hdfs 命令大全

摘要： Hadoop HDFS 命令大全基本文件操作命令列出目录内容 hdfs dfs -ls <路径> hdfs dfs -ls -R <路径> # 递归列出创建目录 hdfs dfs -mkdir <路径> hdfs dfs -mkdir -p <路径> # 创建多级目录上传文件 hdfs df 阅读全文

posted @ 2025-08-27 21:46 ARYOUOK 阅读(117) 评论(0) 推荐(0)

2025年8月20日

python kmeans 无监督聚类，AUTO无监督聚类，KMeans图论联通图解法最小生成树，社交网络,one-hot编码进行无监督聚类

摘要： import os from collections import Counter import numpy as np import pandas as pd class autoKMeans: """K均值聚类算法实现类""" def __init__(self, n_clusters=3, m 阅读全文

posted @ 2025-08-20 22:54 ARYOUOK 阅读(11) 评论(0) 推荐(0)

2025年8月18日

java 实现KMeans无监督聚类算法,使用k-means++进行初始化聚类中心

摘要：步骤 1.种子随机：第一个点是随机的。 2.远近为纲：后续每个新质心的选择，都依赖于到当前所有已选质心的距离。 3.距离平方加权：使用平方距离度量“远近”并计算概率。 4.概率性偏袒远方：每个点的被选概率，与其到最近已有质心的距离平方成正比。距阅读全文

posted @ 2025-08-18 22:43 ARYOUOK 阅读(15) 评论(0) 推荐(0)

2025年8月8日

基于tensorflow1.9进行对文本进行分类，循环神经网络进行文本分类

摘要： import tensorflow as tf import numpy as np class TextClassifier: def __init__(self, vocab_size=10000, max_len=200, embedding_dim=128): tf.reset_defaul 阅读全文

posted @ 2025-08-08 10:49 ARYOUOK 阅读(8) 评论(0) 推荐(0)

2025年8月4日

python 实现无监督转有监督学 KMeans to SVM

摘要： import numpy as np from sklearn.cluster import KMeans,DBSCAN import pandas as pd from sklearn import datasets from sklearn.preprocessing import MaxAbs 阅读全文

posted @ 2025-08-04 22:25 ARYOUOK 阅读(9) 评论(0) 推荐(0)

2025年7月31日

熵权法数据公式推导python代码实现熵权法综合评价、风险评分法

摘要：熵权法是一种基于信息熵的客观赋权方法，其数学公式和计算步骤如下：数据标准化处理（消除量纲影响）：正向指标：$x_{ij}' = \frac{x_{ij} - \min(x_j)}{\max(x_j) - \min(x_j)}$ 负向指标：\(x_{ij}' = \frac{\max(x_j) 阅读全文

posted @ 2025-07-31 22:49 ARYOUOK 阅读(321) 评论(0) 推荐(0)

2025年7月17日

java apache Math 无监督谱聚类算法

摘要： package org.example; import org.apache.commons.math3.linear.*; import org.apache.commons.math3.ml.clustering.*; import org.apache.commons.math3.ml.dis 阅读全文

posted @ 2025-07-17 21:19 ARYOUOK 阅读(19) 评论(0) 推荐(0)

2025年7月15日

scala windows本地spark读取mysql8.0表插入远程hive3.0表 spark ETL mysql to hive

摘要： package main.scala.work import org.apache.spark.sql.{SaveMode, SparkSession} object MysqlToHive { def main(args: Array[String]): Unit = { // 1. 创建Spar 阅读全文

posted @ 2025-07-15 19:47 ARYOUOK 阅读(14) 评论(0) 推荐(0)

2025年7月14日

windows 本地spark连接远程hive3查询数据

摘要： package main.scala.work import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object connectHive { def main(args: Array[String]): 阅读全文

posted @ 2025-07-14 22:37 ARYOUOK 阅读(15) 评论(0) 推荐(0)

公告