1 2 3 4 5 ··· 16 下一页
摘要: 下面是部分机器学习的案例,合适入门的朋友学习,有numpy、pandas、matplotlib、scipy、skearn、TensorFlow等库的基本案例教程。 阅读全文
posted @ 2018-09-12 15:17 ARYOUOK 阅读(908) 评论(0) 推荐(0)
摘要: 下面就不一一列举了,所有的资料都和GitHub对接,到时候我有更新就直接拖到GitHub上面了。入门的小伙伴们可以进来看看,估计后面还会有很多项目,待更新。 阅读全文
posted @ 2018-09-12 11:15 ARYOUOK 阅读(428) 评论(0) 推荐(0)
摘要: package scala.learningRDD import org.apache.spark.SparkContext import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.rdd.RDD 阅读全文
posted @ 2026-01-03 01:42 ARYOUOK 阅读(6) 评论(0) 推荐(0)
摘要: package scala.learningRDD import org.apache.spark.SparkContext import org.apache.spark.broadcast.Broadcast import org.apache.spark.mllib.linalg.{Vecto 阅读全文
posted @ 2026-01-03 00:52 ARYOUOK 阅读(7) 评论(0) 推荐(0)
摘要: package scala import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} object wordCountTest { def main(args: Array[String 阅读全文
posted @ 2025-12-28 13:23 ARYOUOK 阅读(5) 评论(0) 推荐(0)
摘要: 1、Scala代码编译打包 package scala import org.apache.spark.sql.SparkSession import scala.math.random object excutpi { def main(args: Array[String]): Unit = { 阅读全文
posted @ 2025-12-27 21:07 ARYOUOK 阅读(6) 评论(0) 推荐(0)
摘要: #!/bin/bash # 判断参数个数 if [ $# -lt 1 ] then echo "使用方法: ./myhadoop.sh {start|stop}" exit fi case $1 in "start") echo " 启动 Hadoop 集群 " echo " 启动 HDFS " # 阅读全文
posted @ 2025-12-25 21:54 ARYOUOK 阅读(9) 评论(0) 推荐(0)
摘要: SELECT T.sname,T.ctfid,T.gender,t.address, count(*) OVER(PARTITION BY T.sname) AS FM_CNT FROM test_db.room3 T WHERE T.address like "%北京%" AND instr(T. 阅读全文
posted @ 2025-12-25 20:47 ARYOUOK 阅读(31) 评论(0) 推荐(0)
摘要: -- 优化方法 -- common join -- 正常关联逻辑 -- mapjoin 通过广播小表到内存中进行优化 -- bucket map join -- 通过分桶 广播大表到内存中进行优化 -- sort merge bucket map join -- 通过分桶 成 倍数的关系 进行优化 阅读全文
posted @ 2025-12-24 23:00 ARYOUOK 阅读(9) 评论(0) 推荐(0)
摘要: #先配置免密登录 ssh-keygen -t rsa -P '' ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop01 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop02 ssh-copy-id -i ~/.s 阅读全文
posted @ 2025-12-20 16:40 ARYOUOK 阅读(7) 评论(0) 推荐(0)
摘要: 在CentOS 7 Minimal系统上配置国内镜像源,确实是提升软件包下载速度和系统可用性的关键一步,尤其考虑到CentOS 7已于2024年6月停止官方更新支持。下面为你梳理详细的操作流程和注意事项。 🔧 更换镜像源步骤 备份现有源配置 这是一个好习惯,以便在需要时可以恢复。 sudo cp 阅读全文
posted @ 2025-12-20 15:21 ARYOUOK 阅读(20) 评论(0) 推荐(0)
摘要: -- 分区表 -- 分区表,动态分区 drop table db_hive1.t2a_trans purge; CREATE EXTERNAL TABLE t2a_trans ( TR_ID STRING COMMENT '交易流水号', CUST_ID STRING COMMENT '用户ID', 阅读全文
posted @ 2025-12-14 00:09 ARYOUOK 阅读(17) 评论(0) 推荐(0)
摘要: SELECT T.sname,T.ctfid,T.gender,t.address, count(*) OVER(PARTITION BY T.sname) AS FM_CNT FROM test_db.room3 T WHERE T.address like "%北京%" AND instr(T. 阅读全文
posted @ 2025-12-08 21:41 ARYOUOK 阅读(25) 评论(0) 推荐(0)
摘要: 1、成功配置和启动Hadoop 集群 2、配置hive metastroge元数据 服务 3、把hive config 里面的 hist-site.xml 文件拷贝到 spark config 目录下 4、启动spark sbin 路径下 start-thriftserver.sh 服务 5、使用数 阅读全文
posted @ 2025-12-08 09:33 ARYOUOK 阅读(28) 评论(0) 推荐(0)
摘要: # 1. 停止Hive服务 $HIVE_HOME/bin/hive --service metastore --stop pkill -f HiveServer2 # 2. 备份现有元数据(如果存在重要数据) mysqldump -u root -p hive_metastore > hive_me 阅读全文
posted @ 2025-11-29 12:40 ARYOUOK 阅读(13) 评论(0) 推荐(0)
摘要: SELECT day FROM ( SELECT day, SUM(CASE WHEN is_zm = 'N' THEN 1 ELSE 0 END) OVER (ORDER BY day DESC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) a 阅读全文
posted @ 2025-10-30 10:12 ARYOUOK 阅读(11) 评论(0) 推荐(0)
摘要: package main.java.work; import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.concurrent.*; class parallel 阅读全文
posted @ 2025-09-04 23:50 ARYOUOK 阅读(14) 评论(0) 推荐(0)
摘要: import multiprocessing import time import numba as nb class parallelPool: def __init__(self,cpu_count:int=multiprocessing.cpu_count()): self.pool = mu 阅读全文
posted @ 2025-09-02 22:19 ARYOUOK 阅读(14) 评论(0) 推荐(0)
摘要: Hadoop HDFS 命令大全 基本文件操作命令 列出目录内容 hdfs dfs -ls <路径> hdfs dfs -ls -R <路径> # 递归列出 创建目录 hdfs dfs -mkdir <路径> hdfs dfs -mkdir -p <路径> # 创建多级目录 上传文件 hdfs df 阅读全文
posted @ 2025-08-27 21:46 ARYOUOK 阅读(117) 评论(0) 推荐(0)
摘要: import os from collections import Counter import numpy as np import pandas as pd class autoKMeans: """K均值聚类算法实现类""" def __init__(self, n_clusters=3, m 阅读全文
posted @ 2025-08-20 22:54 ARYOUOK 阅读(11) 评论(0) 推荐(0)
摘要: 步骤 1.种子随机:​​ 第一个点是随机的。 2.​​远近为纲:​​ 后续每个新质心的选择,都​​依赖​​于到​​当前所有已选质心​​的距离。 3.​​距离平方加权:​​ 使用平方距离度量“远近”并计算概率。 4.概率性偏袒远方:​​ 每个点的被选概率,与其到最近已有质心的距离平方​​成正比​​。距 阅读全文
posted @ 2025-08-18 22:43 ARYOUOK 阅读(15) 评论(0) 推荐(0)
摘要: import tensorflow as tf import numpy as np class TextClassifier: def __init__(self, vocab_size=10000, max_len=200, embedding_dim=128): tf.reset_defaul 阅读全文
posted @ 2025-08-08 10:49 ARYOUOK 阅读(8) 评论(0) 推荐(0)
摘要: import numpy as np from sklearn.cluster import KMeans,DBSCAN import pandas as pd from sklearn import datasets from sklearn.preprocessing import MaxAbs 阅读全文
posted @ 2025-08-04 22:25 ARYOUOK 阅读(9) 评论(0) 推荐(0)
摘要: 熵权法是一种基于信息熵的客观赋权方法,其数学公式和计算步骤如下: 数据标准化处理(消除量纲影响): 正向指标:\(x_{ij}' = \frac{x_{ij} - \min(x_j)}{\max(x_j) - \min(x_j)}\) 负向指标:\(x_{ij}' = \frac{\max(x_j) 阅读全文
posted @ 2025-07-31 22:49 ARYOUOK 阅读(321) 评论(0) 推荐(0)
摘要: package org.example; import org.apache.commons.math3.linear.*; import org.apache.commons.math3.ml.clustering.*; import org.apache.commons.math3.ml.dis 阅读全文
posted @ 2025-07-17 21:19 ARYOUOK 阅读(19) 评论(0) 推荐(0)
摘要: package main.scala.work import org.apache.spark.sql.{SaveMode, SparkSession} object MysqlToHive { def main(args: Array[String]): Unit = { // 1. 创建Spar 阅读全文
posted @ 2025-07-15 19:47 ARYOUOK 阅读(14) 评论(0) 推荐(0)
摘要: package main.scala.work import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object connectHive { def main(args: Array[String]): 阅读全文
posted @ 2025-07-14 22:37 ARYOUOK 阅读(15) 评论(0) 推荐(0)
1 2 3 4 5 ··· 16 下一页