摘要:
1. PySpark 是 Spark 为 Python 开发者提供的 API。 2. 基于PySpark的分布式项目主要由三部分组成,如图1所示,我们在开发自己的分布式程序时,只需要关注两部分,1是开发自己项目的PySpark代码,2是将该代码运行需要的环境进行打包。 下面的countNum.py即 阅读全文
posted @ 2024-05-27 15:29
是我菜了
阅读(175)
评论(0)
推荐(0)
摘要:
连接mysqlmysql -u algorithm -h xxx -P 11234 -pxxx 添加索引alter table wiki_update_info add index idx_url(url);查看阻塞进程 select * from information_schema.innodb 阅读全文
posted @ 2024-05-27 15:15
是我菜了
阅读(30)
评论(0)
推荐(0)
摘要:
hdfs dfs -mkdir /home/hdp-ait/wangwei22hdfs dfs -ls /home/hdp-ait/wangwei22hdfs dfs -du -h /home/hdp-ait/wangwei22hdfs dfs -touchz /home/hdp-ait/wangw 阅读全文
posted @ 2024-05-27 14:56
是我菜了
阅读(50)
评论(0)
推荐(0)
摘要:
1、拉取该镜像sudo docker pull ml-harbor.ops.qianxin-inc.cn/qaxgpt/transformers-pytorch-deepspeed-latest-gpu-ww-fa:latest2、创建容器,运行该镜像sudo docker run -t -i ml 阅读全文
posted @ 2024-05-27 14:55
是我菜了
阅读(72)
评论(0)
推荐(0)

浙公网安备 33010602011771号