摘要: 文件操作命令 find find 用于在指定目录下查找文件或子目录,如果不指定查找目录,则在当前目录下查找 命令格式:find path -option [-print] [ -exec/-ok command {} \ ]; 「print」:将匹配的文件输出到标准输出 「exec」:对匹配的文件作 阅读全文
posted @ 2021-07-24 15:06 牛奔 阅读(913) 评论(1) 推荐(1) 编辑
摘要: 依赖安装 准备工作需要在所有节点上进行。 安装 ssh 服务 安装 openssh-server sudo apt-get install openssh-server 修改配置文件 vim /etc/ssh/sshd_config 找到配置项 LoginGraceTime 120PermitRoo 阅读全文
posted @ 2024-04-28 20:14 牛奔 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 前言 ​当要从非安全的镜像仓库中进行 Pull、Push 时,会遇到 x509: certificate signed by unknown authority 错误提示; 这是由于镜像仓库是可能是 http 服务,或者 https 的证书是自签名的就会出现这个问题。 Containerd 可以配置 阅读全文
posted @ 2024-04-28 19:11 牛奔 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 前言 AI 落地时,在某些场景下 AI 模型在训练或者是推理时,其算力要求不需要占用整卡的 GPU,比如只需要0.5卡 GPU 即可满足需求。 在这种情况下,可以使用 GPU 虚拟化技术来解决这个问题,将整卡的 GPU 虚拟化为两个0.5卡的 GPU,这样就可以在一张卡上同时跑两个 AI 训练或者 阅读全文
posted @ 2024-04-26 19:49 牛奔 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 前言 Kubernetes 集群中 Docker 如何使用 GPU,请看这一篇 docker配置Nvidia环境,使用GPU 本文着重讲 Containerd 如何作为容器运行时来使用 GPU CRI Plugin Config Guide CRI 插件配置指南 https://github.com 阅读全文
posted @ 2024-04-25 09:04 牛奔 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 前言 需要 nvdia driver 安装好,请参考 Ubuntu Nvidia driver驱动安装及卸载 docker 安装 配置 apt 阿里云的镜像源 sudo curl -fsSL https://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg 阅读全文
posted @ 2024-04-25 09:03 牛奔 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 下载官方驱动安装 1.安装驱动前一定要更新软件列表和安装必要软件、依赖(必须) sudo apt-get update #更新软件列表 sudo apt-get install g++ sudo apt-get install gcc sudo apt-get install make 2.查看GP 阅读全文
posted @ 2024-04-23 09:46 牛奔 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 前言 在搭建好 kubernetes 环境后,master 节点拥有 control-plane 权限,可以正常使用 kubectl。 但其他 node 节点无法使用 kubectl 命令,即使同步过去 /root/.kube/config 文件到各个 node 节点上,也不行。 解决 检查 KUB 阅读全文
posted @ 2024-04-22 14:22 牛奔 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 前言 配置 calico 网络插件时,kubectl get node 报错: NoReady kubectl describe node node Name: node Roles: <none> Labels: beta.kubernetes.io/arch=amd64 beta.kuberne 阅读全文
posted @ 2024-04-22 13:57 牛奔 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 前言 ab是apachebench命令的缩写,ab是apache自带的压力测试工具。ab非常实用,它不仅可以对apache服务器进行网站访问压力测试,也可以对或其它类型的服务器进行压力测试。比如nginx、tomcat、IIS等。 ab的原理:ab命令会创建多个并发访问线程,模拟多个访问者同时对某一 阅读全文
posted @ 2024-04-17 09:39 牛奔 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 前言 kubeadm 生成的客户端证书在 1 年后到期。过期后,会导致服务不可用,使用过程中会出现:x509: certificate has expired or is not yet valid. 默认情况下,kubeadm 会生成运行一个集群所需的全部证书。但要使用自定义的证书,需要生成各个组 阅读全文
posted @ 2024-04-08 09:13 牛奔 阅读(24) 评论(0) 推荐(0) 编辑