摘要: 在OpenAI的GPT,Meta的Llama和Google的BERT等大型语言模型(LLM)发布之后,它们可以生成类似人类的文本,理解上下文并执行广泛的自然语言处理(NLP)任务。LLM将彻底改变我们构建和维护人工智能系统和产品的方式。因此,一种被称为“LLMOps”的新方法已经发展并成为每个AI 阅读全文
posted @ 2024-03-02 10:09 muzinan110 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 2、go-kit三层结构 go-kit和MVC一样也有三层结构endpoint,service, transport,通过这三层结构来实现,接收一个请求,然后返回一个结果。 1.Transport Transport处于该微服务的最上层,主要负责于HTTP, gRPC,thrift等相关的逻辑,负责 阅读全文
posted @ 2024-02-25 10:30 muzinan110 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 分布式计算框架Ray 当我们要构建一个涉及大规模数据处理或者复杂计算的应用,传统的方式是使用现成的大数据框架,例如 Apache Flink 和 Apache Spark。这些系统提供的API通常基于某种特定的计算范式(例如DataStream、DataSet),要求用户基于这些特定的计算范式实现应 阅读全文
posted @ 2024-02-25 09:36 muzinan110 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 下图展示了 Koordinator 系统的整体架构和各组件的角色分工,其中绿色部分描述了 K8s 原生系统的各个组件,蓝色部分是 Koordinator 在此基础上的扩展实现。从整个系统架构来看,我们可以将 Koordinator 分为中心管控和单机资源管理两个维度。在中心侧,Koordiantor 阅读全文
posted @ 2024-02-25 09:35 muzinan110 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 架构 - Queue - Queue是容纳一组PodGroup的队列,也是PodGroup获取集群资源的划分依据。 - PodGroup - PodGroup是一组强关联的pod,对应批处理workload。 - VolcanoJob - VolcanoJob(vcjob)是自定义的Job资源类型, 阅读全文
posted @ 2024-02-25 09:31 muzinan110 阅读(103) 评论(0) 推荐(0) 编辑
摘要: Kubeflow核心组件 notebook(JupyterHub) - 大多数项目的第一步是某种形式的原型设计和实验。Kubeflow用于原型设计和实验的工具是JupyterHub(https://jupyter.org/hub),这是一个多用户中心,可以生成、管理和代理单用户Jupyter not 阅读全文
posted @ 2024-02-25 09:21 muzinan110 阅读(56) 评论(0) 推荐(0) 编辑
摘要: TensorFlow,这是个很形象的比喻,意思是 张量(Tensor)在神经网络中流动(Flow)。 在数学中,张量是一种几何实体(对应的有一个概念叫矢量),广义上可以表示任何形式的数据。在NumPy等数学计算库或TensorFlow等深度学习库中,我们通常使用多维数组来描述张量,所以不能叫做矩阵, 阅读全文
posted @ 2024-02-25 09:17 muzinan110 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 架构 Horovod主要由数据通信层、通信控制层、深度学习框架接口层、启动层四部分组成。其中启动层通过horovodrun或mpirun启动训练进程,之后每个训练进程通过调用TensorFLow、PyTorch、MXNet等框架(python train.py)进行单个结点的数据输入、参数更新,在每 阅读全文
posted @ 2024-02-25 09:12 muzinan110 阅读(14) 评论(0) 推荐(0) 编辑
摘要: Fluid 系统架构 Fluid 是构建在 K8s 上的系统,对原生 K8s 具备良好的兼容性,无需修改任意代码。如上图所示,用户需要定义两个 CRD,分别是 Dataset 和 Runtime。Dataset 是数据集的通用定义,这是我们提供的 K8s 资源对象,需要写 YAML 文件来定义数据集 阅读全文
posted @ 2024-02-25 09:07 muzinan110 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 在Kubernetes的标准框架里,容器是只有1个网络平面的。即容器里面,只有1个eth0网卡。所以无论是利用overlay实现容器隧道网络,还是underlay实现容器网络直通,其目的都是解决容器网络“通与不通”的问题。 而大规模AI集群中,百亿、千亿级别参数量的大模型通常需要做分布式训练,这时参 阅读全文
posted @ 2024-02-25 07:14 muzinan110 阅读(31) 评论(0) 推荐(0) 编辑