上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 20 下一页
摘要: Falcon 180B是Falcon LLM家族的最新版本。它是最大的开源模型,拥有180B参数,并在更多的数据上进行训练 - 3.5T个令牌,上下文长度窗口最多为4K个令牌。在这个示例中,我们将展示如何在多GPU机器上使用DeepSpeed、Hugging Face Transformers、Lo 阅读全文
posted @ 2025-07-29 11:13 有何m不可 阅读(77) 评论(0) 推荐(0)
摘要: 一、点乘 卷积的底层逻辑就是点乘,点对点的相乘之后再相加 二、点乘的功效 1.衡量相似程度和影响程度,例如:5 * 3 = 15, 5 * 6 =30 所以 6对5的影响更大一些。 如果相比较数组A与 数组B、数组C哪个更相似 A序列 B序列 C序列 先做归一化处理或模长相等才有比较意义 举一个简单 阅读全文
posted @ 2025-07-28 16:16 有何m不可 阅读(51) 评论(0) 推荐(0)
摘要: 前言 DeepSpeed核心思想 DeepSpeed的核心就在于,GPU显存不够,CPU内存来凑。 比方说,我们只有一张10GB的GPU,那么我们很可能需要借助80GB的CPU,才能够训练一个大模型。 看一下官网对于这个理念的描述: Why would you want to use DeepSpe 阅读全文
posted @ 2025-07-24 15:42 有何m不可 阅读(223) 评论(0) 推荐(0)
摘要: 准备环境,并初始化项目目录 Python版本的MCP servers开发过程用uv管理是最连贯的,本文全程以uv命令演示。 # 1、安装uv curl -LsSf https://astral.sh/uv/install.sh | sh # 初始化项目目录 uv init mcp-calculato 阅读全文
posted @ 2025-07-23 09:41 有何m不可 阅读(327) 评论(0) 推荐(0)
摘要: 转自:https://mp.weixin.qq.com/s/OMpD6ITqNi4jX95nSRC2Ig 在人工智能的浪潮之巅,大型语言模型(LLM)的进化速度令人瞩目。然而,如何让这些模型不仅“能说”,更能“会道”,使其回答更符合人类的价值观、偏好和期望,成为了业界的核心挑战。为了实现这一目标,一 阅读全文
posted @ 2025-07-22 16:21 有何m不可 阅读(8081) 评论(0) 推荐(0)
摘要: 转自:https://2048.csdn.net/682c359d606a8318e8581619.html 在 DeepSpeed 中进行多机多卡训练时,需要进行以下几方面的配置和设置: 1. 设置主节点和节点之间的通信 为了使各节点(机器)能够相互通信,你需要设置主节点的地址和端口。DeepSp 阅读全文
posted @ 2025-07-17 13:59 有何m不可 阅读(265) 评论(0) 推荐(0)
摘要: 转自:https://blog.csdn.net/zwqjoy/article/details/138274598 优化器和调度器当不使用offload_optimizer 时,可以按照下表,混合使用HF和DS的优化器和迭代器,除了HF Scheduler和DS Optimizer这一种情况。 Co 阅读全文
posted @ 2025-07-17 13:43 有何m不可 阅读(140) 评论(0) 推荐(0)
摘要: 均匀量化是一种将连续范围的数值(比如浮点数)转换为有限个离散值的过程,类似于用有限的 “箱子” 去装无限的数值。想象你有一堆不同身高的人(连续值),但你只能用几个固定的身高区间(比如 “150-160cm”、“160-170cm” 等)去分类他们,这就是量化的基本思想。 关键概念类比 缩放因子(Sc 阅读全文
posted @ 2025-07-11 17:14 有何m不可 阅读(62) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/990958034 Fine-tuning (微调),是指在新数据集上调整预训练模型的权重,从而提高模型在特定领域,或特定任务上的性能。下图演示了这一过程: LoRA 是近年来对大模型最重要的贡献之一,它通过只修改模型一小部分的参数,重 阅读全文
posted @ 2025-07-11 12:09 有何m不可 阅读(1626) 评论(0) 推荐(0)
摘要: 一、LoRA原理 转自:https://zhuanlan.zhihu.com/p/702629428 LoRA(Low-Rank Adaptation of LLMs),即LLMs的低秩适应,是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所得的增量参数,从而达 阅读全文
posted @ 2025-07-10 12:10 有何m不可 阅读(1371) 评论(0) 推荐(1)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 20 下一页