摘要:
目录null1️⃣ 单机多实例 vs Ray 架构对比2️⃣ Ray 在部署架构中的作用3️⃣ 架构示意(文本版)4️⃣ 核心差异总结用一个query 说明白Ray在里面的工作1️⃣ 场景假设2️⃣ 请求处理流程3️⃣ 核心细节说明 在微服务架构里,Ray 相当于 “请求路由组件 + 注册中心 + 阅读全文
posted @ 2026-01-24 11:28
向着朝阳
阅读(4)
评论(0)
推荐(0)
摘要:
目录部署架构图1️⃣ 前提条件2️⃣ 多实例部署逻辑3️⃣ 注意事项 在单 GPU 服务器上,如果单个 Qwen14B 模型实例需要 2 张 GPU,那么必须启动 4 个独立模型服务,每个服务绑定 2 张 GPU 并监听独立端口。这样才能充分利用 8 张 GPU 的算力,同时保证每个实例的 KV C 阅读全文
posted @ 2026-01-24 11:14
向着朝阳
阅读(8)
评论(0)
推荐(0)
摘要:
目录异构GPU部署架构一、问题背景二、推荐架构三、架构设计逻辑四、实践注意事项五、工程价值二开的工作分布 掌握理解 vLLM 底层源码, LLM 推理核心逻辑、KV Cache 管理、请求分发、batch 处理、TP/PP 支持等 掌握其他 GPU / NPU 的规范和 API 学习周期是2-3个月 阅读全文
posted @ 2026-01-24 11:08
向着朝阳
阅读(9)
评论(0)
推荐(0)
摘要:
目录1️⃣ 为什么必须学习不同厂商的技术?2️⃣ 学习成本 & 实际策略学习成本实际策略3️⃣ 面试 / 技术表述模板 是的,如果你要在国产算力上部署 LLM 推理,几乎不可避免地需要掌握不同厂商的技术栈,原因和逻辑如下: 1️⃣ 为什么必须学习不同厂商的技术? 国产 GPU / NPU 各家的硬件 阅读全文
posted @ 2026-01-24 10:11
向着朝阳
阅读(5)
评论(0)
推荐(0)
摘要:
目录解释:结论过拟合的几张原因的解决办法历史话术上表现很好但是新产品新话术预测明显下降验证集必须是时间切分一、问题本质:随机切分 vs 时间切分1️⃣ 随机切分的做法2️⃣ 时间切分的做法二、为什么时间切分更能发现过拟合三、具体操作方法过拟合的解决 过拟合不是“没学好”,而是“学得太具体,泛化不好” 阅读全文
posted @ 2026-01-24 08:54
向着朝阳
阅读(22)
评论(0)
推荐(0)
摘要:
目录适度引入包含错别字和口语表达的样本,作为噪声增强手段一、LoRA 微调数据集准备流程(工程版)Step 0:明确训练目标(非常关键)是否需要上下文。是否引入通用对话❌ 不需要通用对话的典型情况(也是推荐状态)三、什么时候【才需要】少量通用对话?✅ 场景 A:防止 LoRA 过拟合“只认业务词”✅ 阅读全文
posted @ 2026-01-24 08:51
向着朝阳
阅读(10)
评论(0)
推荐(0)

浙公网安备 33010602011771号