向着朝阳 - 博客园

2026年1月24日

摘要：目录null1️⃣ 单机多实例 vs Ray 架构对比2️⃣ Ray 在部署架构中的作用3️⃣ 架构示意（文本版）4️⃣ 核心差异总结用一个query 说明白Ray在里面的工作1️⃣ 场景假设2️⃣ 请求处理流程3️⃣ 核心细节说明在微服务架构里，Ray 相当于 “请求路由组件 + 注册中心 + 阅读全文

posted @ 2026-01-24 11:28 向着朝阳阅读(4) 评论(0) 推荐(0)

vllm单机多卡（无Ray）部署架构

摘要：目录部署架构图1️⃣ 前提条件2️⃣ 多实例部署逻辑3️⃣ 注意事项在单 GPU 服务器上，如果单个 Qwen14B 模型实例需要 2 张 GPU，那么必须启动 4 个独立模型服务，每个服务绑定 2 张 GPU 并监听独立端口。这样才能充分利用 8 张 GPU 的算力，同时保证每个实例的 KV C 阅读全文

posted @ 2026-01-24 11:14 向着朝阳阅读(8) 评论(0) 推荐(0)

异构GPU架构（英伟达+华为升腾等）

摘要：目录异构GPU部署架构一、问题背景二、推荐架构三、架构设计逻辑四、实践注意事项五、工程价值二开的工作分布掌握理解 vLLM 底层源码， LLM 推理核心逻辑、KV Cache 管理、请求分发、batch 处理、TP/PP 支持等掌握其他 GPU / NPU 的规范和 API 学习周期是2-3个月阅读全文

posted @ 2026-01-24 11:08 向着朝阳阅读(9) 评论(0) 推荐(0)

国产GPU和英伟达部署和推理加速区别

摘要：目录1️⃣ 为什么必须学习不同厂商的技术？2️⃣ 学习成本 & 实际策略学习成本实际策略3️⃣ 面试 / 技术表述模板是的，如果你要在国产算力上部署 LLM 推理，几乎不可避免地需要掌握不同厂商的技术栈，原因和逻辑如下： 1️⃣ 为什么必须学习不同厂商的技术？国产 GPU / NPU 各家的硬件阅读全文

posted @ 2026-01-24 10:11 向着朝阳阅读(5) 评论(0) 推荐(0)

LoRA微调-挑战（3）-过拟合

摘要：目录解释：结论过拟合的几张原因的解决办法历史话术上表现很好但是新产品新话术预测明显下降验证集必须是时间切分一、问题本质：随机切分 vs 时间切分1️⃣ 随机切分的做法2️⃣ 时间切分的做法二、为什么时间切分更能发现过拟合三、具体操作方法过拟合的解决过拟合不是“没学好”，而是“学得太具体，泛化不好” 阅读全文

posted @ 2026-01-24 08:54 向着朝阳阅读(22) 评论(0) 推荐(0)

LoRA微调数据准备

摘要：目录适度引入包含错别字和口语表达的样本，作为噪声增强手段一、LoRA 微调数据集准备流程（工程版）Step 0：明确训练目标（非常关键）是否需要上下文。是否引入通用对话❌ 不需要通用对话的典型情况（也是推荐状态）三、什么时候【才需要】少量通用对话？✅ 场景 A：防止 LoRA 过拟合“只认业务词”✅ 阅读全文

posted @ 2026-01-24 08:51 向着朝阳阅读(10) 评论(0) 推荐(0)

2026年1月23日

Lora微调- Rank 参数设置

摘要：目录一、LoRA rank 的含义二、rank 太低 → 学不到细节三、rank 太高 → 容易记住训练集（过拟合）四、从训练指标判断 rank 是否合适五、可用面试回答模板rank太低一、先给一句总判断（面试可用）二、rank 太低时，验证集常见的 5 类问题1️⃣ 验证集准确率整体偏低（但 tr 阅读全文

posted @ 2026-01-23 22:23 向着朝阳阅读(14) 评论(0) 推荐(0)

LoRA微调-挑战（1）-标注一致性和任务边界不清

摘要：目录总结明确定义 label schema（互斥 / 可多选）一、总体设计原则（先说清楚“为什么这样分”）二、Intent Schema 定义（可直接写进标注文档）Intent 1：FACT_QUERY（功能性 / 数据型查询）1️⃣ Intent 定义（Definition）2️⃣ 触发条件（Wh 阅读全文

posted @ 2026-01-23 22:06 向着朝阳阅读(3) 评论(0) 推荐(0)

LoRA微调的挑战（二）

摘要：目录一、总起一句（非常关键）二、第一类问题：数据层面的挑战（最重要）1️⃣ 标注一致性和任务边界不清2️⃣ 多意图输入导致 label 表达困难三、第二类问题：模型与 LoRA 本身的限制3️⃣ LoRA 对“分类能力”提升有限4️⃣ 过拟合与泛化问题四、第三类问题：上线与推理阶段的问题（工程面）5 阅读全文

posted @ 2026-01-23 20:09 向着朝阳阅读(8) 评论(0) 推荐(0)

2026年1月22日

LoRA微调挑战

摘要：目录一、先给一个“安全开场白”（非常重要）二、LoRA 微调的核心挑战（面试官真正想听的）1️⃣ 数据质量远比数量重要（最大挑战）2️⃣ 过拟合和灾难性遗忘的平衡3️⃣ LoRA 注入位置选择困难4️⃣ 评估困难：loss 不等于效果5️⃣ 推理与部署复杂度被低估（生产级痛点）三、你“看过教程 + 阅读全文

posted @ 2026-01-22 16:46 向着朝阳阅读(5) 评论(0) 推荐(0)

aibi1

公告