向着朝阳 - 博客园

2026年1月23日

摘要：目录一、LoRA rank 的含义二、rank 太低 → 学不到细节三、rank 太高 → 容易记住训练集（过拟合）四、从训练指标判断 rank 是否合适五、可用面试回答模板rank太低一、先给一句总判断（面试可用）二、rank 太低时，验证集常见的 5 类问题1️⃣ 验证集准确率整体偏低（但 tr 阅读全文

posted @ 2026-01-23 22:23 向着朝阳阅读(76) 评论(0) 推荐(0)

LoRA微调-挑战（1）-标注一致性和任务边界不清

摘要：目录总结明确定义 label schema（互斥 / 可多选）一、总体设计原则（先说清楚“为什么这样分”）二、Intent Schema 定义（可直接写进标注文档）Intent 1：FACT_QUERY（功能性 / 数据型查询）1️⃣ Intent 定义（Definition）2️⃣ 触发条件（Wh 阅读全文

posted @ 2026-01-23 22:06 向着朝阳阅读(7) 评论(0) 推荐(0)

LoRA微调的挑战（二）

摘要：目录一、总起一句（非常关键）二、第一类问题：数据层面的挑战（最重要）1️⃣ 标注一致性和任务边界不清2️⃣ 多意图输入导致 label 表达困难三、第二类问题：模型与 LoRA 本身的限制3️⃣ LoRA 对“分类能力”提升有限4️⃣ 过拟合与泛化问题四、第三类问题：上线与推理阶段的问题（工程面）5 阅读全文

posted @ 2026-01-23 20:09 向着朝阳阅读(14) 评论(0) 推荐(0)

2026年1月22日

LoRA微调挑战

摘要：目录一、先给一个“安全开场白”（非常重要）二、LoRA 微调的核心挑战（面试官真正想听的）1️⃣ 数据质量远比数量重要（最大挑战）2️⃣ 过拟合和灾难性遗忘的平衡3️⃣ LoRA 注入位置选择困难4️⃣ 评估困难：loss 不等于效果5️⃣ 推理与部署复杂度被低估（生产级痛点）三、你“看过教程 + 阅读全文

posted @ 2026-01-22 16:46 向着朝阳阅读(18) 评论(0) 推荐(0)

AI技术+短剧

摘要：目录先拆解这个岗位的核心要求，帮你看清「门槛在哪、你的优势在哪、补什么就行」关键结论：这个岗位的「门槛」是AI技术+短剧行业认知，而非「创作能力」，对你是低适配成本快速适配的3个核心动作（1-2周就能落地，能直接写进简历/面试展示）1. 选准多模态工具，深耕「技术落地」而非创作（不用全学，精2个就够阅读全文

posted @ 2026-01-22 11:15 向着朝阳阅读(115) 评论(0) 推荐(0)

2026年1月21日

vllm实战- 解决TTFT响应慢的问题

摘要：目录大 batch token + seq → 模型一次计算更多 token GPU kernel / tensor parallel 高效运行 → 单条请求的等待时间被 amortized（摊薄）因此单条请求 TTFT 中位反而下降 📊 Benchmark 测试 max-num-seqs 阅读全文

posted @ 2026-01-21 17:57 向着朝阳阅读(27) 评论(0) 推荐(0)

max-num-batched-tokens计算方法

摘要：目录1️⃣ 参数本质回顾2️⃣ 理论计算方法3️⃣ 一般范围seq计算1️⃣ KV cache 本质2️⃣ 假设参数3️⃣ 代入公式4️⃣ 面试说明点明白，你想深入了解 --max-num-batched-tokens 的范围和计算方法，不仅是经验值，也要能理性说明。我们分步骤分析。 1️⃣ 参数阅读全文

posted @ 2026-01-21 17:07 向着朝阳阅读(175) 评论(0) 推荐(0)

2026年1月20日

高级推理优化技术-SGLang

摘要：目录一、vLLM + Ray 的能力二、vLLM + Ray 的局限性三、SGLang 提供的额外价值四、总结你的问题很实际，我来系统说明一下：为什么 vLLM + Ray 对大部分场景已经够用，但有些场景仍然会考虑 SGLang。一、vLLM + Ray 的能力 vLLM 高效单机 / 多 G 阅读全文

posted @ 2026-01-20 18:55 向着朝阳阅读(90) 评论(0) 推荐(0)

高级推理优化技术-MLA

摘要：目录一、核心关系二、MLA 在 vLLM 中的应用点三、使用方式四、总结 MLA（Memory & Latency Aware / Memory Layout Aware）是大模型推理的高级优化策略，主要针对高 QPS 或长上下文、超大模型部署的场景。它不是入门级开发必须掌握的内容。明白，你想知阅读全文

posted @ 2026-01-20 18:46 向着朝阳阅读(152) 评论(0) 推荐(0)

推理加速-高阶- Speculative Decoding

摘要：目录一、vLLM 的本职功能二、如何在 vLLM 上实现 Speculative Decoding三、工程可行性四、总结答案是支持扩展，但不是开箱就有，需要自己做一些集成和改造。详细分析如下：一、vLLM 的本职功能 vLLM 主要提供：高效推理： KV Cache 管理 FlashAtte 阅读全文

posted @ 2026-01-20 18:40 向着朝阳阅读(24) 评论(0) 推荐(0)

aibi1

公告