上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 81 下一页
摘要: 目录为什么需求请求合并和分优先级1️⃣ 为什么需要 优先级队列(Priority Queue)场景示例2️⃣ 为什么需要 请求合并(Batching / Merging)a. 控制 batch 策略b. 高级调度策略3️⃣ 总结1️⃣ Ray 能做什么2️⃣ 工作流程示意3️⃣ 为什么用 Ray 而 阅读全文
posted @ 2026-01-16 16:06 向着朝阳 阅读(22) 评论(0) 推荐(0)
摘要: 目录null二、你这个场景的“硬指标”已知三、第一层:全局入口 QPS 限流(兜底)四、第二层:按上下文池限流(最重要)2048 上下文池4096 上下文池五、第三层:token 级限流(真正专业的做法)为什么 QPS 不够?Token Bucket(推荐)对你这个系统:六、第四层:用户 / 租户限 阅读全文
posted @ 2026-01-16 15:24 向着朝阳 阅读(21) 评论(0) 推荐(0)
摘要: 目录同一个模型尺寸在生产部署不同的上下文规格(max-model-len)的集群。案例。 智能客服 400QPS,峰值500QPS,每个query,平均1k token。 在高并发场景下 同一个模型尺寸在生产部署不同的上下文规格(max-model-len)的集群。 比如 max-model-len 阅读全文
posted @ 2026-01-16 13:21 向着朝阳 阅读(5) 评论(0) 推荐(0)
摘要: 目录总结一句话精确定义二、为什么它对显存影响这么大(核心原因)KV Cache 的分配方式是:三、区分三个“容易混淆”的长度概念四、举一个非常具体的例子场景请求 A请求 B五、为什么“输入很短也 OOM”?六、在生产环境的正确使用方式1️⃣ 服务端(vLLM 启动参数)2️⃣ 客户端(API 侧约束 阅读全文
posted @ 2026-01-16 12:25 向着朝阳 阅读(434) 评论(0) 推荐(0)
摘要: 目录一、背景问题:为什么“传统 batching”在 LLM 推理中失效1. Prefill 与 Decode 阶段差异巨大2. Padding 浪费极其严重二、vLLM 的核心思想:把“批”变成“流”三、Continuous Batching 的工作机制(关键原理)1. Token-Level 执 阅读全文
posted @ 2026-01-15 19:28 向着朝阳 阅读(182) 评论(0) 推荐(0)
摘要: 目录一、大模型微调数据分布(你提到的情况)二、小模型微调(MiniLM / DistilBERT 等)三、微调策略差异总结四、总结建议 不完全一样。MiniLM(或其他小模型)和 QWEN-14B 这样的超大模型在微调时对数据分布的要求是不同的,原因主要有模型容量和学习能力差异。我们来分析一下。 一 阅读全文
posted @ 2026-01-15 11:46 向着朝阳 阅读(13) 评论(0) 推荐(0)
摘要: 目录一、测试目标二、AB 测试设计三、执行流程四、评估与决策五、面试表述要点 可以把 AB 测试过程拆成场景、设计、执行、评估四个环节,讲得既专业又面试友好。我帮你整理一个清晰的回答思路: 一、测试目标 例:调优 MiniLM 一级意图识别的最小置信度阈值,以在保证准确度 ≥ 业务底线的前提下,最大 阅读全文
posted @ 2026-01-15 11:10 向着朝阳 阅读(4) 评论(0) 推荐(0)
摘要: 目录一、你提的替代方法二、优点三、风险 / 缺点四、工业实践建议五、总结 可以,但要注意准确度的定义和误差控制。我帮你分析一下: 一、你提的替代方法 分子 = AB 测试参与的 query 总数 − 转人工 − 点踩 − 重复提问 也就是用业务 proxy 信号替代人工标注,推算最终正确的 quer 阅读全文
posted @ 2026-01-15 10:58 向着朝阳 阅读(15) 评论(0) 推荐(0)
摘要: 目录 完全正确,你理解得很到位。可以进一步明确: Triton 的通用性 Triton 并不限于大语言模型(LLM),它本质上是一个 企业级推理服务框架,支持各种深度学习模型。 支持的模型类型包括: CV 模型:ResNet、YOLO、Segmentation 等 NLP 模型:BERT、MiniL 阅读全文
posted @ 2026-01-15 09:48 向着朝阳 阅读(65) 评论(0) 推荐(0)
摘要: 目录概念max_tokens1 限流二、AI 网关里的“限流”其实分三类(很关键)1️⃣ 资源限流(QPS / 并发)2️⃣ 容量限流(Token Budget) ← 你这个属于这里3️⃣ 策略限流(业务规则)三、AI 网关里“正确”的写法是什么样?1️⃣ 不直接 raise,而是“标准化拒绝”2 阅读全文
posted @ 2026-01-15 08:55 向着朝阳 阅读(42) 评论(0) 推荐(0)
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 81 下一页