embeding模型选择

【结论】

高性能，语义不太复杂的场景 -选择MiniLM 6L/12L. 12L是12层的意思
中等性能，中等意义复杂度选择 - Sentence-BERT
语义很复杂：Qwen-embedding-large 或者 ext-embedding-3-large（效果更好，但是更贵）

向量化算法选择

模型	语种	语义理解能力	文档复杂度	适合场景	并发量参考 (QPS)	延迟	优势	注意点
MiniLM-L6 / L12	中文 / 英文	简单–中等	FAQ、产品手册短段落	高频简单问答	高 (>500)	低 (<50ms 本地)	快速、显存低、本地部署	长文本语义不足，复杂问题召回低
MPNet / Sentence-BERT 中文版	中文 / 英文	中等	FAQ、话术、手册	中等复杂问题	中–高 (100–500)	中等 (~50–100ms 本地)	精度比 MiniLM 高，支持中等复杂语义	长文本仍需分段，模型体积大
Qwen-embedding-large	中文 / 英文	高	FAQ、手册、聊天记录、长文档	中高复杂语义，长尾问题	中 (50–200)	中 (~100–200ms API)	中文优化好，长文本语义理解强	API 调用成本高，高并发需缓存或异步处理
text-embedding-3-large	中文 / 英文	极高	FAQ、手册、聊天记录、复杂文档	高复杂语义，长尾问题	中 (50–200)	中 (~100–250ms API)	通用语义能力强，多语言表现极佳	成本高，依赖网络，延迟比本地模型大
Chinese BERT / RoBERTa + Pooling	中文	中等	FAQ、手册	中等复杂问题	高 (>500)	低 (<50ms 本地)	本地部署，自主可控，成本低	精度不如大模型，长文本语义匹配有限
Wudao / Fengshen Embedding	中文	高	FAQ、长文本、复杂文档	高复杂语义，长尾问题	中 (50–200)	中 (~100–200ms)	中文优化大模型，长尾问题能力强	模型大，部署成本高，需要 GPU

posted @ 2026-01-12 16:37 向着朝阳阅读(63) 评论(0) 收藏举报

刷新页面返回顶部