embeding模型选择
目录
【结论】
高性能,语义不太复杂的场景 -选择MiniLM 6L/12L. 12L是12层的意思
中等性能,中等意义复杂度选择 - Sentence-BERT
语义很复杂:Qwen-embedding-large 或者 ext-embedding-3-large(效果更好,但是更贵)
向量化算法选择
| 模型 | 语种 | 语义理解能力 | 文档复杂度 | 适合场景 | 并发量参考 (QPS) | 延迟 | 优势 | 注意点 |
|---|---|---|---|---|---|---|---|---|
| MiniLM-L6 / L12 | 中文 / 英文 | 简单–中等 | FAQ、产品手册短段落 | 高频简单问答 | 高 (>500) | 低 (<50ms 本地) | 快速、显存低、本地部署 | 长文本语义不足,复杂问题召回低 |
| MPNet / Sentence-BERT 中文版 | 中文 / 英文 | 中等 | FAQ、话术、手册 | 中等复杂问题 | 中–高 (100–500) | 中等 (~50–100ms 本地) | 精度比 MiniLM 高,支持中等复杂语义 | 长文本仍需分段,模型体积大 |
| Qwen-embedding-large | 中文 / 英文 | 高 | FAQ、手册、聊天记录、长文档 | 中高复杂语义,长尾问题 | 中 (50–200) | 中 (~100–200ms API) | 中文优化好,长文本语义理解强 | API 调用成本高,高并发需缓存或异步处理 |
| text-embedding-3-large | 中文 / 英文 | 极高 | FAQ、手册、聊天记录、复杂文档 | 高复杂语义,长尾问题 | 中 (50–200) | 中 (~100–250ms API) | 通用语义能力强,多语言表现极佳 | 成本高,依赖网络,延迟比本地模型大 |
| Chinese BERT / RoBERTa + Pooling | 中文 | 中等 | FAQ、手册 | 中等复杂问题 | 高 (>500) | 低 (<50ms 本地) | 本地部署,自主可控,成本低 | 精度不如大模型,长文本语义匹配有限 |
| Wudao / Fengshen Embedding | 中文 | 高 | FAQ、长文本、复杂文档 | 高复杂语义,长尾问题 | 中 (50–200) | 中 (~100–200ms) | 中文优化大模型,长尾问题能力强 | 模型大,部署成本高,需要 GPU |

浙公网安备 33010602011771号