embeding模型选择

目录

    【结论】

    高性能,语义不太复杂的场景 -选择MiniLM 6L/12L. 12L是12层的意思
    中等性能,中等意义复杂度选择 - Sentence-BERT
    语义很复杂:Qwen-embedding-large 或者 ext-embedding-3-large(效果更好,但是更贵)

    向量化算法选择

    模型 语种 语义理解能力 文档复杂度 适合场景 并发量参考 (QPS) 延迟 优势 注意点
    MiniLM-L6 / L12 中文 / 英文 简单–中等 FAQ、产品手册短段落 高频简单问答 高 (>500) 低 (<50ms 本地) 快速、显存低、本地部署 长文本语义不足,复杂问题召回低
    MPNet / Sentence-BERT 中文版 中文 / 英文 中等 FAQ、话术、手册 中等复杂问题 中–高 (100–500) 中等 (~50–100ms 本地) 精度比 MiniLM 高,支持中等复杂语义 长文本仍需分段,模型体积大
    Qwen-embedding-large 中文 / 英文 FAQ、手册、聊天记录、长文档 中高复杂语义,长尾问题 中 (50–200) 中 (~100–200ms API) 中文优化好,长文本语义理解强 API 调用成本高,高并发需缓存或异步处理
    text-embedding-3-large 中文 / 英文 极高 FAQ、手册、聊天记录、复杂文档 高复杂语义,长尾问题 中 (50–200) 中 (~100–250ms API) 通用语义能力强,多语言表现极佳 成本高,依赖网络,延迟比本地模型大
    Chinese BERT / RoBERTa + Pooling 中文 中等 FAQ、手册 中等复杂问题 高 (>500) 低 (<50ms 本地) 本地部署,自主可控,成本低 精度不如大模型,长文本语义匹配有限
    Wudao / Fengshen Embedding 中文 FAQ、长文本、复杂文档 高复杂语义,长尾问题 中 (50–200) 中 (~100–200ms) 中文优化大模型,长尾问题能力强 模型大,部署成本高,需要 GPU
    posted @ 2026-01-12 16:37  向着朝阳  阅读(63)  评论(0)    收藏  举报