大模型提供的能力?和一些误区

背景知识

大模型如DeepSeek 私有化部署后,还不能直接当做智能体用,原因DS没有企业内的业务知识

  1. 什么情况下需要重新训练DS?
    如是业务领域与DS预训练的语料差异极大,如
    完全改变模型架构(如从GPT转成BERT);
    业务领域与预训练语料差异极大(如医疗、法律等专业领域);
    需彻底清除原始训练数据中的敏感信息(合规要求极高时)。
  2. 一般做根据业务需求进行领域微调和知识增强即可。
    (比如我是销售系统的产品经理,客户问某个产品功能怎么操作)

1. 微调

必须做的核心工作:领域微调(Fine Turing),目的是为了做领域适配

输入数据:公司产品文档、历史客服对话记录、用户高频问题库、商品知识图谱。
微调目标:
让模型熟悉产品术语(如“SKU”“满减规则”“退换货流程”);
适配业务话术风格(如正式/亲切语气、禁用词汇过滤);
提升对长尾问题的回答准确率(如“A产品的防水等级是多少?”)。

RAG(检索增强生成)Retrieval - Augmented Generation 英 /ɔːɡˈmentɪd/

参考 https://www.cnblogs.com/aibi1/p/18742014

大模型可能缺少实时、细粒度的产品知识(如价格变动、库存状态)。
构建产品知识库(Elasticsearch/Milvus向量数据库);

RAG VS 微调


RAG:依靠准备好的知识结合大模型最终给用户答案
微调:微调的结果是修改模型的参数,让大模型学会知识

  • 模型能力的定制-> 微调。 希望大模型以特殊的口吻回答问题

  • 智能设备-> 微调。智能设备空间小,只能用小模型

  • 响应有要求-> 微调。因为RAG流程要复杂些,需要访问向量数据库。而微调直接借助LLM就可以搞定。

  • 动态数据-> RAG
    微调相对的成本和风险比RAG高
    成本:数据工程,需要准备数据,需要大量的人力和时间成本准备数据
    硬件成本:GPU成本

  • 幻觉 -> RAG

  • 可解释性 -> RAG 。 需要可以把生成的结果做检验,微调是个黑盒,不知道里面干了什么

  • 成本-> RAG
    微调相对的成本和风险比RAG高
    成本:数据工程,需要准备数据,需要大量的人力和时间成本准备数据
    硬件成本:GPU成本

  • 依赖生成能力 -> RAG

2. Agent

大模型Agent主流开发模式 ReAct模式。

3. 大模型能替代垂直领域的小模型吗?

大模型风靡全球,他是无敌了吗? 任何的场景都可以用大模型吗?

擅长处理自然语言,理解上下文,生成内容。
在垂直领域,还得靠小模型。

参考资料

posted @ 2025-03-13 15:37  向着朝阳  阅读(163)  评论(0)    收藏  举报