【大模型】LLM

LLM 大语言模型

一、基本概念

LLM 全称 Large Language Model,中文译为大语言模型,是基于海量文本数据训练得到的巨型神经网络,核心能力包含语言理解、文本生成、逻辑推理、翻译、内容总结、代码编写等。

日常使用的 GPT、通义千问、文心一言、Qwen、Llama 等,都属于大语言模型。

二、核心特点

  1. 参数规模庞大
    参数量可达数十亿、上百亿甚至万亿级别,参数规模一般决定模型的知识储备、语义理解与逻辑推理能力上限。
  2. 支持上下文交互
    能够识别长文本内容,承接多轮对话,结合上下文语义进行应答。
  3. 通用能力强
    可胜任写作、问答、逻辑推理、代码开发、文案创作、语种翻译等各类场景。
  4. 概率式文本生成
    依靠训练学到的语言规律,逐字符预测并输出内容,保证语句通顺、语义连贯。

三、LLM 与 RAG 的关联

  • LLM:相当于AI的“大脑”,负责组织语言、输出回答;存在知识滞后、易产生幻觉、无法使用私有数据等短板。
  • RAG(检索增强生成):先从私有知识库检索相关参考内容,再将「用户问题 + 参考资料」一同输入 LLM,约束模型依托真实资料作答,弥补 LLM 的不足。

完整工作流程:
用户提问 → RAG 检索知识库 → 拼接问题+参考上下文 → 送入 LLM → 生成最终答案

四、常见分类

  1. 闭源商用模型
    以 API 接口形式调用使用,代表:GPT 系列、文心一言、通义千问、讯飞星火。
  2. 开源本地模型
    可下载部署在个人电脑/服务器,支持私有化运行,代表:Qwen、Llama、GLM、Mistral。

五、一句话总结

LLM 是具备语言理解与文本生成能力的巨型 AI 模型,也是 RAG、智能对话、AI 助手等应用的核心底座。

posted @ 2026-05-27 21:31  静心笃行。  阅读(24)  评论(0)    收藏  举报