浙大-人工智能 mooc317

 

浙大-人工智能    

肖俊

 

 

渗透与再生: 大模型生态下Al+X产业新触角

 

   

 

浙江大学DeepSeek系列专题线上公开课 (第二季)
从大模型、智能体到复杂AI应用系统的构建
以产业大脑为例
肖俊浙江大学计算机学科与技术学院人工智能研究所浙江大学人工智能教育教学研究中心
2025.03 杭州

 思维链 CoT

 

大模型的产生快速回望历史
ChatGPT所能实现的人类意图,来自于机器学习、神经网络以及Transformer模型的多种技术模型积累
基于模板和规则的前深度学习阶段
基于规则
的少量数
据处理
1950年开始
根据一定范围的数据进行参数分类
MachineLearning
1980年开始
开始模仿人脑进行大量数据的标记
和训练
神经网络
CNN
RNN
GAN
1990年开始2006年获得突破
对人脑学习过程进行重
点关注
2017年
进行海量数据学习训练,人类的反馈信息成
为模型学习的内容
2018年
GPT
BERT
2019年
GPT-2
BART
RoBERIa
2020年
GPT3
M2m-
100
XLM
ChatGPT
2022
lnstrwet
GPT
BigBird
ALBerT
ElecTra
ChatGPT经过多类技术积累,最终形成针对人类反馈信息学习的大规模预训练语言模型
CCAI Collaborative nnovation Center of Artificial intelligence by MOE and Zheilang Provincial Government (ZJU

 

 

 

 

 

 自回归

 

 

横空出世: OpenAI 01/03、DeepSeek-R1等
2023-2024年,推理能力突破性进展
OpenAI o1/03在数学和代码推理任务上的卓越表现开源大模型DeepSeek-R1在MATH基准上达到87.2%的准确率
999的最后一位数室是多小

 

 

1。早期的大模型推理能力不足
2.OpenAI-o系列模型和DeepSeek-R1等胜在推理能力较强

 

 推理提升的 原因

 

 

 

o1 ,o系列回答前, 会有内部思维链的 生成。 

 

 

 偷懒是人类社会进步的原动力

 

 

 

DeepSeek-R1的推理过程
求是小学组织去距离90公里的博物馆春游,全班同学8:00从学校坐大巴车出发。班主任老师因为有事情,8:10自己自驾小车以大巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问(1)大巴和小车的速度各是多少?(2) 班主任老师追上大巴的地点距离博物馆还有多远?

 

 

深思考的过程,就是思维链展示的过程。

减少的错误的发生比例

 

 李飞飞

1000条数据 微调 

 https://codeium.com/refer?referral_code=f6r9dihmdd9ctmy1

 

 

 

 

 

 

 

 

 

   

二 

1,自动化思维链(CoT)的实现是新一代大模型的精髓之-经过精心设计的少量高质量样本即可实现适用于某个专业领域

 

 

2.的高性能低成本推理模型

 

 智能体(AIAgent) 是什么?

 

 

 

 

 

 

 

自动化工作链路

 

 

软件系统。

和大模型互动,调用软硬件工具,链接交互

为大模型提供记忆

 

 

 

智能体的讲解案例

https://cloud.tencent.com/developer/article/2422923

 

 

 

爬取网页

大模型阅读整理。

生成 报告

 

 

一个具体的例子
撰写调研报告: 调研特斯拉 FSD 和华为 ADS 这两个自动驾驶系统
类型


N
名称
Researcher
Collectlinks
WebBrowseAndSummarize
ConductResearch
Short.term memory
说明
调研员智能体,从网络进行搜索并总结报告。通过LLM提示工程(Prompt Engineering),让LLM以调研员的角色去规划和拆分任务,使用提供的工具,完成调研过程,生成调研报告。在定义角色时,会为其注册下面列出的各项工具
问题拆解,从搜索引擎进行搜索,并获取URL地址列表。该工具基于LLM提示工程和搜索引警实现,其功能如下: (1)将问题拆分成多个适合搜索的子问题 (基于LLM提示工程):(2) 通过担索引擎搜索子问题:(3)筛选出与调研问题有关的URL,并根据网站可靠性对URL列表进行排序(基于LLM提示工程)
浏览网页并总结网页内容。由两个工具组成:浏览网页和总结网络内容。 (1)浏览网页是通过封装的 WebBrowserEngine 工具访问搜索引擎实现的;(2)总结搜索结果是通过LLM提示工程实现生成调研报告。基于LLM提示工程的工具,该工具会整合WebBrowseAndSummarize 的输出给到LLM,让LLM生成调研报告
短期记忆能力,metaGPT框架封装了短期记忆的能力,用于在任务执行周期内保存和检索上下文记忆,如CollectLinks和WebBrowseAndSummarize等工具的执行结果

 

 

 智能体

 

大模型

支持api

提示词 模板支持

模型 链式调用

  输出 迭代到输入 

访问外部工具

多个

 智能体,帮助大模型感知世界,做出决策。

 

 

更复杂的任务:大小模型协作的生成式智能体
ChatGPT: 具有强大的任务规划和工具调用能力
Hugging Face: 最大的AI模型社区,每个模型都有详细的功能描述
LLMs
ML community / Tool Library / API

 

大模型规划

  对用户任务,进行子任务划分,规划

     去开源社区,自动找,每个任务对应的最好的 模型。

    每个任务对于一个 ,

小模型   执行具体任务

  组成工作流, 生成 ,

  整合 反馈用户

 

大模型开源处理很多问题,

不是解决问题

 

 

HuggingGPT:大小模型协作的生成式智能体
大小模型协作AI Agent: 大语言模型负责规划和决策,AI小模型负责任务执行

 

 

 

 

 

 

   

 三

1.智能体(AI Agent) 是大模型 (Brain)的眼(Observation)和手
(Tools)
2.通过智能体(AI Agent) 可以基于大模型实现各种较为复杂的智能应用系统

 

 四链融合产业大脑案例

 

 

 

 

产业发展决策:广阔的社会需求
航空航天、轨道交通、新材料、新能源、电子信息等战略产业、未来产业对产业信息智能分析提出重大需求,呈现广泛、持续增长的发展态势
EN
新兴产业培育
产业发展战略规划新兴产业布局指导产业能级提升路径未来产业培育方向
政府决策需求
创新体系建设
关键核心技术突破创新链产业链融合科技创新体系优化产业创新生态营造
产业链安全
产业链风险预警供应链韧性提升产业链补链强链产业安全保障体系
企业创新需求
转型升级需求
技术创新路径规划数字化转型方案智能制造升级绿色低碳发展
市场竞争需求
技术竞争态势分析市场机遇识别产品创新方向竞争优势构建
产业协同需求
上下游协同创新产业资源对接创新要素匹配产业生态融入

 

 

如何精准感知产业技术态势,科学研判产业发展方向,及时布局产业化应用场景培育新产品,成为未来产业大变局中区域/企业实现竞争突围的关键。

 

 

 

 

海量数据资源
最具权威的产业链、供应链数据资源
产业链图谱数据构建了10万级产业节点标准库,形成了100+产业链知识图谱进出口贸易数据全球海关50亿条进出口记录,覆盖全球150多个国家、80%以上贸易量招投标事件数据汇聚了全国重大项目招采数据14亿+、招投标项目300万+、金额2.2万亿元1产品供应链数据:整理了28大类通用零配件、10万件标准件模型、供应商数字产品1.9亿件

 

 

 

产业垂域大模型iChainGPT
iChainGPT是以通用大模型为基座,面向产业创新咨询服务场景,注入数十亿海量产业数据和数百个产业链知识图谱,结合工具集、知识库和指令微调训练得到产业垂域大模型,提供产业文档解读、产业链图认知、产业主体画像、产业实体匹配、产业发展预测、产业数据探索、产业报告生成等7个方向的特色能力。

 

 

 

 

   

 

 

 

 

   

 

1.新一代大模型的推理能力正在不断增强
2,基于高质量小数据集即可训练得到某人专业领域的高性能低成本推理模型

3.(AI Agent)可以基于大模型实现各种较为复杂的智通过智能体能应用系统

 

4. “推理大模型 + 知识图谱 (知识库)+ 智能体”是否会成为未来AI系统开发和应用的范式?

   

 

   

 

   

 

 

 

 

 

 

 1970年后n范式

网络抓取处理

。2000开始深度学习

 

 学习框架

 序列到序列的问题

 大语言模型简史

 注意力机制

 

 N x  堆叠方式

模型参数的累计

 注意力机制

自注意力

 Gradient  图像梯度; 邻域像素之间的 像素差

 

 q; 查询

k,键值

v, 内容

 

 

 LLM 范式的变换  2018

 

BERT 2018 10

   编码 

GPT  2018 11

  解码

 

bert 通用 进入领域

学术界 常用,

很早开源

 

 

 

 

 

 

 

 

数据是燃料、模型是引擎、算力是加速器
MCP神经元PerceptronDNN
神经网络早期前向神经网络
Word2vec词向量
引入
Self-attention
Self-supervised
Prompt
Fine-tune
RNNLSTM
seg2seg序列学习循环神经网络
Transformer
单词之间关联关系
语言大模型LlM
人类反馈强化学习(InstructGPT)
CodeX (CoT120亿参数)
ChatGPT
数据:训练中使用了45TB数据、近 1 万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度算力: ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。
大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。

 

 

.

多模型,接受,语言,视频

 

 

 

 openai 出来

开源模型要追赶 6-12个月

deepseek  代差 缩短到 1-3个月

 

大模型 摩尔定律

 18个月 芯片能力翻倍

 

大模型每6个月, 指数级上升。

 

deepseek为什么会提升了推理效率。

- 英伟达受影响。

 

aigc   

GPT-3: 语言模型的转折点
大语言模型: 1750亿参数
涌现能力: 随着模型规模增大而出现的新能力
生成/创造:Artificial Intelligence (人工 => 艺术)

 

艺术词根,Art

 

 

 openai  技术白皮书

 

 Training on coc

GPT-3 Initial

nstruction tuning

初代 GPT-3 展示了三个重要能力 (来自于大规模的预训练)

语言生成:来自语言建模的训练目标(说人话)

世界知识: 来自 3000 亿单词的训练语料库(百晓生)

上下文学习: 上下文学习可以泛化,仍然难以溯源 (触类旁通

初代 GPT-3 表面看起来很弱,但有非常强的潜力,展示出极为强大的“涌现”能力

 

 GPT-3 Initia

nstruction tuning

GPT-3 Series

Codex Initialo

InstructGPT Initial

2020 - 2021 年,penAl 投入了大量的精力通过代码训练和指令微调来增强 GPT-3。

使用思维链进行复杂推理的能力很可能是代码训练的一个神奇副产物使用指令微调将 GPT-3.5 的分化到不同的技能树 (数学家/程序员/...

 

 

1) 指令微调不会为模型注入新的能力 (解锁能力)2) 指令微调牺牲性能换取与人类对齐 (“对齐税”)

 code training then instruci

Code-davinci-002

 

 RLHF(基于人类反馈的强化学习的指今微调)触发的能力:

翔实的回应

公正的回应

拒绝不当问题

拒绝其知识范围之外的问题

 

 

 

 

open 4o 是文科

 

语言能力

 

deep seek   推理能力

 

 

DeepSeek

 推理模型: 从[生成]到[推理] 的重心转变

· OpenAl-o1/o3: 推理能力的一大飞跃DeepSeek-V3/R1: 专家模型、强化学习,开源,效率

 

 

 

 v3  文科  ,语言理解

DS-V3对标GPT-4o (文科博士生)

混合专家模型: V3基座模型总共有6710亿参数,但是每次token仅激活8个专家、370亿参数 (~5.5%)

 

极致的工程优化:多头潜在注意力机制(MLA),使用FP8混合精度,DualPipe算法提升训练效率,将训练效率优化到极致,显存占用为其他模型的5%-13%

 

训练成本  1/10

推理成本 1/20

 

 混合专家模型 1991年提出 ,现在优化结构,用于推理

 

 

 推理模型  初试

赋予DeepSeek-V3最基础的推理能力:

R1-Zero使用DeepSeek-V3-Base作为基础模型 , 直接使 用GRPO 进行强化学习来提升模型的推理性能:

准确度奖励 (Accuracy rewards)

格式奖励 ( Format rewards )

 

R1-Zero

 指令微调

GRPO 规则组合,简画模型, 降低评分 压力。

没有数据集都可以

 DS-R1对标OpenAl-o1 (理科博士生)

阶段1: DeepSeek-R1-Zero生成少量推理数据 + SFT => 为V3植入初步推理能力 (冷启动)

阶段2: 根据规则奖励直接进行强化学习 (GRPO) 训练=>提升推理能力 (多轮迭代,获取大量推理数据)阶段

3:选代生成推理/非推理样本微调 => 增强全场景能力阶段

4: 全场景强化学习 => 人类偏好对齐 (RLHF)

 SFP  理论推理 微调 

 Step 4: DeepSeek-R1-Distill

R1蒸馏小模型

DeepSeek-R1-Distill模型:

(1) 基于各个低参数量通用模型 (千问、Llama等)2)使用DeepSeek-R1同款数据微调(3) 大幅提升低参数量模型性能

 

蒸馏,好比提问高质量问题,抽取核心知识问题。

知识蒸馏

老师教学生:“解题思路”,不仅给答案(硬标签)还教“为什么”(软标签)模型瘦身:大幅压缩参数(如671亿 7亿参数),手机也能跑AI

 

大模型瘦身,可以用于某些领域使用。

手机跑ai,

 

 

 

 新一代智能体

 

 

 

 

[系统2]LLM是Agent的大脑,其核心能力是“逻辑推理0

Planning skills: 对问题进行拆解得到解决路径,既进行任务规划Tool Use: 评估自己所需的工具,进行工具选择,并生成调用工具请求短期记忆包括工具返回值,已完成推理路径,长期记忆包括可访问的外部长期存储等Memory:

 

   

 

 

 由“时空型GPT”作为决策大脑动,构成一个闭环多智能体协同系统实现流程自组织、即时空智能的自主化构建任务自执行、内容自生成, 

 

自主化构建

 

 

 

 

 

   
   
   
   
   
   
   
   
   

 

   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
GPT-3: 语言模型的转折点大语言模型: 1750亿参数涌现能力: 随着模型规模增大而出现的新能力生成/创造:Artificial Intelligence (人工 => 艺术)
posted @ 2025-03-17 21:31  aiplus  阅读(136)  评论(0)    收藏  举报
悬浮按钮示例