[AI] 人工智能发展历程
0 导言
背景导入:2025年春节,火爆全网的DeepSeek-R1

1 人工智能发展历程
1.1 人工智能的发展历程

1.2 AIGC的发展历程

1.3 大模型的概念术语

- 多模态
- 文本、图片、音频、视频
- AI工具(国内)
- DeepSeek、 豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索...
- 通用模型
- 大语言模型(LLM,Large Language Model)
- 视频模型
- 多模态模型
- ……
- 行业模型(垂直模型、垂类模型)
- 教育、医疗、金融等
1.4 大模型的关键发展

1.5 生成模型与推理大模型的对比
| 比较项 | GPT-4o(生成模型) | DeepSeek-R1(推理模型) |
|---|---|---|
| 模型定位 | 专注于通用自然语言处理和多模态能力,适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。 | 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高难度问题求解和专业领域应用,在中文表达上容易出彩。 |
| 推理能力 | 在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题求解)上准确率较低。 | 在复杂推理任务表现卓越,尤其擅长数学、代码推理任务,在部分基准测试(如GPOA)中准确率高于GPT-4o。 |
| 多模态支持 | 支持文本、图像、音频乃至视频输入,可处理多种模态信息。 | 当前主要支持文本输入,不具备图像处理等多模态能力。 |
| 应用场景 | 适合广泛通用任务,如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流;面向大众市场和商业应用。 | 适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科学研究;在思路清晰度要求高的场景具有明显优势,比如采访大纲、方案梳理;在对中文语言表达和情感表达方面有明显优势。 |
| 用户交互体验 | 提供流畅的实时对话体验,支持多种输入模态;用户界面友好,适合大众使用。 | 可展示大部分链式思考过程,便于专业用户理解推理过程;界面和使用体验具有较高的定制性,但整体交互节奏较慢。 |
1.6 推理模型的优劣势
- 优势
- 演绎或归纳等推理能力强(如谜题、数学证明)
- 链式思维推理出色(善于分解多步骤问题)
- 擅长复杂决策任务
- 可以呈现思考过程
- 劣势
- 响应速度慢且计算成本高(需要更多推理时间)
- 基于知识的任务更容易出错(容易产生幻觉)
- 处理简单任务的时候效率低(容易"过度思考")
1.7 常见推理模型
- DeepSeek R1
- OpenAI o1
- OpenAI o3-mini
- Gemini 2.0
- Grok3
- Kimi 1.5
2 AIGC的概念定义
本部分着重介绍人工智能生成内容(AIGC)的定义、应用范围及其在各行业的实际影响。
首先梳理AIGC相关的术语,包括AI、AGI、生成式AI和决策式AI等,明确了其在人工智能领域的定位。随后,详细列举AIGC在文本、图像、音频和视频生成方面的多样化应用,并探讨其在电商、新闻传媒、影视、游戏、教育和金融等行业的具体实践,展示AIGC在提升效率、降低成本和增强创新方面的核心价值。
2.1 初识AIGC
眼花缭乱的名词


AI
AIGC = AI Generated Content
AGI(通用人工智能) := Artificical General Intelligence
人与AI的能力层次划分

概念辨析
机器学习 > 深度学习 | 自然语言处理、机器学习、知识图谱、数据挖掘、语音处理

AI ⊃ 机器学习 ⊃ 深度学习AI ⊃ NLP、AIGC、AI Agent
| 概念 | 全称 | 核心定义 | 定位 / 属性 |
|---|---|---|---|
| AI | Artificial Intelligence | 人工智能,是让机器模拟人类智能行为的技术总称(如推理、学习、决策) | 总范畴、顶层概念 |
| 机器学习 (ML) | Machine Learning | AI的核心技术分支,让机器从数据中学习规律,无需人工编程即可自主优化模型 | AI 的技术基础 |
| 深度学习 (DL) | Deep Learning | 机器学习的子集,基于多层神经网络(如 CNN、Transformer)处理复杂数据(图像、文本) | 机器学习的进阶技术 |
| NLP | Natural Language Processing | 自然语言处理,AI 的细分领域,专注于让机器理解和生成人类语言 | AI 的垂直应用领域 |
| AIGC | AI-Generated Content | 人工智能生成内容,AI 的应用方向,指机器自动生成文本、图像、音频等内容 | AI 的应用场景 |
| AGI | Artificial General Intelligence | 通用人工智能,具备与人类同等的通用智能,能胜任任何人类可完成的智力任务 | AI 的终极目标(未实现) |
| AI Agent | AI 智能体 | 能自主感知环境、制定决策、执行任务的 AI 系统(如自动客服、智能机器人) | —— |
- 关键逻辑关系:
- 包含关系: AI ⊃ 机器学习 ⊃ 深度学习AI ⊃ NLP、AIGC、AI Agent
- 交叉关系:
- NLP的技术核心是机器学习/深度学习(如用Transformer做语言模型);
- AIGC的主流技术是深度学习(如GPT用于文本生成、Stable Diffusion用于图像生成);
- AI Agent通常整合NLP、机器学习等技术,实现自主决策;
- AGI是所有AI技术的最终追求,目前的AI都属于狭义AI(ANI),仅能解决特定任务。
2.2 AIGC 能干什么?

AI文本

- AI Coding / AI 编程
Cursor
Windsurf
MarsCode
GitHub Copilot
阿里云通义灵码
- AI搜索
Perplexity
知乎直答
秘塔AI搜索引擎
纳米AI搜索
微信搜索(DeepSeek R1、元宝)
- 社交媒体、新媒体运营
小红书的笔记助手
短视频平台的内容创意
自动回复机器人
企业微信的智能回复
...
- 内容创作
微软“小冰”出版诗集
AI撰写剧本电影《阳春》
百万字小说《天命使徒》
清华大学的《机忆之地》
- 新闻出版
英国广播公司(BBC)的Juicer
彭博社的Cyborg
新华社的快笔小新
人民日报的创作大脑
第一财经的DT稿王
AI绘画

2022年8月,获得比赛“数字艺术/数字修饰照片”一等奖


新西湖繁胜全景图
全景图是一副百米画卷,再现了当下西湖边的景观特色、生活场景,还有一些已经消失的景观,比如曾经闻名遐迩的大佛寺。
图中包含5000个建筑,作者白小苏说如果这些建筑都要自己亲手画,一天画10个都要500天。最后他借助于AI技术,在一年内完成了作品
AI音频

- 语音对话 / 创作音乐 / 语音克隆 / 情感陪聊 / ...
AI视频

- 千秋诗颂 / 视频特效 / 视频添加图片
3 AIGC 的行业应用
行业应用

电商行业

- 商品3D模型,改善购物体验
- AI 模特,产品拍摄降本增效
- 虚拟主播,提升直播带货效率
内容广告

- 全流程参与,提高效率
- 雪花啤酒虚拟偶像,提升品牌宣传效果
传媒出版

影视创作

游戏行业
- 01 体验 : 增强游戏体验
特定风格模拟:AI通过模仿职业选手,玩家则感觉像在与真实的职业选手对抗;
玩法教学:帮助玩家快速熟悉操作与游戏玩法,提高游戏可玩性。
- 02 功能 : 游戏性能测试
前期平衡性测试:充分模拟玩家在某套数值体系下的游戏体验,提出优化策略;
游戏功能测试:针对性找出游戏交互的可能性,发现潜在漏洞辅助游戏策划。
- 03 角色 : NPC角色生成
AI创造不同的面孔、服饰、声音甚至性格特征,甚至可同步驱动嘴型、表情等面部变化,达到高度逼真;并通过大量数据模拟人类运动,完成行走、跑步等一系列动作反应。
- 04 剧情 : 剧情生成
AI智能NPC能够分析玩家的实时输入,与玩家动态交互,构建几乎无限且不重复的剧情;
AI能够生产相关的图文、音乐等,创造游戏素材,辅以剧情铺排,提升剧情饱满度。
- 05 策略 : 游戏策略生成
让AI感知环境、自身状态并基于特定目标决定当下需要执行的动作,基于特定问题和场景,自主提出解决方案。

AIGC 游戏研发环节作用
- 游戏运营环节
- AI自动化广告投放:目前抖音等平台的广告分发、内容推荐已通过算法实现,且效果较高;
- 生成广告素材:素材主要是图像及音视频内容,预计AIGC的加持下广告素材生成会更高效、高质量;
- 玩家分类提升体验:通过不同玩家的数据,将用户细分类型,为不同类型玩家提供独特的玩法,提高用户体验
其他行业

- AI + 教育行业人
- 自动批改作业和考试
- 虚拟实验室
- 生成学习资料
- 翻译文献资料
- AI + 金融行业
- 风险管理
- 自动处理和分析金融文档
- 合规管理
4 AIGC的未来展望
AIGC的核心价值

- 企业赋能
- 增强创新
- 降本增效
- 个人赋能
- 快速获取信息
- 提升学习效率
- 提高工作效率
AIGC的挑战

- 生成质量
- 结果幻象、可控性、理解能力
- 生成精准度、还原度、仿真度
- 数据隐私及安全
- 泄露隐私
- 数字身份冒用
- 制作虚假信息诈骗
- 伦理挑战
- 社会偏见、性别歧视等
- “复活”逝者损害已故人的隐私权
- 知识产权挑战
- 侵权与被侵权
AIGC的未来
技术进步、更广泛的应用、人机协作、监管框架的发展

- 技术进步
- AIGC的生成质量和准确性将得到提升
- 更广泛的应用
- 在更多领域得到应用, 如保险、医疗和法律 服务等
- 人机协作
- 更多地与人类专家协 作,以提供更高质量 的内容和服务
- 监管框架的发展
- 预计将出现更多关于内容生成和使用的监管框架
新兴技术成熟度曲线

- 数据来源:Gartner(2023年8月)
- 生成式人工智能(AI)目前处于期望膨胀期,预计将在2~5年内产生巨大效益
- 到2026年,Gartner预测超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用,而在2023年初这一比例不到5%。
工作岗位需求变化

图:2024年5月24日麦肯锡报告:《工作的新未来:在欧洲及其他地区部署人工智能和提升技能的竞赛》
- 显著上升
- STEM(科学、技术、工程和数学) 相关职业
- 医疗保健和其他高技能职业
- 下降显著
- 办公室职员
- 生产工人
- 客户服务代表等传统职业
到 2030 年,欧洲和美国多达30%的工作时间 可能实现自动化
技能类型需求变化

图:2024年5月24日麦肯锡报告:《工作的新未来:在欧洲及其他地区部署人工智能和提升技能的竞赛》
- 技能类型需求变化
- 技术技能大幅增长
- 炙手可热的“新宠”技能是社会和情感技能
- 体力和手动技能的需求预计将保持大致稳定
- 认知技能(文字和信息处理、编程、科研、工程等)的需求预计将减少14%
与AI共舞

- 学习AIGC基础知识
- 积极使用AIGC工具
- 关注AIGC在各行业的应用案例
- 跟踪最新发展趋势
5 AIGC的能力揭秘:文本生成
5.1 文本生成的奥秘
AIGC与GPT(通用大模型的代表)

2023年 OpenAI GPT4-多模态大模型
OpenAIGPT的学霸养成过程
GPT:生成式预训练变换模型(Generative Pre-trained Transformer)

3大核心能力

- 对话能力
- 多轮对话
- 任意语言的转换能力
- 意图和情感理解能力
- 创作能力
- 文本总结能力
- 文本改写能力
- 文本生成能力
- 推理能力
- 对比能力
- 穷举能力
- 假设推理能力
5.2 工作原理
LLM:Large Language Model

- 收到提示词
示例:“今天天气不错,我决定”
- 将输入拆分为token
[“今天”, “天气”, “不错”, “,”, “我”, “决定”]
- 采用Transformer架构处理token
理解token之间的关系
识别提示词的整体含义
- 基于上下文预测下一个token
为可能的单词分配概率分数
示例:
- 根据概率分数选择标记
示例:“去”
大模型工作过程

- 阶段1:模型训练
- 预训练(自监督)
- 监督微调
- 人类反馈 / 强化学习
- 阶段2:推理
- 接收输入
- 处理输入
- 进行推理
- 生成输出
上下文 + 训练知识
训练语料(gpt-3) & 模型参数

- 典型的新技能学习曲线:规模到达临界点之后才会迅速增长
- 模型参数:1.8万亿参数(GPT-4)
- GPT-4o : 上下文窗口大小:8192个token(标记)
| 数据来源 | 说明 |
|---|---|
| 维基百科 | 在线百科,严谨 |
| 图书 | 经典为主的古登堡计划和自助出版平台 Smashwords 等 |
| 杂志期刊 | 论文: ArXiv 等 |
| 链接 | WebText, Reddit |
| Common Crawl | 开源项目,爬取互联网所有数据 |
| GitHub | 程序员聚集地 |
| 合计 | - 700 多 GB, 约有 19 万套四大名著的阅读量 - 5000 亿左右的 token 数量。(13 万亿 token:gpt4) - 100 个标记大约等于 75 个英语单词 |
5.3 生成式通用大语言模型的优势与劣势
- 优势
- 语言理解和生成能力
- 世界知识能力
- 一定的推理能力
- 劣势
- 幻觉(生成错误答案)
- 知识库有限
- 上下文窗口限制
5.4 对话能力
如何与GPT对话

使用对话工具
- 聊天机器人应用访问地址
ChatGPT:https://chatgpt.com/

对话能力-基本对话和多轮对话

- 基本对话
学会提问
⚫ 明确、具体、避免歧义
⚫ 逻辑清晰
⚫ 上下文信息
⚫ 示范数据
验证输出
⚫ 从回复中找到有价值的部分
⚫ 判断结果质量:初步识别可靠信息
⚫ 评估信息准确性:与其他来源进行对比
⚫ 处理错误信息:指出错误,重新提问
- 多轮对话
追问 / 澄清 / 引导
- 对话能力-多轮对话

- 原理
- 上下文编码
- 自注意力机制
- 限制
- 上下文窗口限制( 问题+回答总数; 包括字符、标点、空格 )
- GPT-3.5:4096,大约3000 个英文单词或 4000 个汉字
- GPT-4:8192,大约6000 个英文单词或 8000 个汉字( https://platform.openai.com/tokenizer )
- 使用建议
- 分段对话
- 定期总结
- 使用关键词提醒
- 精简输入
对话能力-语言转换能力

- 不同语言
- 人类语言之间转换
- 机器语言之间转换
- 人类语言与机器语言之间转换
- 限制
- 人类语言生成能力不同
- 前5名:英语、西班牙语、法语、德语、中文
- 机器语言生成能力不同
- 前4名:python、Java、Typescript、Javascript
- 使用建议
- GPT:使用英文
- 中文优先选择国内产品
- 编程尽量选用前4种语言
对话能力--意图和情感分析能力

- 能力
- 真实意图
- 情绪识别
- 判断行为特点
- 重要他人
- 限制
- 缺乏真正的情感
- 上下文理解有限
- 缺乏深层次推理
- 使用建议
- 提供清晰具体的信息
- 简短和连贯的对话
- 使用明确的情感表达
5.5 创作能力

创作能力-文本分析能力

- 文本统计
统计字符数、单词数、句子数等基本统计信息
- 文本摘要
从长文档中提取主要信息,并生成一个简短的概述
- 文本分类
新闻分类、情感分析(正面、负面、中性)
- 文本总结
文本的整体内容进行简要概述,通常比文本摘要更为简短
限制
知识更新、长文本理解、数据偏见、数据质量、语境歧义、领域专业知识、新颖和未知类别、不确定性
创作能力-文本润色能力

- 文本校对
错别字识别与修改、语法错误检查与修正、标点符号调整、词汇选择优化、语句重组与调整、保持一致的写作风格
- 文本改写
口语转书面语、不同体裁风格、语义保持、文本简化、文本优化、保持一致性
- 文本扩写
增加细节、举例说明、提供背景信息、解释专业术语或概念、描述过程或步骤、增加文学修辞、提供多种观点等
- 限制
- 新词汇与表达、语境误判、高度主观性、文化敏感性和幽默、不断更新的语言规则、知识更新限制、长文本处理能力、用户意图识别
创作能力-使用建议
- 使用优先级
文本分析>文本润色>文本生成
- 分段处理长文本
- 明确和具体的指示
- 补充背景信息
- 注意多义词和模糊表达
5.6 推理能力
- 对比能力
- 对比分析:事物、概念、人物、事件、文学作品、艺术作品等
- 列举能力
- 简单列举任务:组合/排列/序列,简单数学问题等
- 假设推理能力
- 多个领域能力不同:历史事件、文学作品解读等
1、限制
主观判断、上下文窗口、非专业算法、数据局限、缺乏常识和领域专长、模型理解能力、过度生成偏见、难以验证答案的准确性
2、使用建议
明确问题和期望
补充背景信息
结合领域知识
6 AIGC的能力揭秘:图像生成
6.1 Stable Diffusion 模型如何实现图像生成?

- 文生图
- 图生图(修改图、图像二创、...)
6.2 Stable Diffusion 模型的构成
三大核心组件

- 文本编码器
- 图像信息生成器
- 图像解码器
文本编码器
- 解析用户输入的提示词
- 将提示词转化为高维向量表示

图像信息生成器
- 将输入信息逐步处理和转换为图像数据

图像解码器
- 接收来自图像信息生成器的处理后的信息矩阵
- 将信息矩阵转换为可视化的图像

6.3 文生图的优势与局限
- 优势
- 降低门槛
- 提高效率
- 艺术风格多样化
- 局限
- 精确控制困难
- 随机性太强
- 复杂场景理解
7 选择AIGC工具
本部分聚焦于如何科学选择和高效应用AIGC工具,以满足不同场景下的多样化需求。
-
首先,介绍当前AIGC领域的工具类型,包括聊天对话机器人、图像生成工具、音频与视频生成工具以及搜索工具等,并列举了国内外代表性工具。
-
随后,以DeepSeek-R1、Kimi、豆包、腾讯元宝等具体工具为例,详细分析了它们的特点、优势及适用场景,展示了不同工具在推理能力、多模态支持、长文本处理和搜索效率等方面的差异。
-
最后,还提出了选择AIGC工具的依据,包括明确需求、评估工具性能和考虑使用成本等,帮助读者根据自身需求做出合理选择。通过深入分析和对比,本部分旨在为读者提供一份实用的AIGC工具选择指南,助力其在AIGC时代更好地应用人工智能技术,提升工作效率和创新能力。
7.1 AIGC工具
AI 产品榜

公众号:AI产品榜
- AI工具导航平台:
- AI工具集:

| 工具类型 | 国内 | 国外 |
|---|---|---|
| 聊天对话机器人 | DeepSeek、腾讯元宝、豆包、Kimi、智谱清言... | ChatGPT, Claude, X.com (Grok) |
| 图像生成工具 | 通义万相、即梦、豆包 | ChatGPT, Midjourney, Stable Diffusion |
| 音频工具 | 音疯、网易天音、海绵音乐 | Suno |
| 视频生成工具 | SkyReels、Vidu、可灵、海螺AI、即梦 | Sora, Runway, Pika |
| 搜索工具 | 秘塔、纳米AI、天工 | Perplexity |
7.2 现场演示
元宝
- 腾讯元宝

豆包
- 豆包

Kimi
- Kimi

超长上下文(一次性阅读50份文档/支持20万字上下文输入) vs. 网络搜索(提高搜索效率 / 减少幻像)
- Kimi Copilot插件

音疯
- 音乐工具:音疯

Vidu
- 视频生成工具:Vidu

秘塔
- 搜索工具:秘塔

7.3 如何选择AIGC工具
- 明确自身需求
- 评测工具能力
- 关注使用成本
| AIGC工具 | 工具特点 | 大模型 |
|---|---|---|
| DeepSeek | 文本模态、推理能力强 | DeepSeek-R1 |
| 豆包 | 多模态、语音情感能力强 | 火山 |
| Kimi | 多模态、超长文本、搜索和推理能力强 | Kimi-1.5 |
| 智谱清言 | 多模态 | GLM-Zero-Preview |
| 通义千问 | 效率工具、代码能力强 | Qwen2.5-Max |
| 腾讯元宝 | 可以使用微信生态 | 接入:DeepSeek-R1 |
7.4 如何提升AIGC使用能力:持续更新自己的AI工具列表
- 明确使用AI工具的需求和目标
- 建立使用清单
- 真实使用中测试和筛选
- 文本类、绘图类、视频类、语音类、搜索类、设计类、专用工具类(办公类、笔记类、内容转化类...)、智能体类
- 以1~2个为主,其它为辅
- 保持2-3周的更新频次
8 总结
-
AIGC技术正在重塑各个行业的未来,从内容创作到科学研究,从教育到商业应用,潜力无限。
-
然而,技术的快速发展也带来了新的挑战,面对这些挑战,我们需要保持开放的心态,积极学习AIGC的基础知识,关注其在各行业的应用案例,跟踪最新发展趋势。
-
与AI共舞,实现AI与人类的完美融合。让我们以DeepSeek-R1(或元宝、豆包、千问、...)为起点,持续探索AIGC的无限可能。在AI时代的技术浪潮中,我们既是见证者,更是参与者。
Y 推荐文献
X 参考文献
- 《DeepSeek与AIGC应用 - 北京大学 | PDF》
如有需要,请私信联系
浙公网安备 33010602011771号