[AI] 人工智能发展历程

0 导言

背景导入：2025年春节，火爆全网的DeepSeek-R1

DeepSeek大模型概述 - 数据知音

1 人工智能发展历程

1.1 人工智能的发展历程

1.2 AIGC的发展历程

1.3 大模型的概念术语

多模态

文本、图片、音频、视频

AI工具（国内）

DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索...

通用模型

大语言模型（LLM，Large Language Model）

视频模型

多模态模型

……

行业模型（垂直模型、垂类模型）

教育、医疗、金融等

1.4 大模型的关键发展

1.5 生成模型与推理大模型的对比

比较项	GPT-4o(生成模型)	DeepSeek-R1(推理模型)
模型定位	专注于通用自然语言处理和多模态能力，适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。	侧重于复杂推理与逻辑能力，擅长数学、编程和自然语言推理任务，适合高难度问题求解和专业领域应用，在中文表达上容易出彩。
推理能力	在日常语言任务中表现均衡，但在复杂逻辑推理（如数学题求解）上准确率较低。	在复杂推理任务表现卓越，尤其擅长数学、代码推理任务，在部分基准测试（如GPOA）中准确率高于GPT-4o。
多模态支持	支持文本、图像、音频乃至视频输入，可处理多种模态信息。	当前主要支持文本输入，不具备图像处理等多模态能力。
应用场景	适合广泛通用任务，如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流；面向大众市场和商业应用。	适合需要高精度推理和逻辑分析的专业任务，如数学竞赛、编程问题和科学研究；在思路清晰度要求高的场景具有明显优势，比如采访大纲、方案梳理；在对中文语言表达和情感表达方面有明显优势。
用户交互体验	提供流畅的实时对话体验，支持多种输入模态；用户界面友好，适合大众使用。	可展示大部分链式思考过程，便于专业用户理解推理过程；界面和使用体验具有较高的定制性，但整体交互节奏较慢。

1.6 推理模型的优劣势

优势

演绎或归纳等推理能力强（如谜题、数学证明）

链式思维推理出色（善于分解多步骤问题）

擅长复杂决策任务

可以呈现思考过程

劣势

响应速度慢且计算成本高（需要更多推理时间）

基于知识的任务更容易出错（容易产生幻觉）

处理简单任务的时候效率低（容易"过度思考"）

1.7 常见推理模型

DeepSeek R1
OpenAI o1
OpenAI o3-mini
Gemini 2.0
Grok3
Kimi 1.5

2 AIGC的概念定义

本部分着重介绍人工智能生成内容（AIGC）的定义、应用范围及其在各行业的实际影响。

首先梳理AIGC相关的术语，包括AI、AGI、生成式AI和决策式AI等，明确了其在人工智能领域的定位。随后，详细列举AIGC在文本、图像、音频和视频生成方面的多样化应用，并探讨其在电商、新闻传媒、影视、游戏、教育和金融等行业的具体实践，展示AIGC在提升效率、降低成本和增强创新方面的核心价值。

2.1 初识AIGC

眼花缭乱的名词

AI
AIGC = AI Generated Content
AGI(通用人工智能) := Artificical General Intelligence

人与AI的能力层次划分

人工智能的定义与探讨 - 博客园/千千寰宇

概念辨析

机器学习 > 深度学习 | 自然语言处理、机器学习、知识图谱、数据挖掘、语音处理

人工智能的定义与探讨 - 博客园/千千寰宇

AI ⊃ 机器学习 ⊃ 深度学习AI ⊃ NLP、AIGC、AI Agent

概念	全称	核心定义	定位 / 属性
AI	Artificial Intelligence	人工智能，是让机器模拟人类智能行为的技术总称（如推理、学习、决策）	总范畴、顶层概念
机器学习 (ML)	Machine Learning	AI的核心技术分支，让机器从数据中学习规律，无需人工编程即可自主优化模型	AI 的技术基础
深度学习 (DL)	Deep Learning	机器学习的子集，基于多层神经网络（如 CNN、Transformer）处理复杂数据（图像、文本）	机器学习的进阶技术
NLP	Natural Language Processing	自然语言处理，AI 的细分领域，专注于让机器理解和生成人类语言	AI 的垂直应用领域
AIGC	AI-Generated Content	人工智能生成内容，AI 的应用方向，指机器自动生成文本、图像、音频等内容	AI 的应用场景
AGI	Artificial General Intelligence	通用人工智能，具备与人类同等的通用智能，能胜任任何人类可完成的智力任务	AI 的终极目标（未实现）
AI Agent	AI 智能体	能自主感知环境、制定决策、执行任务的 AI 系统（如自动客服、智能机器人）	——

关键逻辑关系:

包含关系: AI ⊃ 机器学习 ⊃ 深度学习AI ⊃ NLP、AIGC、AI Agent

交叉关系：

NLP的技术核心是机器学习/深度学习（如用Transformer做语言模型）；

AIGC的主流技术是深度学习（如GPT用于文本生成、Stable Diffusion用于图像生成）；

AI Agent通常整合NLP、机器学习等技术，实现自主决策；

AGI是所有AI技术的最终追求，目前的AI都属于狭义AI（ANI），仅能解决特定任务。

2.2 AIGC 能干什么?

AI文本

AI Coding / AI 编程

Cursor
Windsurf
MarsCode
GitHub Copilot
阿里云通义灵码

AI搜索

Perplexity
知乎直答
秘塔AI搜索引擎
纳米AI搜索
微信搜索（DeepSeek R1、元宝）

社交媒体、新媒体运营

小红书的笔记助手
短视频平台的内容创意
自动回复机器人
企业微信的智能回复
...

内容创作

微软“小冰”出版诗集
AI撰写剧本电影《阳春》
百万字小说《天命使徒》
清华大学的《机忆之地》

新闻出版

英国广播公司(BBC)的Juicer
彭博社的Cyborg
新华社的快笔小新
人民日报的创作大脑
第一财经的DT稿王

AI绘画

2022年8月，获得比赛“数字艺术/数字修饰照片”一等奖

新西湖繁胜全景图

全景图是一副百米画卷，再现了当下西湖边的景观特色、生活场景，还有一些已经消失的景观，比如曾经闻名遐迩的大佛寺。
图中包含5000个建筑，作者白小苏说如果这些建筑都要自己亲手画，一天画10个都要500天。最后他借助于AI技术，在一年内完成了作品

AI音频

语音对话 / 创作音乐 / 语音克隆 / 情感陪聊 / ...

AI视频

千秋诗颂 / 视频特效 / 视频添加图片

3 AIGC 的行业应用

行业应用

电商行业

商品3D模型，改善购物体验
AI 模特，产品拍摄降本增效
虚拟主播，提升直播带货效率

内容广告

全流程参与，提高效率
雪花啤酒虚拟偶像，提升品牌宣传效果

传媒出版

影视创作

游戏行业

01 体验 : 增强游戏体验

特定风格模拟：AI通过模仿职业选手，玩家则感觉像在与真实的职业选手对抗；
玩法教学：帮助玩家快速熟悉操作与游戏玩法，提高游戏可玩性。

02 功能 : 游戏性能测试

前期平衡性测试：充分模拟玩家在某套数值体系下的游戏体验，提出优化策略；
游戏功能测试：针对性找出游戏交互的可能性，发现潜在漏洞辅助游戏策划。

03 角色 : NPC角色生成

AI创造不同的面孔、服饰、声音甚至性格特征，甚至可同步驱动嘴型、表情等面部变化，达到高度逼真;并通过大量数据模拟人类运动，完成行走、跑步等一系列动作反应。

04 剧情 : 剧情生成

AI智能NPC能够分析玩家的实时输入，与玩家动态交互，构建几乎无限且不重复的剧情;
AI能够生产相关的图文、音乐等，创造游戏素材，辅以剧情铺排，提升剧情饱满度。

05 策略 : 游戏策略生成

让AI感知环境、自身状态并基于特定目标决定当下需要执行的动作，基于特定问题和场景，自主提出解决方案。

AIGC 游戏研发环节作用

游戏运营环节

AI自动化广告投放:目前抖音等平台的广告分发、内容推荐已通过算法实现，且效果较高;

生成广告素材:素材主要是图像及音视频内容，预计AIGC的加持下广告素材生成会更高效、高质量;

玩家分类提升体验:通过不同玩家的数据，将用户细分类型，为不同类型玩家提供独特的玩法，提高用户体验

其他行业

AI + 教育行业人

自动批改作业和考试

虚拟实验室

生成学习资料

翻译文献资料

AI + 金融行业

风险管理

自动处理和分析金融文档

合规管理

4 AIGC的未来展望

AIGC的核心价值

企业赋能

增强创新

降本增效

个人赋能

快速获取信息

提升学习效率

提高工作效率

AIGC的挑战

生成质量

结果幻象、可控性、理解能力

生成精准度、还原度、仿真度

数据隐私及安全

泄露隐私

数字身份冒用

制作虚假信息诈骗

伦理挑战

社会偏见、性别歧视等

“复活”逝者损害已故人的隐私权

知识产权挑战

侵权与被侵权

AIGC的未来

技术进步、更广泛的应用、人机协作、监管框架的发展

技术进步

AIGC的生成质量和准确性将得到提升

更广泛的应用

在更多领域得到应用，如保险、医疗和法律服务等

人机协作

更多地与人类专家协作，以提供更高质量的内容和服务

监管框架的发展

预计将出现更多关于内容生成和使用的监管框架

新兴技术成熟度曲线

数据来源：Gartner（2023年8月）

生成式人工智能（AI）目前处于期望膨胀期，预计将在2~5年内产生巨大效益

到2026年，Gartner预测超过80%的企业将使用生成式AI的API或模型，或在生产环境中部署支持生成式AI的应用，而在2023年初这一比例不到5%。

工作岗位需求变化

图：2024年5月24日麦肯锡报告：《工作的新未来：在欧洲及其他地区部署人工智能和提升技能的竞赛》

显著上升

STEM（科学、技术、工程和数学）相关职业

医疗保健和其他高技能职业

下降显著

办公室职员

生产工人

客户服务代表等传统职业

到 2030 年，欧洲和美国多达30%的工作时间可能实现自动化

技能类型需求变化

图：2024年5月24日麦肯锡报告：《工作的新未来：在欧洲及其他地区部署人工智能和提升技能的竞赛》

技能类型需求变化

技术技能大幅增长

炙手可热的“新宠”技能是社会和情感技能

体力和手动技能的需求预计将保持大致稳定

认知技能(文字和信息处理、编程、科研、工程等）的需求预计将减少14%

与AI共舞

学习AIGC基础知识
积极使用AIGC工具
关注AIGC在各行业的应用案例
跟踪最新发展趋势

5 AIGC的能力揭秘：文本生成

5.1 文本生成的奥秘

AIGC与GPT（通用大模型的代表）

2023年 OpenAI GPT4-多模态大模型

OpenAIGPT的学霸养成过程

GPT:生成式预训练变换模型(Generative Pre-trained Transformer)

3大核心能力

对话能力

多轮对话

任意语言的转换能力

意图和情感理解能力

创作能力

文本总结能力

文本改写能力

文本生成能力

推理能力

对比能力

穷举能力

假设推理能力

5.2 工作原理

LLM:Large Language Model

收到提示词

示例:“今天天气不错，我决定”

将输入拆分为token

[“今天”, “天气”, “不错”, “，”, “我”, “决定”]

采用Transformer架构处理token

理解token之间的关系
识别提示词的整体含义

基于上下文预测下一个token

为可能的单词分配概率分数
示例:

根据概率分数选择标记

示例:“去”

大模型工作过程

阶段1：模型训练

预训练（自监督）

监督微调

人类反馈 / 强化学习

阶段2：推理

接收输入

处理输入

进行推理

生成输出

上下文 + 训练知识

训练语料（gpt-3) & 模型参数

典型的新技能学习曲线：规模到达临界点之后才会迅速增长

模型参数：1.8万亿参数（GPT-4)

GPT-4o : 上下文窗口大小：8192个token(标记)

数据来源	说明
维基百科	在线百科，严谨
图书	经典为主的古登堡计划和自助出版平台 Smashwords 等
杂志期刊	论文: ArXiv 等
链接	WebText, Reddit
Common Crawl	开源项目，爬取互联网所有数据
GitHub	程序员聚集地
合计	- 700 多 GB, 约有 19 万套四大名著的阅读量 - 5000 亿左右的 token 数量。（13 万亿 token:gpt4） - 100 个标记大约等于 75 个英语单词

5.3 生成式通用大语言模型的优势与劣势

优势

语言理解和生成能力

世界知识能力

一定的推理能力

劣势

幻觉（生成错误答案）

知识库有限

上下文窗口限制

5.4 对话能力

如何与GPT对话

使用对话工具

聊天机器人应用访问地址

ChatGPT：https://chatgpt.com/

对话能力-基本对话和多轮对话

基本对话

学会提问
⚫ 明确、具体、避免歧义
⚫ 逻辑清晰
⚫ 上下文信息
⚫ 示范数据

验证输出
⚫ 从回复中找到有价值的部分
⚫ 判断结果质量：初步识别可靠信息
⚫ 评估信息准确性：与其他来源进行对比
⚫ 处理错误信息：指出错误，重新提问

多轮对话

追问 / 澄清 / 引导

对话能力-多轮对话

原理

上下文编码

自注意力机制

限制

上下文窗口限制( 问题+回答总数; 包括字符、标点、空格 )

GPT-3.5：4096，大约3000 个英文单词或 4000 个汉字

GPT-4：8192，大约6000 个英文单词或 8000 个汉字（ https://platform.openai.com/tokenizer ）

使用建议

分段对话

定期总结

使用关键词提醒

精简输入

对话能力-语言转换能力

不同语言

人类语言之间转换

机器语言之间转换

人类语言与机器语言之间转换

限制

人类语言生成能力不同

前5名：英语、西班牙语、法语、德语、中文

机器语言生成能力不同

前4名：python、Java、Typescript、Javascript

使用建议

GPT:使用英文

中文优先选择国内产品

编程尽量选用前4种语言

对话能力--意图和情感分析能力

能力

真实意图

情绪识别

判断行为特点

重要他人

限制

缺乏真正的情感

上下文理解有限

缺乏深层次推理

使用建议

提供清晰具体的信息

简短和连贯的对话

使用明确的情感表达

5.5 创作能力

创作能力-文本分析能力

文本统计

统计字符数、单词数、句子数等基本统计信息

文本摘要

从长文档中提取主要信息，并生成一个简短的概述

文本分类

新闻分类、情感分析（正面、负面、中性）

文本总结

文本的整体内容进行简要概述，通常比文本摘要更为简短

限制

知识更新、长文本理解、数据偏见、数据质量、语境歧义、领域专业知识、新颖和未知类别、不确定性

创作能力-文本润色能力

文本校对

错别字识别与修改、语法错误检查与修正、标点符号调整、词汇选择优化、语句重组与调整、保持一致的写作风格

文本改写

口语转书面语、不同体裁风格、语义保持、文本简化、文本优化、保持一致性

文本扩写

增加细节、举例说明、提供背景信息、解释专业术语或概念、描述过程或步骤、增加文学修辞、提供多种观点等

限制

新词汇与表达、语境误判、高度主观性、文化敏感性和幽默、不断更新的语言规则、知识更新限制、长文本处理能力、用户意图识别

创作能力-使用建议

使用优先级

文本分析>文本润色>文本生成

分段处理长文本
明确和具体的指示
补充背景信息
注意多义词和模糊表达

5.6 推理能力

对比能力

对比分析：事物、概念、人物、事件、文学作品、艺术作品等

列举能力

简单列举任务：组合/排列/序列，简单数学问题等

假设推理能力

多个领域能力不同：历史事件、文学作品解读等

1、限制

主观判断、上下文窗口、非专业算法、数据局限、缺乏常识和领域专长、模型理解能力、过度生成偏见、难以验证答案的准确性

2、使用建议

明确问题和期望
补充背景信息
结合领域知识

6 AIGC的能力揭秘：图像生成

6.1 Stable Diffusion 模型如何实现图像生成？

文生图
图生图（修改图、图像二创、...）

6.2 Stable Diffusion 模型的构成

三大核心组件

文本编码器
图像信息生成器
图像解码器

文本编码器

解析用户输入的提示词
将提示词转化为高维向量表示

图像信息生成器

将输入信息逐步处理和转换为图像数据

图像解码器

接收来自图像信息生成器的处理后的信息矩阵
将信息矩阵转换为可视化的图像

6.3 文生图的优势与局限

优势

降低门槛

提高效率

艺术风格多样化

局限

精确控制困难

随机性太强

复杂场景理解

7 选择AIGC工具

本部分聚焦于如何科学选择和高效应用AIGC工具，以满足不同场景下的多样化需求。

首先，介绍当前AIGC领域的工具类型，包括聊天对话机器人、图像生成工具、音频与视频生成工具以及搜索工具等，并列举了国内外代表性工具。
随后，以DeepSeek-R1、Kimi、豆包、腾讯元宝等具体工具为例，详细分析了它们的特点、优势及适用场景，展示了不同工具在推理能力、多模态支持、长文本处理和搜索效率等方面的差异。
最后，还提出了选择AIGC工具的依据，包括明确需求、评估工具性能和考虑使用成本等，帮助读者根据自身需求做出合理选择。通过深入分析和对比，本部分旨在为读者提供一份实用的AIGC工具选择指南，助力其在AIGC时代更好地应用人工智能技术，提升工作效率和创新能力。

7.1 AIGC工具

AI 产品榜

公众号：AI产品榜

AI工具导航平台：

https://www.aigc.cn

AI工具集：

https://ai-bot.cn

工具类型	国内	国外
聊天对话机器人	DeepSeek、腾讯元宝、豆包、Kimi、智谱清言...	ChatGPT, Claude, X.com (Grok)
图像生成工具	通义万相、即梦、豆包	ChatGPT, Midjourney, Stable Diffusion
音频工具	音疯、网易天音、海绵音乐	Suno
视频生成工具	SkyReels、Vidu、可灵、海螺AI、即梦	Sora, Runway, Pika
搜索工具	秘塔、纳米AI、天工	Perplexity

7.2 现场演示

元宝

腾讯元宝

https://yuanbao.tencent.com/

豆包

豆包

https://www.doubao.com

Kimi

Kimi

https://kimi.moonshot.cn/

超长上下文(一次性阅读50份文档/支持20万字上下文输入) vs. 网络搜索(提高搜索效率 / 减少幻像)

Kimi Copilot插件

音疯

音乐工具：音疯

https://www.yinfeng.cn/create

Vidu

视频生成工具：Vidu

https://www.vidu.cn/

秘塔

搜索工具：秘塔

https://metaso.cn

7.3 如何选择AIGC工具

明确自身需求
评测工具能力
关注使用成本

AIGC工具	工具特点	大模型
DeepSeek	文本模态、推理能力强	DeepSeek-R1
豆包	多模态、语音情感能力强	火山
Kimi	多模态、超长文本、搜索和推理能力强	Kimi-1.5
智谱清言	多模态	GLM-Zero-Preview
通义千问	效率工具、代码能力强	Qwen2.5-Max
腾讯元宝	可以使用微信生态	接入：DeepSeek-R1

7.4 如何提升AIGC使用能力：持续更新自己的AI工具列表

明确使用AI工具的需求和目标
建立使用清单
真实使用中测试和筛选

文本类、绘图类、视频类、语音类、搜索类、设计类、专用工具类（办公类、笔记类、内容转化类...）、智能体类

以1~2个为主，其它为辅

保持2-3周的更新频次

8 总结

AIGC技术正在重塑各个行业的未来，从内容创作到科学研究，从教育到商业应用，潜力无限。
然而，技术的快速发展也带来了新的挑战，面对这些挑战，我们需要保持开放的心态，积极学习AIGC的基础知识，关注其在各行业的应用案例，跟踪最新发展趋势。
与AI共舞，实现AI与人类的完美融合。让我们以DeepSeek-R1（或元宝、豆包、千问、...）为起点，持续探索AIGC的无限可能。在AI时代的技术浪潮中，我们既是见证者，更是参与者。

Y 推荐文献

人工智能的定义与探讨 - 博客园/千千寰宇

X 参考文献

《DeepSeek与AIGC应用 - 北京大学 | PDF》

如有需要，请私信联系

posted @ 2026-02-08 18:39 数据知音阅读(6) 评论(0) 收藏举报

刷新页面返回顶部