[AI] 人工智能发展历程

0 导言

背景导入:2025年春节,火爆全网的DeepSeek-R1

image

1 人工智能发展历程

1.1 人工智能的发展历程

image

1.2 AIGC的发展历程

image

1.3 大模型的概念术语

image

  • 多模态
  • 文本、图片、音频、视频
  • AI工具(国内)
  • DeepSeek、 豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索...
  • 通用模型
  • 大语言模型(LLM,Large Language Model)
  • 视频模型
  • 多模态模型
  • ……
  • 行业模型(垂直模型、垂类模型)
  • 教育、医疗、金融等

1.4 大模型的关键发展

image

1.5 生成模型与推理大模型的对比

比较项 GPT-4o(生成模型) DeepSeek-R1(推理模型)
模型定位 专注于通用自然语言处理和多模态能力,适合日常对话、内容生成、翻译以及图文、音频、视频等信息处理、生成、对话等。 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高难度问题求解和专业领域应用,在中文表达上容易出彩。
推理能力 在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题求解)上准确率较低。 在复杂推理任务表现卓越,尤其擅长数学、代码推理任务,在部分基准测试(如GPOA)中准确率高于GPT-4o。
多模态支持 支持文本、图像、音频乃至视频输入,可处理多种模态信息。 当前主要支持文本输入,不具备图像处理等多模态能力。
应用场景 适合广泛通用任务,如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流;面向大众市场和商业应用。 适合需要高精度推理和逻辑分析的专业任务,如数学竞赛、编程问题和科学研究;在思路清晰度要求高的场景具有明显优势,比如采访大纲、方案梳理;在对中文语言表达和情感表达方面有明显优势。
用户交互体验 提供流畅的实时对话体验,支持多种输入模态;用户界面友好,适合大众使用。 可展示大部分链式思考过程,便于专业用户理解推理过程;界面和使用体验具有较高的定制性,但整体交互节奏较慢。

1.6 推理模型的优劣势

  • 优势
  • 演绎或归纳等推理能力强(如谜题、数学证明)
  • 链式思维推理出色(善于分解多步骤问题)
  • 擅长复杂决策任务
  • 可以呈现思考过程
  • 劣势
  • 响应速度慢且计算成本高(需要更多推理时间)
  • 基于知识的任务更容易出错(容易产生幻觉)
  • 处理简单任务的时候效率低(容易"过度思考")

1.7 常见推理模型

  • DeepSeek R1
  • OpenAI o1
  • OpenAI o3-mini
  • Gemini 2.0
  • Grok3
  • Kimi 1.5

2 AIGC的概念定义

本部分着重介绍人工智能生成内容(AIGC)的定义、应用范围及其在各行业的实际影响。

首先梳理AIGC相关的术语,包括AI、AGI、生成式AI和决策式AI等,明确了其在人工智能领域的定位。随后,详细列举AIGC在文本、图像、音频和视频生成方面的多样化应用,并探讨其在电商、新闻传媒、影视、游戏、教育和金融等行业的具体实践,展示AIGC在提升效率、降低成本和增强创新方面的核心价值。

2.1 初识AIGC

眼花缭乱的名词

image

image

AI
AIGC = AI Generated Content
AGI(通用人工智能) := Artificical General Intelligence

人与AI的能力层次划分

image

概念辨析

机器学习 > 深度学习 | 自然语言处理、机器学习、知识图谱、数据挖掘、语音处理

image

人工智能的定义与探讨 - 博客园/千千寰宇

AI ⊃ 机器学习 ⊃ 深度学习AI ⊃ NLP、AIGC、AI Agent

概念 全称 核心定义 定位 / 属性
AI Artificial Intelligence 人工智能,是让机器模拟人类智能行为的技术总称(如推理、学习、决策) 总范畴、顶层概念
机器学习 (ML) Machine Learning AI的核心技术分支,让机器从数据中学习规律,无需人工编程即可自主优化模型 AI 的技术基础
深度学习 (DL) Deep Learning 机器学习的子集,基于多层神经网络(如 CNN、Transformer)处理复杂数据(图像、文本) 机器学习的进阶技术
NLP Natural Language Processing 自然语言处理,AI 的细分领域,专注于让机器理解和生成人类语言 AI 的垂直应用领域
AIGC AI-Generated Content 人工智能生成内容,AI 的应用方向,指机器自动生成文本、图像、音频等内容 AI 的应用场景
AGI Artificial General Intelligence 通用人工智能,具备与人类同等的通用智能,能胜任任何人类可完成的智力任务 AI 的终极目标(未实现)
AI Agent AI 智能体 能自主感知环境、制定决策、执行任务的 AI 系统(如自动客服、智能机器人) ——
  • 关键逻辑关系:
  • 包含关系: AI ⊃ 机器学习 ⊃ 深度学习AI ⊃ NLP、AIGC、AI Agent
  • 交叉关系:
  • NLP的技术核心是机器学习/深度学习(如用Transformer做语言模型);
  • AIGC的主流技术是深度学习(如GPT用于文本生成、Stable Diffusion用于图像生成);
  • AI Agent通常整合NLP、机器学习等技术,实现自主决策;
  • AGI是所有AI技术的最终追求,目前的AI都属于狭义AI(ANI),仅能解决特定任务。

2.2 AIGC 能干什么?

image

AI文本

image

  • AI Coding / AI 编程
Cursor
Windsurf
MarsCode
GitHub Copilot
阿里云通义灵码
  • AI搜索
Perplexity
知乎直答
秘塔AI搜索引擎
纳米AI搜索
微信搜索(DeepSeek R1、元宝)
  • 社交媒体、新媒体运营
小红书的笔记助手
短视频平台的内容创意
自动回复机器人
企业微信的智能回复
...
  • 内容创作
微软“小冰”出版诗集
AI撰写剧本电影《阳春》
百万字小说《天命使徒》
清华大学的《机忆之地》
  • 新闻出版
英国广播公司(BBC)的Juicer
彭博社的Cyborg
新华社的快笔小新
人民日报的创作大脑
第一财经的DT稿王

AI绘画

image

2022年8月,获得比赛“数字艺术/数字修饰照片”一等奖

image

image

新西湖繁胜全景图

全景图是一副百米画卷,再现了当下西湖边的景观特色、生活场景,还有一些已经消失的景观,比如曾经闻名遐迩的大佛寺。
图中包含5000个建筑,作者白小苏说如果这些建筑都要自己亲手画,一天画10个都要500天。最后他借助于AI技术,在一年内完成了作品

AI音频

image

  • 语音对话 / 创作音乐 / 语音克隆 / 情感陪聊 / ...

AI视频

image

  • 千秋诗颂 / 视频特效 / 视频添加图片

3 AIGC 的行业应用

行业应用

image

电商行业

image

  • 商品3D模型,改善购物体验
  • AI 模特,产品拍摄降本增效
  • 虚拟主播,提升直播带货效率

内容广告

image

  • 全流程参与,提高效率
  • 雪花啤酒虚拟偶像,提升品牌宣传效果

传媒出版

image

影视创作

image

游戏行业

  • 01 体验 : 增强游戏体验

特定风格模拟:AI通过模仿职业选手,玩家则感觉像在与真实的职业选手对抗;
玩法教学:帮助玩家快速熟悉操作与游戏玩法,提高游戏可玩性。

  • 02 功能 : 游戏性能测试

前期平衡性测试:充分模拟玩家在某套数值体系下的游戏体验,提出优化策略;
游戏功能测试:针对性找出游戏交互的可能性,发现潜在漏洞辅助游戏策划。

  • 03 角色 : NPC角色生成

AI创造不同的面孔、服饰、声音甚至性格特征,甚至可同步驱动嘴型、表情等面部变化,达到高度逼真;并通过大量数据模拟人类运动,完成行走、跑步等一系列动作反应。

  • 04 剧情 : 剧情生成

AI智能NPC能够分析玩家的实时输入,与玩家动态交互,构建几乎无限且不重复的剧情;
AI能够生产相关的图文、音乐等,创造游戏素材,辅以剧情铺排,提升剧情饱满度。

  • 05 策略 : 游戏策略生成

让AI感知环境、自身状态并基于特定目标决定当下需要执行的动作,基于特定问题和场景,自主提出解决方案。

image

AIGC 游戏研发环节作用

  • 游戏运营环节
  • AI自动化广告投放:目前抖音等平台的广告分发、内容推荐已通过算法实现,且效果较高;
  • 生成广告素材:素材主要是图像及音视频内容,预计AIGC的加持下广告素材生成会更高效、高质量;
  • 玩家分类提升体验:通过不同玩家的数据,将用户细分类型,为不同类型玩家提供独特的玩法,提高用户体验

其他行业

image

  • AI + 教育行业人
  • 自动批改作业和考试
  • 虚拟实验室
  • 生成学习资料
  • 翻译文献资料
  • AI + 金融行业
  • 风险管理
  • 自动处理和分析金融文档
  • 合规管理

4 AIGC的未来展望

AIGC的核心价值

image

  • 企业赋能
  • 增强创新
  • 降本增效
  • 个人赋能
  • 快速获取信息
  • 提升学习效率
  • 提高工作效率

AIGC的挑战

image

  • 生成质量
  • 结果幻象、可控性、理解能力
  • 生成精准度、还原度、仿真度
  • 数据隐私及安全
  • 泄露隐私
  • 数字身份冒用
  • 制作虚假信息诈骗
  • 伦理挑战
  • 社会偏见、性别歧视等
  • “复活”逝者损害已故人的隐私权
  • 知识产权挑战
  • 侵权与被侵权

AIGC的未来

技术进步、更广泛的应用、人机协作、监管框架的发展

image

  • 技术进步
  • AIGC的生成质量和准确性将得到提升
  • 更广泛的应用
  • 在更多领域得到应用, 如保险、医疗和法律 服务等
  • 人机协作
  • 更多地与人类专家协 作,以提供更高质量 的内容和服务
  • 监管框架的发展
  • 预计将出现更多关于内容生成和使用的监管框架

新兴技术成熟度曲线

image

  • 数据来源:Gartner(2023年8月)
  • 生成式人工智能(AI)目前处于期望膨胀期,预计将在2~5年内产生巨大效益
  • 到2026年,Gartner预测超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用,而在2023年初这一比例不到5%。

工作岗位需求变化

image

图:2024年5月24日麦肯锡报告:《工作的新未来:在欧洲及其他地区部署人工智能和提升技能的竞赛》

  • 显著上升
  • STEM(科学、技术、工程和数学) 相关职业
  • 医疗保健和其他高技能职业
  • 下降显著
  • 办公室职员
  • 生产工人
  • 客户服务代表等传统职业

到 2030 年,欧洲和美国多达30%的工作时间 可能实现自动化

技能类型需求变化

image

图:2024年5月24日麦肯锡报告:《工作的新未来:在欧洲及其他地区部署人工智能和提升技能的竞赛》

  • 技能类型需求变化
  • 技术技能大幅增长
  • 炙手可热的“新宠”技能是社会和情感技能
  • 体力和手动技能的需求预计将保持大致稳定
  • 认知技能(文字和信息处理、编程、科研、工程等)的需求预计将减少14%

与AI共舞

image

  • 学习AIGC基础知识
  • 积极使用AIGC工具
  • 关注AIGC在各行业的应用案例
  • 跟踪最新发展趋势

5 AIGC的能力揭秘:文本生成

5.1 文本生成的奥秘

AIGC与GPT(通用大模型的代表)

image

2023年 OpenAI GPT4-多模态大模型

OpenAIGPT的学霸养成过程

GPT:生成式预训练变换模型(Generative Pre-trained Transformer)

image

3大核心能力

image

  • 对话能力
  • 多轮对话
  • 任意语言的转换能力
  • 意图和情感理解能力
  • 创作能力
  • 文本总结能力
  • 文本改写能力
  • 文本生成能力
  • 推理能力
  • 对比能力
  • 穷举能力
  • 假设推理能力

5.2 工作原理

LLM:Large Language Model

image

  1. 收到提示词

示例:“今天天气不错,我决定”

  1. 将输入拆分为token

[“今天”, “天气”, “不错”, “,”, “我”, “决定”]

  1. 采用Transformer架构处理token

理解token之间的关系
识别提示词的整体含义

  1. 基于上下文预测下一个token

为可能的单词分配概率分数
示例:

  1. 根据概率分数选择标记

示例:“去”

大模型工作过程

image

  • 阶段1:模型训练
  • 预训练(自监督)
  • 监督微调
  • 人类反馈 / 强化学习
  • 阶段2:推理
  • 接收输入
  • 处理输入
  • 进行推理
  • 生成输出

上下文 + 训练知识

训练语料(gpt-3) & 模型参数

image

  • 典型的新技能学习曲线:规模到达临界点之后才会迅速增长
  • 模型参数:1.8万亿参数(GPT-4)
  • GPT-4o : 上下文窗口大小:8192个token(标记)
数据来源 说明
维基百科 在线百科,严谨
图书 经典为主的古登堡计划和自助出版平台 Smashwords 等
杂志期刊 论文: ArXiv 等
链接 WebText, Reddit
Common Crawl 开源项目,爬取互联网所有数据
GitHub 程序员聚集地
合计 - 700 多 GB, 约有 19 万套四大名著的阅读量
- 5000 亿左右的 token 数量。(13 万亿 token:gpt4)
- 100 个标记大约等于 75 个英语单词

5.3 生成式通用大语言模型的优势与劣势

  • 优势
  • 语言理解和生成能力
  • 世界知识能力
  • 一定的推理能力
  • 劣势
  • 幻觉(生成错误答案)
  • 知识库有限
  • 上下文窗口限制

5.4 对话能力

如何与GPT对话

image

使用对话工具

  • 聊天机器人应用访问地址

ChatGPT:https://chatgpt.com/

image

对话能力-基本对话和多轮对话

image

  • 基本对话
学会提问
⚫ 明确、具体、避免歧义
⚫ 逻辑清晰
⚫ 上下文信息
⚫ 示范数据

验证输出
⚫ 从回复中找到有价值的部分
⚫ 判断结果质量:初步识别可靠信息
⚫ 评估信息准确性:与其他来源进行对比
⚫ 处理错误信息:指出错误,重新提问
  • 多轮对话

追问 / 澄清 / 引导

  • 对话能力-多轮对话

image

  • 原理
  • 上下文编码
  • 自注意力机制
  • 限制
  • 上下文窗口限制( 问题+回答总数; 包括字符、标点、空格 )
  • 使用建议
  • 分段对话
  • 定期总结
  • 使用关键词提醒
  • 精简输入

对话能力-语言转换能力

image

  • 不同语言
  • 人类语言之间转换
  • 机器语言之间转换
  • 人类语言与机器语言之间转换
  • 限制
  • 人类语言生成能力不同
  • 前5名:英语、西班牙语、法语、德语、中文
  • 机器语言生成能力不同
  • 前4名:python、Java、Typescript、Javascript
  • 使用建议
  • GPT:使用英文
  • 中文优先选择国内产品
  • 编程尽量选用前4种语言

对话能力--意图和情感分析能力

image

  • 能力
  • 真实意图
  • 情绪识别
  • 判断行为特点
  • 重要他人
  • 限制
  • 缺乏真正的情感
  • 上下文理解有限
  • 缺乏深层次推理
  • 使用建议
  • 提供清晰具体的信息
  • 简短和连贯的对话
  • 使用明确的情感表达

5.5 创作能力

image

创作能力-文本分析能力

image

  • 文本统计

统计字符数、单词数、句子数等基本统计信息

  • 文本摘要

从长文档中提取主要信息,并生成一个简短的概述

  • 文本分类

新闻分类、情感分析(正面、负面、中性)

  • 文本总结

文本的整体内容进行简要概述,通常比文本摘要更为简短

限制

知识更新、长文本理解、数据偏见、数据质量、语境歧义、领域专业知识、新颖和未知类别、不确定性

创作能力-文本润色能力

image

  • 文本校对

错别字识别与修改、语法错误检查与修正、标点符号调整、词汇选择优化、语句重组与调整、保持一致的写作风格

  • 文本改写

口语转书面语、不同体裁风格、语义保持、文本简化、文本优化、保持一致性

  • 文本扩写

增加细节、举例说明、提供背景信息、解释专业术语或概念、描述过程或步骤、增加文学修辞、提供多种观点等

  • 限制
  • 新词汇与表达、语境误判、高度主观性、文化敏感性和幽默、不断更新的语言规则、知识更新限制、长文本处理能力、用户意图识别

创作能力-使用建议

  • 使用优先级

文本分析>文本润色>文本生成

  • 分段处理长文本
  • 明确和具体的指示
  • 补充背景信息
  • 注意多义词和模糊表达

5.6 推理能力

  • 对比能力
  • 对比分析:事物、概念、人物、事件、文学作品、艺术作品等
  • 列举能力
  • 简单列举任务:组合/排列/序列,简单数学问题等
  • 假设推理能力
  • 多个领域能力不同:历史事件、文学作品解读等

1、限制

主观判断、上下文窗口、非专业算法、数据局限、缺乏常识和领域专长、模型理解能力、过度生成偏见、难以验证答案的准确性

2、使用建议

明确问题和期望
补充背景信息
结合领域知识

6 AIGC的能力揭秘:图像生成

6.1 Stable Diffusion 模型如何实现图像生成?

image

  • 文生图
  • 图生图(修改图、图像二创、...)

6.2 Stable Diffusion 模型的构成

三大核心组件

image

  • 文本编码器
  • 图像信息生成器
  • 图像解码器

文本编码器

  • 解析用户输入的提示词
  • 将提示词转化为高维向量表示

image

图像信息生成器

  • 将输入信息逐步处理和转换为图像数据

image

图像解码器

  • 接收来自图像信息生成器的处理后的信息矩阵
  • 将信息矩阵转换为可视化的图像

image

6.3 文生图的优势与局限

  • 优势
  • 降低门槛
  • 提高效率
  • 艺术风格多样化
  • 局限
  • 精确控制困难
  • 随机性太强
  • 复杂场景理解

7 选择AIGC工具

本部分聚焦于如何科学选择和高效应用AIGC工具,以满足不同场景下的多样化需求。

  • 首先,介绍当前AIGC领域的工具类型,包括聊天对话机器人、图像生成工具、音频与视频生成工具以及搜索工具等,并列举了国内外代表性工具。

  • 随后,以DeepSeek-R1、Kimi、豆包、腾讯元宝等具体工具为例,详细分析了它们的特点、优势及适用场景,展示了不同工具在推理能力、多模态支持、长文本处理和搜索效率等方面的差异。

  • 最后,还提出了选择AIGC工具的依据,包括明确需求、评估工具性能和考虑使用成本等,帮助读者根据自身需求做出合理选择。通过深入分析和对比,本部分旨在为读者提供一份实用的AIGC工具选择指南,助力其在AIGC时代更好地应用人工智能技术,提升工作效率和创新能力。

7.1 AIGC工具

AI 产品榜

image

公众号:AI产品榜

  • AI工具导航平台:
  • AI工具集:

image

工具类型 国内 国外
聊天对话机器人 DeepSeek、腾讯元宝、豆包、Kimi、智谱清言... ChatGPT, Claude, X.com (Grok)
图像生成工具 通义万相、即梦、豆包 ChatGPT, Midjourney, Stable Diffusion
音频工具 音疯、网易天音、海绵音乐 Suno
视频生成工具 SkyReels、Vidu、可灵、海螺AI、即梦 Sora, Runway, Pika
搜索工具 秘塔、纳米AI、天工 Perplexity

7.2 现场演示

元宝

  • 腾讯元宝

image

豆包

  • 豆包

https://www.doubao.com

image

Kimi

  • Kimi

https://kimi.moonshot.cn/

image

超长上下文(一次性阅读50份文档/支持20万字上下文输入) vs. 网络搜索(提高搜索效率 / 减少幻像)

  • Kimi Copilot插件

image

音疯

  • 音乐工具:音疯

https://www.yinfeng.cn/create

image

Vidu

  • 视频生成工具:Vidu

https://www.vidu.cn/

image

秘塔

  • 搜索工具:秘塔

https://metaso.cn

image

7.3 如何选择AIGC工具

  • 明确自身需求
  • 评测工具能力
  • 关注使用成本
AIGC工具 工具特点 大模型
DeepSeek 文本模态、推理能力强 DeepSeek-R1
豆包 多模态、语音情感能力强 火山
Kimi 多模态、超长文本、搜索和推理能力强 Kimi-1.5
智谱清言 多模态 GLM-Zero-Preview
通义千问 效率工具、代码能力强 Qwen2.5-Max
腾讯元宝 可以使用微信生态 接入:DeepSeek-R1

7.4 如何提升AIGC使用能力:持续更新自己的AI工具列表

  1. 明确使用AI工具的需求和目标
  2. 建立使用清单
  3. 真实使用中测试和筛选
  • 文本类、绘图类、视频类、语音类、搜索类、设计类、专用工具类(办公类、笔记类、内容转化类...)、智能体类
  • 以1~2个为主,其它为辅
  1. 保持2-3周的更新频次

8 总结

  • AIGC技术正在重塑各个行业的未来,从内容创作到科学研究,从教育到商业应用,潜力无限。

  • 然而,技术的快速发展也带来了新的挑战,面对这些挑战,我们需要保持开放的心态,积极学习AIGC的基础知识,关注其在各行业的应用案例,跟踪最新发展趋势。

  • 与AI共舞,实现AI与人类的完美融合。让我们以DeepSeek-R1(或元宝、豆包、千问、...)为起点,持续探索AIGC的无限可能。在AI时代的技术浪潮中,我们既是见证者,更是参与者。

Y 推荐文献

X 参考文献

  • 《DeepSeek与AIGC应用 - 北京大学 | PDF》

如有需要,请私信联系

posted @ 2026-02-08 18:39  数据知音  阅读(6)  评论(0)    收藏  举报