AI基本概念

AI

AI,全称Artificial Intelligence,人工智能。 顾名思义,让机器发展出像人一样的智能,可以看到、听到、思考、判断,然后根据经验作出决策。

AI的定义及核心逻辑

人工智能(AI)不是科幻电影里的机器人,而是「用数据训练出的超级模仿者」, 它的核心靠三驾马车:

数据:AI的「学习素材」,AI的学习就是去找规律,只有数据越多,找到规律的可能性就越高,就越准确。

算法:AI的「大脑」,决定如何理解以及处理数据,就像我们每个人的大脑,理解不一样,处理事件的结果以及效率也就不一样。所以不同平台的AI产品,相当于拥有不同的“大脑”,最终导致算法、结果也不一样

算力:AI的「体力」——芯片,所有数据的理解以及处理(算法)都是计算,只有算力越高,计算的速度就会越快,使用AI时得到的反馈才会越快。

AI的分类

按功能分类

弱AI(专用型):像偏科学霸,AlphaGo下棋无敌但不会生成文章和图片。

强AI(通用型):目前还未实现的「全能天才」,能像人类一样跨领域学习。

按能力分类

感知智能:能够识别和理解图像、声音和语言等信息的AI。

认知智能:具备理解、推理和决策能力的AI,如自然语言处理(NLP)和专家系统。

创造力智能:能够创造新内容的AI,涉及音乐、艺术和写作等领域。

目前市面上的AI产品都包括以上三种智能,只是每个AI产品的侧重点不一样。

当然,还有一些其它分类,比如:按学习能力分类按行业领域分类等,这里就不一一赘述。

AIGC

定义及核心逻辑

AIGC(AI Generated Content)是指由人工智能自动创作生成的内容,它接收人类下达的任务指令,凭借AI的理解能力、想象力和创作能力的加持,它能够根据指定的需求创作出各种内容,例如文章、短篇小说、报告、音乐、图像甚至是视频。

AIGC核心技术

GAN(生成对抗网络):原理基于对抗训练,由两个主要组件构成:生成器(Generator)和判别器(Discriminator)‌。生成器的任务是接收随机噪声作为输入,通过深度神经网络的变换生成逼真的数据样本,目标是生成尽可能真实的数据以欺骗判别器;而判别器的任务是区分输入的数据是真实数据还是由生成器生成的假数据,目标是尽可能准确地区分真实数据和生成数据。相当于两个艺术家相互博弈,一个负责尽可能的生成逼真的作品,一个尽可能的找出作品的破绽,在双方博弈的过程中就会生成以假乱真的作品。

Transformer架构:是一种基于自注意力机制的深度学习模型,其核心点在于注意力机制。相当于我们在聊天时会关注人家说的关键字以及主题,不会导致聊天过程中严重跑题,这样AI生成的文章或者对话内容才是我们所需要的,而不是天马行空,一锅乱炖。

Diffusion Models(扩散模型):一种基于概率论的生成模型,其灵感来源于物理学中的扩散过程。‌扩散模型的核心思想是通过模拟数据的逐步噪声化(前向扩散过程)和逆向去噪声化(逆向生成过程)来生成高质量的数据样本。比如:询问AI生成新图片的流程是AI先生成一张模糊的图片,然后再逐步恢复到清晰的图片,像剥洋葱一样,从噪点中逐步生成高清图像。(图片生成模型Stable Diffusion就是利用该技术构建)

通过以上3种技术的结合,AIGC拥有了无比强大的优势:1分钟生成100张海报初稿、一段文字直接生成图像……

AIGC工作流程(以生成图片为例)

目标:我需要生成一只赛博朋克风格的戴着墨镜的老虎,老虎正在吃鸡腿

输入指令:你告诉AI“一只戴墨镜的大老虎正在吃鸡腿,赛博朋克风格”。

文字编码:AI把这句话拆解成关键词(大老虎、墨镜、赛博朋克、鸡腿)。

扩散生成:从噪点图开始,一步步调整,让画面逐渐符合你的描述。

输出结果:生成一张从没存在过的图片,但看起来合理。

AIGC可以生成的内容

AIGC(AI Generated Content)可以生成多种类型的内容,而随着技术的发展,其范围还在不断扩大。目前,一些常见的AIGC内容包括:

文字:AIGC可以与人类进行实时对话,生成各种风格的文字,如诗歌、故事、计算机代码等。
图像:AIGC可以通过文字或图片生成各种类型的图像,辅助人类进行绘画设计和发挥想象力。它可以分为图像自主生成工具和图像编辑工具两类。
视频:AIGC可以根据文字描述生成连贯的视频情节,例如广告片、电影预告片、教学视频、音乐视频等。它也可以用作视频剪辑工具。
音频:AIGC可以生成逼真的音效,包括语音克隆、语音合成、文本转换为特定音频、音乐生成和声音效果等。
游戏:AIGC可以辅助游戏的剧情设计、角色设计、配音和音乐、美术原画设计、游戏动画、3D模型、地图编辑器等方面。
虚拟人:AIGC可以生成虚拟明星、虚拟恋人、虚拟助手、虚拟朋友等虚拟角色。这些虚拟人存在于非物理世界(如图片、视频、直播、一体服务机、VR)中,并具有多重人类特征的综合产物。

AGI

定义及核心逻辑

AGI(Artificial General Intelligence,人工通用智能)是人工智能领域的一个重要概念,指具备与人类相当(或超越人类)的广泛认知能力的人工智能系统。与目前主流的狭义人工智能(Narrow AI)(如语音助手、图像识别、围棋程序AlphaGo等)不同,AGI的目标是让机器能像人类一样灵活学习、推理、适应新环境,并解决多种类型的任务,而不仅限于单一领域。

核心逻辑

1、底层能力:构建“世界模型”

让AI像婴儿一样,通过观察、互动、试错,自发总结世界的运行规律(比如下雪温度会下降、火会烫伤)。

2、核心机制:元学习(学习如何学习)

先掌握“学习方法论”,再根据方法论快速适应新任务。 例如:学会“如何观察环境→分析因果关系→制定策略→验证结果”这一流程后,无论是学做饭、写代码还是谈判,都能复用同一套思维框架。

3、通用性本质:跨领域抽象与迁移

从具体经验中提取抽象原则(如“工具的本质是延伸能力”),遇到新问题时,将原则跨领域组合(比如用“杠杆原理”同时解决撬石头、设计机械臂、投资杠杆等问题),好比人类学会用菜刀切菜,则就可以将该经验应用到刀砍树上面。

4、自主目标系统:动态生成意图

自我设定目标:基于对世界的理解,主动产生需求(如“探索未知领域”“优化生存效率”),就好比你徒手去搬砖,发觉搬砖手疼,你就会想着去做一双手套,这就是自我设定目标。

5、自主探索:处理“未知的未知”

遇到未知情况,AGI能够自主探索解决方案。比如现在需要用苹果砸玻璃,但是苹果太软砸不烂,AI见过用石头砸碎玻璃,所以它想到先把苹果冻住,再去砸玻璃,这就是AI自主探索解决方案的过程。

总结起来,核心逻辑就是把AGI当做一颗智能种子,只要给它提供合适的“土壤”和“水分”,他就能自己生根发芽,自主进化。

应用场景

真正的理想中的AGI并未完全落地,现在落地的都是狭义增强型AGI,主要集中在垂直领域任务优化,更多的还是人机协作,增强效率,比如:

电商领域:智能商品数据分析、直播数字人

金融科技:智能风控、智能投顾、智能研报

教育行业:口语陪练、作业批改

游戏行业、工业领域也有非常多的落地,这里就不一一列举了,随着未来技术的发展,相信真正的AGI应用落地也指日可待。

多模态AI

在许多AI专家的言论中,多模态AI是一个常提及的关键词。

多模态AI指的是能够处理和理解多种类型数据(如图像、文本、音频等)的人工智能技术。目前的AI技术主要专注于处理文字数据,而多模态AI则具备处理更多种类信息的能力。

AI大模型

AI大模型,或称为预训练大模型,是一种机器学习模型,具备处理各种信息(如图像、文字、声音等)的能力,并通过训练来完成复杂任务。

在这里,「预训练」可以类比为学生学习知识的过程,机器也需要通过学习和训练来获取相关的知识和技能,以应对各种任务。AI预训练大模型通过在不同领域进行大规模训练,来掌握广泛的知识和技能。

RAG(检索增强生成)与AI Agent(AI智能体)

RAG和AI Agent就是目前AI应用落地实施过程中用的最多的2种技术,下面将会分别对这2种技术进行介绍。

RAG:给AI装上「实时搜索引擎」

RAG翻译过来叫检索增强生成,顾名思义,就是每次在生产内容时“我”先去查找一下相关知识,结合这些查找到的知识进行内容的生成,这样给出的答案会合理更具可解释性。

为什么需要这种技术?

一方面是现在市面上大家用到的大模型绝大多数都是通用大模型,训练用的数据也是有时效性,比如我用2025/2/16号之前的数据进行训练,那么这个大模型就只能知道2025/2/16之前的知识,后面的知识它是没有的,那么你问他之后的问题,它就没法回答你,或者是编造个回答,另一方面,很多企业在做内容生成或者是问答式应用时需要结合企业内部的知识去做,单纯的大模型也不可能包含企业内部的知识,所以需要借助其他技术去让大模型能够获得你的知识。

AI Agent:你的24小时数字员工

AI Agent(AI智能体)是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,AI Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。

Prompt

定义

Prompt 是一种指令或信息,它引导或触发 AI 系统做出回应。在与 AI 如 ChatGPT 的交互中,每当我们输入一段文字,无论是问题、命令还是陈述,这段文字就是一个 Prompt。

你可以想象 AI 是一位知识渊博的朋友,拥有广泛的信息和技能。当你与她对话时,你提出的每个问题或评论(即“Prompt”)都是对话的一部分。比如,你可能会问她:“你对最近的科技发展有什么看法?”或者说:“请帮我概括一下太阳能的工作原理。”在这个情境中,每个问题或请求都是一个“Prompt”,引导你的朋友(AI)提供相关的信息、观点或执行特定的任务。

就像在与人的交谈中一样,你的“Prompt”的质量和清晰度将直接影响到对方的回应。清晰具体的问题会得到更精确和有用的答复。如果你的问题模糊不清,你的朋友可能会需要更多的信息来提供有用的答案。同样,当你给 AI 一个清晰、明确的“Prompt”时,它可以更有效地理解你的请求并给出更准确的回应。

作用

  • 触发回应:Prompt 是与 AI 进行交流的起点,它告诉 AI 我们需要什么样的信息或反应。
  • 引导对话:通过使用特定的 Prompt,我们可以引导 AI 沿着特定的思路或话题进行回答。
  • 影响输出:AI 的回应会根据 Prompt 的内容而变化。一个明确、具体的 Prompt 通常会得到更精确和相关的回答。

SKill

Skills 翻译成中文就是“技能”。

什么叫技能?技能就是你执行某件事的方法论。

举个生活中的例子:我会打羽毛球。当球飞过来,我拿起球拍,在合适的时机、用合适的力度击球,让球准确落在对方场地,这一整套操作逻辑,就叫“技能”。

在 AI 界,Skills 就是让大模型按照某种特定的方法论去行动的机制。

有人会说:“这不就是提示词(Prompt)吗?”

你可以把它理解为 “超级进化版的提示词”。因为它比普通提示词强得多,通常由三部分组成:
image

  1. 元数据 (Metadata): 包含对这个技能的简短描述。它保存在全局上下文中,因为体积小,所以非常节省 Tokens(省钱又省心)。
  2. 行动指南 (Action Guide): 这部分才是真正的提示词,规定了 AI 每一步该怎么做。
  3. 资源文件 (Resources): 这是最厉害的地方!它可能包含 Python 代码 或其他执行程序,保证程序在调用 Skill 时能完成复杂的动作。

Skill 是一份写给 AI 看的"操作说明书",它告诉 Agent 在什么情况下该做什么事。这听起来简单,但背后隐藏着一个根本性的范式转变:

  • 普通函数:被代码调用,编译器知道何时执行
  • Skill:被 LLM 的推理过程"读懂"后决定要不要用

说人话就是:想象你教一个新员工做事。传统编程就像给他一本详细的操作手册,每一步都写死;而 Skill 更像是给他一个任务描述和一些指导原则,让他自己判断在什么情况下该采取什么行动。这就是"被执行"和"被理解"的本质区别。

举例

比如你问 DeepSeek 或者 Claude:“帮我画一张茶壶的海报。”

常规的大模型由于不具备绘图引擎,它顶多只能给你写一段描述图片的文字(Prompt),没法直接甩给你一张图片,但有了 Skills 之后,大模型就可以直接调用“绘图 Skill”。这个 Skill 里面包含了绘图的 Python 脚本,大模型在后台跑一下代码,啪的一声,海报图片就直接生成并保存到你的文件夹里了。

假设你想让 AI 帮你“订一张明天去北京的机票”。

  • 没有 Skill 的 AI:他只能纸上谈兵。他会告诉你:“去北京可以通过携程或飞猪购买,明天的航班大概有这些……”但他没办法真正帮你下单,因为他被困在对话框里,没办法和外面的订票系统联网。
  • 安装了“订票 Skill”的 AI:他不仅能查到航班,还能直接调用订票网站的接口,帮你把名字填好、选好座位,甚至把付款链接生成给你。

在这里,“连接订票网站并进行操作的能力”,就是这个 AI 的一个 Skill

常见的 AI Skill 有哪些?

现在的智能体(Agent)平台,允许人们像搭积木一样给 AI 组合不同的 Skill:

  • 联网搜索 Skill:让 AI 突破知识库的时间限制,去百度、谷歌实时抓取今天的最新新闻。
  • 文生图 Skill:接入了 Midjourney 或 DALL-E,让本只能敲文字的 AI 具备了画画的能力。
  • 代码执行 Skill:AI 自己写了一段 Python 代码后,这个 Skill 能让他在后台秘密运行这段代码,直接把分析好的 Excel 表格交给你。
  • 日程管理 Skill:可以读取并修改你的手机日历,帮你查缺补漏、安排会议。

总结一下:Skills 就是把“提示词”+“执行脚本”+“上下文优化”打包在一起的超级工具包。

为什么需要这种新范式?

传统函数的局限性

在传统的软件开发中,函数调用是确定性的:

# 你在代码里明确写这一行
result = getUserInfo(userId)

编译器或解释器知道这是在调用一个函数,参数是什么,返回值是什么。但这种模式在 AI Agent 场景下遇到了问题:

  1. 用户意图不明确:用户说"帮我看看有什么新消息",这可能涉及邮件、社交媒体、即时通讯等多个渠道
  2. 上下文动态变化:同样的"查天气"指令,在不同时间、地点、场景下可能需要不同的处理方式
  3. 组合爆炸:为每一种可能的用户表达方式写一个函数是不可能的

Skill 的解决方案

Skill 通过自然语言描述来解决这些问题:

---
name: github
description: Interact with GitHub repositories — create issues, review PRs, check CI status, and manage branches.
---
## When to use this skill
Use when the user mentions GitHub, pull requests, issues, CI/CD, or asks to review / merge / create code changes.

LLM 在推理时会"看到"所有可用的 Skill 描述,然后根据当前上下文自主判断是否需要激活某个 Skill。

Tool

什么是 Tool?

如果你去翻看大模型(比如 OpenAI 或各种开源框架)的底层底层文档,你会发现 Tool 在代码里的名字通常叫 ToolsFunction Calling(函数调用)

说人话:Tool 的本质,就是一段完全没有 AI 智能的、硬核的计算机代码、一个 API 接口,或者一个数学公式。

  • 大模型(LLM)自己是一个“文科生”,擅长聊天、推理、组织语言,但它不擅长数数、不知道实时发生的新闻、也打不开你电脑上的文件。
  • Tool 就是开发者递给这个文科生的各种“实体工具”(比如计算器、钢尺、浏览器、数据库钥匙)。

举个例子

假设你想让 AI 帮你“算一下 13982 乘以 48291 等于多少”。

  • 没有 Tool 的 AI:它是在用脑子里的“概率”去猜下一个数字。面对这么大的数字,它大概率会算错,或者胡编一个看似合理的答案。
  • 拥有 Tool(计算器)的 AI:它看到这个算式后,自己不硬算。它会把 1398248291 提取出来,扔给后台的一个纯代码计算器(Tool)。计算器一瞬间吐出绝对精准的答案 675,204,762,AI 拿到结果,再汇报给你。

在这个过程中,那个“100% 保证算对的计算器代码”,就是一个标准的 Tool。

为什么 AI 要依赖 Tool?

因为大模型有三大致命的“先天缺陷”,必须靠 Tool 来补救:

  1. 它没有实时眼睛:大模型的知识是停留在训练那一天的。想知道今天的新闻?必须给它一个“联网搜索 Tool”。
  2. 它数学和逻辑经常翻车:面对复杂的公式或统计。必须给它一个“Python 代码执行 Tool”,让它把问题写成代码去跑出正确答案。
  3. 它被困在对话框里:它没办法直接帮你订机票、发邮件、改文档。想让它干活?必须给它接入各个软件的 “API 接口 Tool”(比如发送邮件的 Tool、修改日程的 Tool)。

至于怎么让 AI 学会去用这个 Tool?那就是给它配个 技能说明书(Skill) 的事了,这里我们略过不表。

Skill vs Tool:

概念 本质 类比 例子
Tool 执行权限 你的手和眼睛 exec
(执行shell命令)、web_fetch
(读取网页)
Skill 操作说明书 教你怎么用手的教程 github
(教Agent怎么用gh CLI)

自然语言处理(NLP)

自然语言处理(NLP)可以被看作是一种使计算机能够理解和使用人类语言的技术。举个例子,当你对手机说:“打开天气应用,查看明天的天气。”这就涉及到了自然语言处理。你的手机需要理解你的指令——意思是什么,你想要做什么,然后才能执行正确的动作。

自然语言处理需要使用许多开源工具和软件,它们能够帮助研究人员处理语言数据,降低开发门槛,加快自然语言处理技术的进步速度。

这些开源工具和软件提供了处理文本、语音和语义的功能,包括分词、词性标注、句法分析、语义理解等。它们提供了丰富的算法和模型,可以帮助处理和分析大量的语言数据,并提供有用的信息和洞察力。

通过使用这些开源工具和软件,研究人员和开发者能够更有效地构建自然语言处理应用程序,使计算机在语言理解和生成方面更加智能和灵活。这促进了自然语言处理技术的不断进步和应用领域的拓展。

posted @ 2026-06-12 15:51  柠凉w  阅读(2)  评论(0)    收藏  举报