大模型基本原理详解

什么是AI
从1946年第一台通用计算机诞生,计算机程序在不断的演化,1997年IBM开发出了深蓝,战胜了国际象棋冠军,2016年谷歌开发出了AlphaGo战胜了围棋冠军,从AlaphGo出现以后,各种各样的人工智能开始出现在生活中,如语音识别图像识别,但是这个阶段人工只能还只是能完成某个功能的小模型,直到2022年11月,通用人工智能也就是我们所说的大模型Gpt出现,一切开始有些不一样了
那人工智能和程序员所写出来的程序有什么区别呢?有一种观点认为,传统程序是基于规则和搜索的,也就是程序员去编写逻辑分支以此来决定执行什么功能,但人工智能是基于机器学习,神经网络的,我们可以把人工智能视为一个“人”,它可以通过“学习”,自己判断要做什么事情。
大模型AI能做什么
大模型,严格来说是大语言模型,英文全称Large Language Model,缩写LLM,现在人们用的最多的还是和大模型对话的功能(注意:我们平时用的对话工具并不是大模型本身),但是大模型所能做的事情不止是对话,比如
结构化信息
image

对信息进行分类
image

解决技术问题
image

简单来说,能解决的问题,比想象的要多,所以是通用人工智能(AGI)
像对待人一样对待大模型
前面提到,大模型可以通过学习来判断自己要做什么事情,传统的程序也就是机器思维是我做了什么功能就只有什么功能,而大模型可以做到干中学,给大模型输入,然后得到反馈(可能好可能坏),然后根据反馈调整大模型的行为(像不像在带实习生?)
image

所以大模型可以理解为一个函数,给到输入,生成输出,任何可以用语言描述的问题都可以以文本的形式输入给大模型,然后生成结果文本
进一步推论,是不是任意的数据都可以输给大模型,然后输出任意的数据?
英伟达CEO黄仁勋2024年6月2日在Computex上的演讲提到各种模态数据的统一支持
也就是我们常说的多模态大模型,那多模态是如何做到的呢?
大模型GPT时代:一切皆向量
image

我们在学编程的时候都听过类似的话:python的一切皆对象,linux的一切皆文件,在大模型的世界中,一切都是向量,不管是音频,视频,文本,图片,最终都会被转化为向量的形式进行处理

大模型是如何工作的
通俗版本
根据上下文,猜下一个词出现的概率。。
比如说,今天是周一,天气很好,我很( ),有A 不开心,B 开心,C 钝角,大模型会计算ABC三个选项各自可能出现的概率,然后选概率最高的那个。
不过这个说法也太通俗了,这个概率又是怎么算出来的呢?
不太通俗的版本
大模型工作有两个核心过程训练和推理,所谓训练就是学习过程,推理就是用的过程
打个比方
今天是周一,天气很好,我很开心
今天是周一,天气很好,我很不开心
今天是周一,天气很好,我很钝角
今天是周一,天气很好,我很开朗
上面四句话中开后面跟着心的概率最高,大模型就会记住这个概率,等到实际推理的时候,会根据概率把心拼接上去
不太严谨的描述就是

学习

大模型阅读人类所有的语言资料,这个叫机器学习
训练中会把不同的token出现的概率存在神经网络文件里,保的这些数据就是参数,也叫权重

推理

把若干的token给到大模型的推理程序,程序会加载之前计算过的权重,然后计算概率最高的下一个token是什么
用生成出的token,联系上下文,继续推算下一个token,循环往复

token

token可以简单的理解为文字,或是英文单词,或是汉字可能是一个,也可能是半个
大模型训练之前需要训练tokenizer模型,把所有的文本切分成token
1个英文字符约等于0.3个token,一个中文字符约等于0.6个token

特别不通俗的版本
这套生成机制基于transformer,是目前最流行人工智能领域最流行的架构
机器学习约等于机器去找一个函数
函数可以说是对现实世界某种规律的抽象,文本大模型回去找处理文本的函数,图片大模型回去找处理图片的函数
image

假定我们现在有一个函数:
y=ax + b
当 x=1 时 y=7
当 x=0 时 y=5
求a,b
我们将x,y 带入进去,可以轻易的得出 a=2 b=5
y=a
x+b 就可以理解为是大模型要选择使用的函数
当 x=1 时 y=7 当 x=0 时 y=5 这一部分可以理解为训练数据
a=2 b=5 可以理解为输出的结果
但是现实世界是非常复杂的所以大模型的参数也会非常非常多
image

那大模型是如何去确定该用哪个函数呢?
首先,我们会框定一个候选函数的集合,然后去指定评估函数好坏的标准,最后把函数交给大模型去计算,不断的校准,最后找到最好的那个函数
当然实际的过程要复杂的多,比如transform的训练过程
image

想要理解这个过程,我们需要先了解下向量是什么?
标量,向量,矩阵,张量
标量可以理解为一个点
那向量就是一堆标量连起来的一条线
矩阵是由向量组成的面
张量就是由矩阵组成的立方体
不管是图片,文本,还是音视频,都会通过Embedding转换为向量空间中的数据
比如我们现在有一句话 "The cat set"
image

在完成向量化之后,下一步就是通过注意力机制区分权重,所谓的注意力机制和我们人类阅读文章类似,我们会有比较关注的句子或者词,注意力机制则是通过权重进行区分
下图是高度简化的计算示例
image

然后,数据会给到前馈神经网络(现在还不知道是个啥)进行进一步处理,最后进行输出
那么对大模型的基本原理有了了解,该如何使用大模型和进行落地呢
大模型的使用
通过刚才的了解,大模型和人其实是很像的,整个过程基本上是 输入,学习,输出,矫正,循环往复的。
所以在用ai的时候一定要把ai当人看
下面是一些使用大模型的好习惯

使用大模型,不同的话题要开启新的会话(如果我一会儿问你编程,一会儿问你做饭,一会儿又问你航空母舰,你会不会懵逼);

明确指令和问题:尽量使问题或指令简洁明确,避免多重含义或复杂结构,帮助模型更好理解和响应(需求复杂且不清晰的苦程序员都吃过)。

分步进行:如果问题复杂,可以将问题拆解成几个小问题,逐步处理。这不仅能提高准确度,还能避免模型处理过于庞大的信息(大问题拆成小问题)。

上下文保留:在多个会话中,如果需要参考之前的对话,可以适当提及或复述关键点,避免丢失上下文(要不断的提醒他我们刚才聊过什么)。

分配优先级:针对多个任务或问题,可以为每个话题分配优先级,先处理最重要或最紧急的内容(重要紧急,不重要紧急,重要不紧急,不重要不紧急)。

适应模型的限制:了解模型的处理能力和上下文长度限制,避免在同一会话中输入过长的文本,尤其是如果涉及大量信息时,分割问题会更有效(大模型的输入输出和处理的文本长度是有限制的,字越多越慢)。

反馈循环:在与模型交互时,如果模型的回答不完全或不符合预期,可以及时提供反馈和补充说明,让模型逐步优化回答(输入,学习,输出,校正)。

使用特定的格式或模板:如果是处理特定类型的任务或问题(如代码、数学问题、写作任务),可以为输入提供特定的格式或模板,以帮助模型更准确地理解任务需求。

大模型的短板
大模型也不是万能的,现阶段下仍然有不少短板

对时效性内容的处理: 由于大型模型通常在某个时间点之前的数据上训练,它们可能无法处理最新的事件或信息。例如,对于最近发生的新闻事件或新兴的流行文化现象,模型可能缺乏理解,GPT4最近最新2023年4月。

幻觉、不准确性和滥用风险: 大型模型可能产生“幻觉”,即提供错误但看似合理的文本。这可能导致误信息的传播,甚至被用于非法或不道德目的。例如,恶意使用者可能利用模型生成看似来自可信出版物的文章,作为假新闻传播。

泛化能力的局限性: 泛化能力指的是一个模型在处理新的、未见过的数据时的表现能力虽然大型模型在多个任务上表现出色,但在处理特定、罕见或新颖的情况时可能表现不佳

难以解释和透明性差: 大型模型通常是“黑箱”,即使是模型的开发者也无法完全理解模型是如何配置自身以产生文本的。这导致了解释或解释AI/ML算法的新框架的发展,但由于模型规模的增大,解释性AI/ML方法变得日益复杂。

大模型的落地
虽然从deepseek上线之后,各行各业都在想办法进行ai化,但是大模型现阶段的落地仍然差强人意

大模型现在没有杀手级的应用,也就是市面上没有一个大模型应用可以说完全的替代某一个领域的其他工具,当下只是对旧有的应用场景进行增强
以ai为核心的产品仍然没有出现,现在市面上的产品大多数都是以ai为辅助,智能助手干不过小爱,siri,搜索类谷歌百度仍然坚挺,定制化的Agent应用商业模式没有成型,比如dify,扣子,要说最成功的,就是程序员的噩梦,AI编程应用,比如:Cursor,marscode。。
当下能落地ai的还是那些所谓的大厂,比如美图秀秀P图更厉害了。。。
要说最成功的的,还是企业内部的降本增效,比如可以通过半AI化来完成的工作,不需要那么多人了,一些分析报告,文档可以让ai写,还有初级的客服工作等等(感觉离被优化越来越近了呢)

本文转载自稀土掘金用户71128392847

posted @ 2025-10-22 09:19  PKUSRZ  阅读(0)  评论(0)    收藏  举报