关于对未来AI(大模型)发展的猜想
从Seq2seq的出现证明了 Transformers 框架的非凡意义之后, 这一框架得到广泛的应用, 并在众多(通用,垂直)领域展现出相应的出色能力, 现在(2022-2025)几乎市面上所有的模型都是基于 Transformers 的框架所研发,人们都在围绕如何使用更好的策略,更精妙的算法来训练这种LLM,纵观整个 模型构建的流程, 从数据的收集与处理(得到高质量数据), Transformers 框架(基底模型)的构建方法(策略), 训练数据构建的方法, 训练的方法, 在发现了 上下文,多轮对话,幻觉,准确性,通用性与专业性等等方面的问题之后, 围绕这些问题一直向着解决问题的路前进, 本人忽然之间产生了一个疑问
Transformers 这个框架开发出来的 LLM 可以称之为 大预测模型(本质上看),那么当用户把 run 代码出来一堆报错信息上直接喂给大模型, 它能否在整个输入进来的 token 信息当中找到 最为核心的信息(报错的关键,caused by)?它必然会受到其他无关信息的token输入所影响,这时候它预测下一个词(生成回答)真的能够解决用户的问题吗? 刚才的场景也许大多数模型可以解决, 但我想指出的是, 如果代码小白长时间拷问模型(多轮对话)之后, 这一影响应该会愈来愈扩大, 直接导致一系列问题(上文提及的), 而目前大势所趋则是专注于开发垂直领域的模型,一定程度上回避了这种问题, 杀鸡就用杀鸡刀, 不指望能够持续的更为智能的解决问题(或者是别的领域的问题)
那自然就会对 本质 进行思考,Transformers 框架能用到什么时候? 当 模型参数堆叠的越来越高, 训练方法能够 形成各种各样适应不同场景的的完整套路和框架时, 那时候 AI 这一概念会变得像 MOSS 如此"智能"吗? 能够真的自己思考吗? 能够自己对创作出来的画(文生图模型)进行修改与思考加以润色吗?
- 虽然现在 文生图模型 的表现令人惊叹(no banana pro),各大模型厂商推出自己巧思训练与构建出来的优秀模型,在多模态不同领域布局(形成完备的 文,图,视频(有些本质是截取帧(本质还是图),有些则未知(自己认知太少...))), agent(现在只能结合IDE和浏览器))
想到agent,也是从垂直领域开始发展,向着 天网发展(这么刺激吗),如果能结合软件(如 GIS,sql,pr,ps等等)让普通人也能更好上手, 那更是一项颠覆和广阔的市场
先不论 这种"老掉牙"的问题,ai能够自我维修,自我更新,自我开展生产活动的时候是何年何月(不论能不能实现)
但从 Transformers 框架来看, 这个框架 是做不到这种程度的, 必然会达到一个饱和状态, 故我大胆预测(从大学生的视角),
- 目前 it 行业雨沐春笋般的涌现 对于大模型的需求,大多数(华子未知)也都是在 Transformers 框架上的要求 -> 导致->什么时候饱和?("我"就业的时候行情还像2025年一样要求都很基础吗?)
(算法(应该是训练为主),开发(ui等等),运维(Ai Infra),产品(宣传,当我看到广告说是开发 mc 新玩法问AI,xx游戏上分问ai时我不经觉得可笑(但是很好的尝试,也必须有这方面的探索)))
- 瓶颈倒不太会遇到, Transformers 框架的改良与更新也会出现
- 其他框架的出现(更类似于人类的思考,反思以及审美?),造就颠覆性(类似于从Siri到gpt)
但最为合理的顺序是:
transformers框架 -> 接近饱和 -> 改良框架 -> 稳定饱和
(并行时间线)-----出现许多新框架(效果一般)---->颠覆性新框架
结合算力,国产化,存储(光学存储Deepseek提出)(也许是一种新趋势)的进步水到渠成
仅胡乱猜想,无论证,注意甄别
而一枚学生能做的无非还是紧跟大环境与时代
沉淀,知行合一...

浙公网安备 33010602011771号