01 NLP 的三大发展阶段

链接:【NLP公开课01:后GPT时代,NLP领域的机遇与挑战】

从2011年第三次人工智能革命开启,自然语言处理领域已经经历了三大发展阶段:

  1. 探索阶段:2011~2015(前Transformer时代)

在 AlphaGo 和 卷积网络 掀起第三次人工智能革命之前,NLP 领域主要依赖人工规则和知识库构建非常精细的 “规则类语言模型”,当人工智能浪潮来临后,NLP 转向使用统计学模型、深度学习模型和大规模语料库。在这个阶段,NLP 领域的重要目标是 “研发语言模型、找出能够处理语言数据的算法”。因此在这个阶段,NLP 领域学者们一直在尝试一些重要的技术和算法,如隐马尔可夫模型(HMM)、条件随机场(CRF)和支持向量机(SVM)。同时,这个阶段也见证了循环 神经网络 RNN 和 长短期记忆网络 LSTM 等神经网络模型的出现和发展。

  1. 提升阶段:2015~2020(Transformer时代)

RNN 和 LSTM 是非常有效的语言模型,但是和在视觉领域大放光彩的卷积网络比起来,RNN 对语言的处理能力只能达到 “小规模数据上勉强够用” 的程度。2015年谷歌将自注意力机制发扬光大、提出了 Transformer 架构,在未来的几年中,基于 transformer 的 BERT、GPT 等语言模型相继诞生,因此**这个阶段 NLP 领域的重要目标是 “大幅提升语言模型在自然语言理解和生成方面的能力” **。这是自然语言处理理论发展最辉煌的时代之一。此外,这个阶段中语言模型已经能够很好地完成 NLP 领域方面的各个任务,因此工业界也实现了不少语言模型的应用,比如搜索引擎、推荐系统、自动翻译、智能助手等。

  1. 应用阶段:2020-至今(大模型时代)

2020年秋天、GPT3.0 所写的小软文在社交媒体上爆火,这个总参数量超出 1750w、每运行 1s 就要消耗 100w 美元的大语言模型(Large Language Models,LLMs)为 NLP 领域开启了一个全新的阶段。在这一阶段,大模型在许多 NLP 任务上取得了前所未有好成绩,在模型精度、模型泛化能力、复杂任务处理能力方面都展示出了难以超越的高水准,这吸引了大量资本的注意、同时也催生了 NLP 领域全新的发展方向与研究方向。相比起2020年前百花齐放、理论极速发展的研究阶段,现阶段 NLP 领域的核心目标主要集中在大模型研发 & 大模型技术变现两大方向上:

  1. 如何研发、训练自己的大模型?

虽然 GPT 系列大模型的原理并未开源,但 GPT 的成功无疑为 “如何提升语言模型表现” 指出了一条明路。在 GPT 的启发下,海内外各大科技企业正在研发基于 BERT、基于 GPT 或基于 Transformer 其他组合方式的大模型,国内一线大模型 ChatGLM 系列就是基于 BERT 和 GPT 的融合理念开发的中文大模型。同时,大模型研发和训练技术、如生物反馈式强化学习(RLFH)、近端策略优化(PPO)、奖励权重策略(Reward-based Weighting)、DeepSpeed 训练引擎等发展迅速,势不可挡。虽然现在已不是 NLP 理论发展的高峰,但毫无疑问,大模型算法研发与训练依然是 NLP 最前沿的研究方向之一。

  1. 如何降低大模型应用门槛与应用成本?

大模型吞吃大量语料、训练成本极高,要将大模型应用到具体商业场景、还需进一步研究和训练。因此降低大模型应用成本的预训练、微调、大规模语料库构建等技术正蓬勃发展!自2020年以来已诞生十余种可行的微调方法和自动语料生成方法,如有监督微调(SFT)、低阶自适应微调方法 LoRA、提示词前缀微调方法 Prefix Tuning、轻量级 Prefix 微调 Prompt Tuning、百倍效率提升的微调方法 P-Tuning V2、以及自适应预算分配微调方法 AdaLoRA 等。这些方法催生了 GPT4.0 和大量语言方面落地应用,已经大大改变了 NLP 的研究和应用格局。

  1. 如何化技术为产品,实现大语言模型的商业应用?

大语言模型在变现方面有两大优势:首先,大语言模型的性能十分强大、足以很好地支持各类 NLP 方面服务;其次,大语言模型使用自然语言与消费者交互,可以大幅降低新产品的使用门槛,还可以与图像、语音等领域强势联动、形成多模态的产品。基于这两点变现优势,自动翻译、智能助手、文本分析、情感分析等经典 NLP 任务都有了实用且价格低廉的 APP 产品,人们在日常生活工作中更是有无限的机会接触到各类基于大模型技术的 NLP 应用,家庭物联网、语音指令等技术更是已经走入千家万户,一些谐星的领域,如 AI 算命、AI 佛祖、AI 心理咨询师等也相继诞生……

同时,随着大模型应用门槛和使用门槛都逐步降低,大量的大模型产品不断涌现—— ChatGPT、跨语言代码编译工具 Cursor、Github 官方代码编写工具 CopilotX、一键生成 PPT 内容的 Gamma AI,office 全家桶中配置的 Copilot、Photoshop 中配置的 fill features,广泛生成图像的 MidJourney 和 Stable Diffusion……这些应用不仅改变了商业的运营方式,也极大地影响了人们的生活和工作。同时,大模型 APP 研发范式 LangChain 也受到了大规模追捧,LangChain 正在逐步构建基于大模型研发变现产品的行业规范,很快整个人工智能领域都将迎来大规模变现的时代。

posted @ 2026-01-21 10:47  yiyou_liangdian  阅读(1)  评论(0)    收藏  举报