AI学习应用_01_大模型初探

对,我还是一枚业务测试牛马。在这AI时代,AI学习应用是必经之路,这里记录下学习过程~~

希望平凡的我、平凡的笔记可以帮助你解开一点点在AI上的疑惑,可以有一点点鼓励到你在工作之余进行微小持续的进步。

 

一、常⻅⼤模型产品以及特点

  1. ChatGPT(OpenAI)

  地址:https://chatgpt.com/

  特点:结构化提⽰词⽀持友好;学习能⼒、逻辑推理能⼒强

  1. ⽂⼼⼀⾔(百度)

  地址:https://yiyan.baidu.com/

  特点:联⽹搜索功能强⼤,适合处理⼀些时效性⽐较⾼的任务

  1. 通义千问(阿⾥)

  地址:https://tongyi.aliyun.com/qianwen/

  特点:职场办公能⼒强⼤,可以分析⾳频和视频、实时转录总结会议等语⾳内容

  1. Kimi(⽉之暗⾯)

  地址:https://kimi.moonshot.cn/

  特点:结构化提⽰词⽀持友好;⻓⽂本能⼒强,最⾼⽀持200万字上下⽂处理

  1. ⾖包(字节跳动)

  地址:https://www.doubao.com

  特点:易⽤性强,语⾳能⼒强,智能体多,更适合⼩⽩⽤⼾

  1. 腾讯元宝(腾讯)地址:https://yuanbao.tencent.com

  特点:总结公众号⽂章能⼒强,可以⽤来辅助写作公众号⽂章

  1. 秘塔AI(秘塔)

  地址:https://metaso.cn

  特点:AI搜索功能强⼤,AI搜索范围更加细化,尤其是学术领域

  1. DeepSeek(深度求索)

  地址:https://chat.deepseek.com/

  特点:开源与低成本:模型训练成本仅为同类1/30,⽀持私有化部署。数学推理与代码⽣成能⼒超越GPT-4,适合复杂任务如代码开发与科研分析。

 

二、DeepSeek⼤模型特点

  1. 两个模型

  V3:⾮推理型模型,根据预定义的指令和规则来⽣成内容,简单来说就是“你说啥,我做啥”

  R1:可推理模型,擅⻓处理复杂任务,它在数学、代码、⾃然语⾔推理等任务上,性能⽐肩OpenAI o1正式版,尤其是中⽂能⼒很强。推理型模型会⾃⼰画草稿纸分步骤思考。⽣成的内容通常具备较⾼的准确性和可解释性(但是不代表没幻觉)。

  1. 性价比
  DeepSeek的训练成本相对极低,例如DeepSeek-R1的训练成本仅为600万美元,⽽GPT-4的训练成本 ⾼达数⼗亿美元。这使得其在市场竞争中极具吸引⼒,⼤⼤降低了企业和个⼈使⽤⾼性能AI服务的⻔槛,能以更低的成本实现与国际顶级模型对标。
  1. MoE架构

  当我们⼈遇到⼀个包括了多个领域知识的复杂问题时,我们该使⽤什么样的⽅法来解决呢?最简单的办法就是把各个领域的专家集合到⼀起来攻克这个任务,当然我们事先要把不同的任务先分离出来, 这样才便于分发给不同领域的专家,让他们来帮忙处理,最后再汇总结论。

  混合专家模型(Mixture of Experts:MoE)正是基于这样的理念,它由多个专业化的⼦模型 (即“专家”)组合⽽成(注意不是多个独⽴的⼦模型,⽽是⼀个模型内部划分多个⽹络结构),每   ⼀个“专家”都处理其擅⻓的领域内的任务。⽽决定哪个“专家”参与解答特定问题的,是⼀个称 为“⻔控⽹络”的机制,相当于⼀个路由器。

  MoE 的核⼼思想

  • 专家(Experts):⼤模型内部被拆分成多个⼩模型(⽐如100个⼩模型),每个⼩模型专⻔学习某 ⼀类知识(⽐如有的擅⻓数学,有的擅⻓语⾔)。

  • 路由器(Router):每当你输⼊⼀个问题时,模型⾥有⼀个“智能调度员”(路由器),它会判断 这个问题应该交给哪⼏个专家处理(⽐如选2个最相关的专家)。

  • 结果组合:选中的专家们各⾃给出答案,再把这些结果智能地组合成最终输出。

  假设你要解决⼀个复杂的问题(⽐如回答⼀个数学题+写⼀⾸诗+画⼀幅画)。如果让⼀个“全能超 ⼈”从头做到尾,他可能会累垮,速度也很慢。

  MoE 的做法是:

  • 分⼯合作:找⼀群“专业⼩分队”,⽐如数学家、诗⼈、画家,每⼈只负责⾃⼰最擅⻓的部分。

  • 按需调⽤:遇到数学题就主要让数学家解决,遇到写诗就让诗⼈来,⽽不是每次都让所有⼈⼀起上。

  为什么⽤ MoE?

  • 省资源:每次只⽤⼀⼩部分专家,计算量⼤幅降低(⽐如原本⽤100%的算⼒,现在只⽤20%)。

  • 效果更好:每个专家专注⾃⼰的领域,整体更专业。

  • 模型可以更⼤:因为计算量可控,可以堆更多“专家”提升能⼒(⽐如GPT-4可能⽤了类似技术)。

  举个实际例⼦

  ⽐如你问:“如何做红烧⾁?顺便⽤⼀句诗形容它的美味。”

  • 路由器发现前半句是“做菜”,调⽤“厨艺专家”;后半句是“写诗”,调⽤“⽂学专家”。

  • 两个专家分别处理,结果合并成最终答案。

  1. MLA技术

  DeepSeek模型的MLA技术(Multi-head Latent Attention,多头潜在注意⼒)是⼀种改进的注意⼒机制设计,主要⽬的是在保持模型性能的同时,显著提升计算效率。我们可以⽤“团队协作+信息摘要”的⽐喻来通俗理解:

  传统注意⼒机制的问题:

  想象全班同学⼀起讨论问题,每个⼈都要挨个和所有同学交流意⻅(即计算所有token之间的关联)。这种⽅式虽然全⾯,但计算量巨⼤,尤其⾯对⻓⽂本时效率很低。

  MLA的核⼼思想:

  • 分组合作(Multi-head):把同学分成多个⼩组,每组负责总结不同的信息重点(类似“多头”分⼯)。

  • 信息摘要(Latent):每个⼩组不直接传递原始信息,⽽是先对信息进⾏压缩和摘要(如⽤数学⽅法提取关键特征),形成简化的“潜在表⽰”。

  • ⾼效交互:⼩组之间通过摘要后的信息进⾏交流,⼤幅减少需要处理的数据量,同时保留关键关联。

  MLA的优势

  • 更省资源:通过信息压缩,减少不必要的计算,尤其适合处理⻓⽂本(如整本书、⻓代码)。

  • 更快速度:分组和摘要机制让计算并⾏化更⾼效,提升训练和推理速度。

  • 保持性能:关键信息在摘要过程中被保留,模型效果不受明显影响。

  类⽐举例

  假设你要分析⼀篇⻓篇⼩说中的⼈物关系:

  • 传统⽅法:逐句对⽐每个⻆⾊之间的所有互动,耗时极⻓。

  • MLA⽅法:先让不同⼩组分别总结“情感线”“事件线”等摘要,再基于摘要快速分析关联,效率 ⼤幅提升。

  MLA技术本质是通过“化繁为简”的智能摘要策略,在庞⼤信息中抓住重点,实现效率与精度的平 衡。这⼀设计让DeepSeek模型更适合实际应⽤场景(如⻓⽂本⽣成、代码分析等)。

 

  1. 蒸馏技术

  简单理解,就是⼀种“教师+学⽣”的架构模型,通过蒸馏技术将⼤规模预训练模型(教师模型)的知识迁移⾄更轻量的学⽣模型,在保持⾼性能的同时显著提升推理效率。就是徒弟通过学习师傅的能⼒,把它迁移到⾃⼰⾝上,然后只保留最核⼼的技能混江湖。

 
  1. DeepSeek-R1模型的局限性(来⾃官⽅技术⽂档)

  通⽤能⼒

  R1 的通⽤能⼒(例如函数调⽤、多轮对话、复杂⻆⾊扮演和json 输出)仍落后于DeepSeek-V3

  语⾔混合

  R1在处理⾮中英⽂问题时,可能会出现语⾔混杂现象

  提⽰词⼯程

  R1对提⽰词⽐较敏感,少样本提⽰(few-shot)会持续降低其性能。因此,DeepSeek团队建议⽤⼾直接描述问题并使⽤零样本(zero-shot)设置来指定输出格式,以获得最佳结果

 

 
posted @ 2025-08-30 12:08  阳光倾林  阅读(35)  评论(0)    收藏  举报