AI学习应用_01_大模型初探
对,我还是一枚业务测试牛马。在这AI时代,AI学习应用是必经之路,这里记录下学习过程~~
希望平凡的我、平凡的笔记可以帮助你解开一点点在AI上的疑惑,可以有一点点鼓励到你在工作之余进行微小持续的进步。
一、常⻅⼤模型产品以及特点
-
ChatGPT(OpenAI)
地址:https://chatgpt.com/
特点:结构化提⽰词⽀持友好;学习能⼒、逻辑推理能⼒强
-
⽂⼼⼀⾔(百度)
地址:https://yiyan.baidu.com/
特点:联⽹搜索功能强⼤,适合处理⼀些时效性⽐较⾼的任务
-
通义千问(阿⾥)
地址:https://tongyi.aliyun.com/qianwen/
特点:职场办公能⼒强⼤,可以分析⾳频和视频、实时转录总结会议等语⾳内容
-
Kimi(⽉之暗⾯)
地址:https://kimi.moonshot.cn/
特点:结构化提⽰词⽀持友好;⻓⽂本能⼒强,最⾼⽀持200万字上下⽂处理
-
⾖包(字节跳动)
地址:https://www.doubao.com
特点:易⽤性强,语⾳能⼒强,智能体多,更适合⼩⽩⽤⼾
-
腾讯元宝(腾讯)地址:https://yuanbao.tencent.com
特点:总结公众号⽂章能⼒强,可以⽤来辅助写作公众号⽂章
-
秘塔AI(秘塔)
地址:https://metaso.cn
特点:AI搜索功能强⼤,AI搜索范围更加细化,尤其是学术领域
-
DeepSeek(深度求索)
地址:https://chat.deepseek.com/
特点:开源与低成本:模型训练成本仅为同类1/30,⽀持私有化部署。数学推理与代码⽣成能⼒超越GPT-4,适合复杂任务如代码开发与科研分析。
二、DeepSeek⼤模型特点
- 两个模型
V3:⾮推理型模型,根据预定义的指令和规则来⽣成内容,简单来说就是“你说啥,我做啥”
R1:可推理模型,擅⻓处理复杂任务,它在数学、代码、⾃然语⾔推理等任务上,性能⽐肩OpenAI o1正式版,尤其是中⽂能⼒很强。推理型模型会⾃⼰画草稿纸分步骤思考。⽣成的内容通常具备较⾼的准确性和可解释性(但是不代表没幻觉)。
- 性价比
-
MoE架构
当我们⼈遇到⼀个包括了多个领域知识的复杂问题时,我们该使⽤什么样的⽅法来解决呢?最简单的办法就是把各个领域的专家集合到⼀起来攻克这个任务,当然我们事先要把不同的任务先分离出来, 这样才便于分发给不同领域的专家,让他们来帮忙处理,最后再汇总结论。
混合专家模型(Mixture of Experts:MoE)正是基于这样的理念,它由多个专业化的⼦模型 (即“专家”)组合⽽成(注意不是多个独⽴的⼦模型,⽽是⼀个模型内部划分多个⽹络结构),每 ⼀个“专家”都处理其擅⻓的领域内的任务。⽽决定哪个“专家”参与解答特定问题的,是⼀个称 为“⻔控⽹络”的机制,相当于⼀个路由器。
MoE 的核⼼思想
• 专家(Experts):⼤模型内部被拆分成多个⼩模型(⽐如100个⼩模型),每个⼩模型专⻔学习某 ⼀类知识(⽐如有的擅⻓数学,有的擅⻓语⾔)。
• 路由器(Router):每当你输⼊⼀个问题时,模型⾥有⼀个“智能调度员”(路由器),它会判断 这个问题应该交给哪⼏个专家处理(⽐如选2个最相关的专家)。
• 结果组合:选中的专家们各⾃给出答案,再把这些结果智能地组合成最终输出。
假设你要解决⼀个复杂的问题(⽐如回答⼀个数学题+写⼀⾸诗+画⼀幅画)。如果让⼀个“全能超 ⼈”从头做到尾,他可能会累垮,速度也很慢。
MoE 的做法是:
• 分⼯合作:找⼀群“专业⼩分队”,⽐如数学家、诗⼈、画家,每⼈只负责⾃⼰最擅⻓的部分。
• 按需调⽤:遇到数学题就主要让数学家解决,遇到写诗就让诗⼈来,⽽不是每次都让所有⼈⼀起上。
为什么⽤ MoE?
• 省资源:每次只⽤⼀⼩部分专家,计算量⼤幅降低(⽐如原本⽤100%的算⼒,现在只⽤20%)。
• 效果更好:每个专家专注⾃⼰的领域,整体更专业。
• 模型可以更⼤:因为计算量可控,可以堆更多“专家”提升能⼒(⽐如GPT-4可能⽤了类似技术)。
举个实际例⼦
⽐如你问:“如何做红烧⾁?顺便⽤⼀句诗形容它的美味。”
• 路由器发现前半句是“做菜”,调⽤“厨艺专家”;后半句是“写诗”,调⽤“⽂学专家”。
• 两个专家分别处理,结果合并成最终答案。
- MLA技术
DeepSeek模型的MLA技术(Multi-head Latent Attention,多头潜在注意⼒)是⼀种改进的注意⼒机制设计,主要⽬的是在保持模型性能的同时,显著提升计算效率。我们可以⽤“团队协作+信息摘要”的⽐喻来通俗理解:
传统注意⼒机制的问题:
想象全班同学⼀起讨论问题,每个⼈都要挨个和所有同学交流意⻅(即计算所有token之间的关联)。这种⽅式虽然全⾯,但计算量巨⼤,尤其⾯对⻓⽂本时效率很低。
MLA的核⼼思想:
-
分组合作(Multi-head):把同学分成多个⼩组,每组负责总结不同的信息重点(类似“多头”分⼯)。
-
信息摘要(Latent):每个⼩组不直接传递原始信息,⽽是先对信息进⾏压缩和摘要(如⽤数学⽅法提取关键特征),形成简化的“潜在表⽰”。
-
⾼效交互:⼩组之间通过摘要后的信息进⾏交流,⼤幅减少需要处理的数据量,同时保留关键关联。
MLA的优势:
• 更省资源:通过信息压缩,减少不必要的计算,尤其适合处理⻓⽂本(如整本书、⻓代码)。
• 更快速度:分组和摘要机制让计算并⾏化更⾼效,提升训练和推理速度。
• 保持性能:关键信息在摘要过程中被保留,模型效果不受明显影响。
类⽐举例:
假设你要分析⼀篇⻓篇⼩说中的⼈物关系:
• 传统⽅法:逐句对⽐每个⻆⾊之间的所有互动,耗时极⻓。
• MLA⽅法:先让不同⼩组分别总结“情感线”“事件线”等摘要,再基于摘要快速分析关联,效率 ⼤幅提升。
MLA技术本质是通过“化繁为简”的智能摘要策略,在庞⼤信息中抓住重点,实现效率与精度的平 衡。这⼀设计让DeepSeek模型更适合实际应⽤场景(如⻓⽂本⽣成、代码分析等)。
- 蒸馏技术
简单理解,就是⼀种“教师+学⽣”的架构模型,通过蒸馏技术将⼤规模预训练模型(教师模型)的知识迁移⾄更轻量的学⽣模型,在保持⾼性能的同时显著提升推理效率。就是徒弟通过学习师傅的能⼒,把它迁移到⾃⼰⾝上,然后只保留最核⼼的技能混江湖。
- DeepSeek-R1模型的局限性(来⾃官⽅技术⽂档)
通⽤能⼒
R1 的通⽤能⼒(例如函数调⽤、多轮对话、复杂⻆⾊扮演和json 输出)仍落后于DeepSeek-V3
语⾔混合
R1在处理⾮中英⽂问题时,可能会出现语⾔混杂现象
提⽰词⼯程
R1对提⽰词⽐较敏感,少样本提⽰(few-shot)会持续降低其性能。因此,DeepSeek团队建议⽤⼾直接描述问题并使⽤零样本(zero-shot)设置来指定输出格式,以获得最佳结果

浙公网安备 33010602011771号