AI学习应用_01_大模型初探

对，我还是一枚业务测试牛马。在这AI时代，AI学习应用是必经之路，这里记录下学习过程~~

希望平凡的我、平凡的笔记可以帮助你解开一点点在AI上的疑惑，可以有一点点鼓励到你在工作之余进行微小持续的进步。

一、常⻅⼤模型产品以及特点

ChatGPT（OpenAI）

　　地址：https://chatgpt.com/

　　特点：结构化提⽰词⽀持友好;学习能⼒、逻辑推理能⼒强

⽂⼼⼀⾔（百度）

　　地址：https://yiyan.baidu.com/

　　特点：联⽹搜索功能强⼤，适合处理⼀些时效性⽐较⾼的任务

通义千问（阿⾥）

　　地址：https://tongyi.aliyun.com/qianwen/

　　特点：职场办公能⼒强⼤，可以分析⾳频和视频、实时转录总结会议等语⾳内容

Kimi（⽉之暗⾯）

　　地址：https://kimi.moonshot.cn/

　　特点：结构化提⽰词⽀持友好;⻓⽂本能⼒强，最⾼⽀持200万字上下⽂处理

⾖包（字节跳动）

　　地址：https://www.doubao.com

　　特点：易⽤性强，语⾳能⼒强，智能体多，更适合⼩⽩⽤⼾

腾讯元宝（腾讯）地址：https://yuanbao.tencent.com

　　特点：总结公众号⽂章能⼒强，可以⽤来辅助写作公众号⽂章

秘塔AI（秘塔）

　　地址：https://metaso.cn

　　特点：AI搜索功能强⼤，AI搜索范围更加细化，尤其是学术领域

DeepSeek（深度求索）

　　地址：https://chat.deepseek.com/

　　特点：开源与低成本：模型训练成本仅为同类1/30，⽀持私有化部署。数学推理与代码⽣成能⼒超越GPT-4，适合复杂任务如代码开发与科研分析。

二、DeepSeek⼤模型特点

两个模型

　　V3：⾮推理型模型，根据预定义的指令和规则来⽣成内容，简单来说就是“你说啥，我做啥”

　　R1：可推理模型，擅⻓处理复杂任务，它在数学、代码、⾃然语⾔推理等任务上，性能⽐肩OpenAI o1正式版，尤其是中⽂能⼒很强。推理型模型会⾃⼰画草稿纸分步骤思考。⽣成的内容通常具备较⾼的准确性和可解释性（但是不代表没幻觉）。

性价比

　　DeepSeek的训练成本相对极低，例如DeepSeek-R1的训练成本仅为600万美元，⽽GPT-4的训练成本⾼达数⼗亿美元。这使得其在市场竞争中极具吸引⼒，⼤⼤降低了企业和个⼈使⽤⾼性能AI服务的⻔槛，能以更低的成本实现与国际顶级模型对标。

MoE架构

　　当我们⼈遇到⼀个包括了多个领域知识的复杂问题时，我们该使⽤什么样的⽅法来解决呢？最简单的办法就是把各个领域的专家集合到⼀起来攻克这个任务，当然我们事先要把不同的任务先分离出来，这样才便于分发给不同领域的专家，让他们来帮忙处理，最后再汇总结论。

　　混合专家模型（Mixture of Experts：MoE）正是基于这样的理念，它由多个专业化的⼦模型（即“专家”）组合⽽成（注意不是多个独⽴的⼦模型，⽽是⼀个模型内部划分多个⽹络结构），每　　⼀个“专家”都处理其擅⻓的领域内的任务。⽽决定哪个“专家”参与解答特定问题的，是⼀个称为“⻔控⽹络”的机制，相当于⼀个路由器。

　　MoE 的核⼼思想

　　• 专家（Experts）：⼤模型内部被拆分成多个⼩模型（⽐如100个⼩模型），每个⼩模型专⻔学习某⼀类知识（⽐如有的擅⻓数学，有的擅⻓语⾔）。

　　• 路由器（Router）：每当你输⼊⼀个问题时，模型⾥有⼀个“智能调度员”（路由器），它会判断这个问题应该交给哪⼏个专家处理（⽐如选2个最相关的专家）。

　　• 结果组合：选中的专家们各⾃给出答案，再把这些结果智能地组合成最终输出。

　　假设你要解决⼀个复杂的问题（⽐如回答⼀个数学题+写⼀⾸诗+画⼀幅画）。如果让⼀个“全能超⼈”从头做到尾，他可能会累垮，速度也很慢。

　　MoE 的做法是：

　　• 分⼯合作：找⼀群“专业⼩分队”，⽐如数学家、诗⼈、画家，每⼈只负责⾃⼰最擅⻓的部分。

　　• 按需调⽤：遇到数学题就主要让数学家解决，遇到写诗就让诗⼈来，⽽不是每次都让所有⼈⼀起上。

　　为什么⽤ MoE？

　　• 省资源：每次只⽤⼀⼩部分专家，计算量⼤幅降低（⽐如原本⽤100%的算⼒，现在只⽤20%）。

　　• 效果更好：每个专家专注⾃⼰的领域，整体更专业。

　　• 模型可以更⼤：因为计算量可控，可以堆更多“专家”提升能⼒（⽐如GPT-4可能⽤了类似技术）。

　　举个实际例⼦

　　⽐如你问：“如何做红烧⾁？顺便⽤⼀句诗形容它的美味。”

　　• 路由器发现前半句是“做菜”，调⽤“厨艺专家”；后半句是“写诗”，调⽤“⽂学专家”。

　　• 两个专家分别处理，结果合并成最终答案。

MLA技术

　　DeepSeek模型的MLA技术（Multi-head Latent Attention，多头潜在注意⼒）是⼀种改进的注意⼒机制设计，主要⽬的是在保持模型性能的同时，显著提升计算效率。我们可以⽤“团队协作+信息摘要”的⽐喻来通俗理解：

　　传统注意⼒机制的问题：

　　想象全班同学⼀起讨论问题，每个⼈都要挨个和所有同学交流意⻅（即计算所有token之间的关联）。这种⽅式虽然全⾯，但计算量巨⼤，尤其⾯对⻓⽂本时效率很低。

　　MLA的核⼼思想：

分组合作（Multi-head）：把同学分成多个⼩组，每组负责总结不同的信息重点（类似“多头”分⼯）。

信息摘要（Latent）：每个⼩组不直接传递原始信息，⽽是先对信息进⾏压缩和摘要（如⽤数学⽅法提取关键特征），形成简化的“潜在表⽰”。

⾼效交互：⼩组之间通过摘要后的信息进⾏交流，⼤幅减少需要处理的数据量，同时保留关键关联。

　　MLA的优势：

　　• 更省资源：通过信息压缩，减少不必要的计算，尤其适合处理⻓⽂本（如整本书、⻓代码）。

　　• 更快速度：分组和摘要机制让计算并⾏化更⾼效，提升训练和推理速度。

　　• 保持性能：关键信息在摘要过程中被保留，模型效果不受明显影响。

　　类⽐举例：

　　假设你要分析⼀篇⻓篇⼩说中的⼈物关系：

　　• 传统⽅法：逐句对⽐每个⻆⾊之间的所有互动，耗时极⻓。

　　• MLA⽅法：先让不同⼩组分别总结“情感线”“事件线”等摘要，再基于摘要快速分析关联，效率⼤幅提升。

　　MLA技术本质是通过“化繁为简”的智能摘要策略，在庞⼤信息中抓住重点，实现效率与精度的平衡。这⼀设计让DeepSeek模型更适合实际应⽤场景（如⻓⽂本⽣成、代码分析等）。

蒸馏技术

　　简单理解，就是⼀种“教师+学⽣”的架构模型，通过蒸馏技术将⼤规模预训练模型（教师模型）的知识迁移⾄更轻量的学⽣模型，在保持⾼性能的同时显著提升推理效率。就是徒弟通过学习师傅的能⼒，把它迁移到⾃⼰⾝上，然后只保留最核⼼的技能混江湖。

DeepSeek-R1模型的局限性（来⾃官⽅技术⽂档）

　　通⽤能⼒

　　R1 的通⽤能⼒(例如函数调⽤、多轮对话、复杂⻆⾊扮演和json 输出)仍落后于DeepSeek-V3

　　语⾔混合

　　R1在处理⾮中英⽂问题时，可能会出现语⾔混杂现象

　　提⽰词⼯程

　　R1对提⽰词⽐较敏感，少样本提⽰(few-shot)会持续降低其性能。因此，DeepSeek团队建议⽤⼾直接描述问题并使⽤零样本(zero-shot)设置来指定输出格式，以获得最佳结果

posted @ 2025-08-30 12:08 阳光倾林阅读(39) 评论(0) 收藏举报

刷新页面返回顶部

阳光倾林

AI学习应用_01_大模型初探

一、常⻅⼤模型产品以及特点

二、DeepSeek⼤模型特点

公告