[AIGC] DeepSeek 大模型概述
1 概述: DeepSeek 大模型
背景导入:2025年春节,火爆全网的DeepSeek-R1
火爆全网

爆火原因

DeepSeek-R1的推理能力进入了第一梯队(媲美OpenAI o1), 但训练和推理成本低、速度快、全部开源
DeepSeek打破了硅谷传统的“堆算力、拼资本”的大模型发展路径
对AI行业的重大影响
- 打破垄断
DeepSeek-R1以低成本和开源特性打破以往头部企业巨头割据局面
- 价格下调
DeepSeek-R1的API定价仅为行业均价的1/10,推动了中小型企业低成本接入AI,对行业产生了积极影响
- 推动创新
DeepSeek-R1促使行业开始从“唯规模论”转向更加注重“性价比”和“高效能”方向
DeepSeek公司
- 公司成立背景与发展历程
- DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技企业,专注于人工智能基础技术的研究与开发
- 大语言模型(LLM)的创新应用
DeepSeek专注于开发先进的大语言模型(LLM)和相关技术,旨在通过这些技术推动人工智能在多个领域的应用和创新
- 投资者背景与市场定位
作为由知名私募巨头幻方量化孕育而生的公司,DeepSeek获得了强大的资金支持和行业影响力,幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”,管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景
- 里程碑
2025年1月20日推出DeepSeek-R1推理模型
DeepSeek产品信息

- deepseek
DeepSeek模型系列

- DeepSeek-R1 系列模型
- 满血版,能力最强
- DeepSeek-R1-671B
- 蒸馏版,能力稍弱 (实际上是增加了推理能力的Qwen或Llama模型)
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Llama-70B
DeepSeek部署要求
算力要求和性能
满血版

DeepSeek生成模型 vs. 推理模型
| 比较方面 | 生成模型(V3) | 推理模型(R1) |
|---|---|---|
| 设计初衷 | 想要在各种自然语言处理的任务中都能表现好,更通用 | 重点是为了搞定复杂的推理场景。 比如:深度的逻辑分析和解决问题 |
| 性能展现 | 在数学题、多语言任务还有编码任务里表现还不错,像Cmath能得90.7分,Human Eval编码任务通过率是65.2% | 在需要逻辑思考的测试里很棒,比如 DROP任务F1分数能达到92.2%,AIME 2024的通过率是79.8% |
| 应用的范围 | 适合大规模的自然语言处理工作,像对话式AI、多语言翻译还有内容生成等等,能给企业提供高效的AI方案,满足好多领域的需求 | 适合学术研究、解决问题的应用和决策支持系统等需要深度推理的任务,也能拿来当教育工具,帮学生锻炼逻辑思维 |
DeepSeek-R1
优势与局限性
- DeepSeek-R1的优势 : 理科能力强,且准确率高
- 数学推理
- 代码生成
- 复杂任务处理

- DeepSeek-R1的局限性
- 通用能力
- R1 的通用能力(尤其是生成能力)低于DeepSeek-V3
- R1的幻觉仍旧比较明显(可能源于R1的中文语言表达能力更强)
- 语言混杂
- R1 在处理非中英文问题时,偶尔会出现语言混杂现象
- 这个现象在R1 Zero版本中更加明显
- 提示词工程
- 使用
few-shot提示可能会降低R1性能- 使用过多的过程指导指令可能会降低R1的推理能力

工作原理
-
1 思维链(Chain of Thought):让模型进行慢思考
-
2 蒸馏(Distillation): 在不损失能力的情况下缩小模型
-
3 强化学习(Reinforcement Learning): 让模型自我探索和训练
-
推荐文献
- DeepSeekR1 论文 - https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
- DeepSeekR1 论文图解 - https://zhuanlan.zhihu.com/p/20844750193
应用场景
- 推理密集型任务
编程任务中的代码生成、算法设计,媲美Claude 3.5 Sonet
数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。
- 教育与知识应用
可用于解决教育领域的问题,支持知识理解与解答。
可用于科研任务的实验设计、数据分析和论文撰写。
- 文档分析与长上下文理解
适合处理需要深入文档分析和理解长上下文的任务,例如复杂信息提取与整合。
- 开放领域问答与写作
在内容生成、问题回答以及创造性写作中具有广泛应用,例如生成高质量文本或进行内容编辑。
如何使用 DeepSeek R1?

-
DeepSeek官方网站和官方app
-
腾讯系
➢ 腾讯元宝
➢ 微信AI搜索
➢ 腾讯ima个人知识库 -
AI搜索
➢ 秘塔搜索
➢ 纳米AI搜索
➢ 知乎直答 -
其它接入DeepSeek-R1的产品
➢ Molly R1(向量智能)
➢ 问小白
接入DeepSeekR1第三方服务的厂家
-
互联网大厂:
■ 腾讯:腾讯元宝、ima、微信、腾讯云
■ 百度:百度搜索、文小言
■ 字节跳动:豆包、扣子、飞书
■ 阿里:钉钉
■ …… -
互联网小厂:科大讯飞、知乎、秘塔、纳米AI搜索、……
-
AI初创公司:零一万物、阶跃星辰、minmax、……
-
AI应用公司(教育类):学而思、北大青鸟、网易有道、猿辅导、作业帮、…...
-
手机厂商:华为、荣耀、魅族、......
-
其它云服务平台:三大运营商、云服务商(硅基流动等)
浙公网安备 33010602011771号