[AIGC] DeepSeek 大模型概述

1 概述: DeepSeek 大模型

背景导入:2025年春节,火爆全网的DeepSeek-R1

火爆全网

image

爆火原因

image

DeepSeek-R1的推理能力进入了第一梯队(媲美OpenAI o1), 但训练和推理成本低、速度快、全部开源
DeepSeek打破了硅谷传统的“堆算力、拼资本”的大模型发展路径

对AI行业的重大影响

  • 打破垄断

DeepSeek-R1以低成本和开源特性打破以往头部企业巨头割据局面

  • 价格下调

DeepSeek-R1的API定价仅为行业均价的1/10,推动了中小型企业低成本接入AI,对行业产生了积极影响

  • 推动创新

DeepSeek-R1促使行业开始从“唯规模论”转向更加注重“性价比”和“高效能”方向

DeepSeek公司

  • 公司成立背景与发展历程
  • DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技企业,专注于人工智能基础技术的研究与开发
  • 大语言模型(LLM)的创新应用

DeepSeek专注于开发先进的大语言模型(LLM)和相关技术,旨在通过这些技术推动人工智能在多个领域的应用和创新

  • 投资者背景与市场定位

作为由知名私募巨头幻方量化孕育而生的公司,DeepSeek获得了强大的资金支持和行业影响力,幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”,管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景

  • 里程碑

2025年1月20日推出DeepSeek-R1推理模型

DeepSeek产品信息

image

  • deepseek

DeepSeek模型系列

image

  • DeepSeek-R1 系列模型
  • 满血版,能力最强
  • DeepSeek-R1-671B
  • 蒸馏版,能力稍弱 (实际上是增加了推理能力的Qwen或Llama模型)
  • DeepSeek-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-70B

DeepSeek部署要求

算力要求和性能

满血版

image

DeepSeek生成模型 vs. 推理模型

比较方面 生成模型(V3) 推理模型(R1)
设计初衷 想要在各种自然语言处理的任务中都能表现好,更通用 重点是为了搞定复杂的推理场景。
比如:深度的逻辑分析和解决问题
性能展现 在数学题、多语言任务还有编码任务里表现还不错,像Cmath能得90.7分,Human Eval编码任务通过率是65.2% 在需要逻辑思考的测试里很棒,比如
DROP任务F1分数能达到92.2%,AIME 2024的通过率是79.8%
应用的范围 适合大规模的自然语言处理工作,像对话式AI、多语言翻译还有内容生成等等,能给企业提供高效的AI方案,满足好多领域的需求 适合学术研究、解决问题的应用和决策支持系统等需要深度推理的任务,也能拿来当教育工具,帮学生锻炼逻辑思维

DeepSeek-R1

优势与局限性

  • DeepSeek-R1的优势 : 理科能力强,且准确率高
  • 数学推理
  • 代码生成
  • 复杂任务处理

image

  • DeepSeek-R1的局限性
  • 通用能力
  • R1 的通用能力(尤其是生成能力)低于DeepSeek-V3
  • R1的幻觉仍旧比较明显(可能源于R1的中文语言表达能力更强)
  • 语言混杂
  • R1 在处理非中英文问题时,偶尔会出现语言混杂现象
  • 这个现象在R1 Zero版本中更加明显
  • 提示词工程
  • 使用 few-shot 提示可能会降低R1性能
  • 使用过多的过程指导指令可能会降低R1的推理能力

image

工作原理

  • 1 思维链(Chain of Thought):让模型进行慢思考

  • 2 蒸馏(Distillation): 在不损失能力的情况下缩小模型

  • 3 强化学习(Reinforcement Learning): 让模型自我探索和训练

  • 推荐文献

应用场景

  • 推理密集型任务

编程任务中的代码生成、算法设计,媲美Claude 3.5 Sonet
数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。

  • 教育与知识应用

可用于解决教育领域的问题,支持知识理解与解答。
可用于科研任务的实验设计、数据分析和论文撰写。

  • 文档分析与长上下文理解

适合处理需要深入文档分析和理解长上下文的任务,例如复杂信息提取与整合。

  • 开放领域问答与写作

在内容生成、问题回答以及创造性写作中具有广泛应用,例如生成高质量文本或进行内容编辑。

如何使用 DeepSeek R1?

image

  • DeepSeek官方网站和官方app

  • 腾讯系
    ➢ 腾讯元宝
    ➢ 微信AI搜索
    ➢ 腾讯ima个人知识库

  • AI搜索
    ➢ 秘塔搜索
    ➢ 纳米AI搜索
    ➢ 知乎直答

  • 其它接入DeepSeek-R1的产品
    ➢ Molly R1(向量智能)
    ➢ 问小白

接入DeepSeekR1第三方服务的厂家

  • 互联网大厂:
    ■ 腾讯:腾讯元宝、ima、微信、腾讯云
    ■ 百度:百度搜索、文小言
    ■ 字节跳动:豆包、扣子、飞书
    ■ 阿里:钉钉
    ■ ……

  • 互联网小厂:科大讯飞、知乎、秘塔、纳米AI搜索、……

  • AI初创公司:零一万物、阶跃星辰、minmax、……

  • AI应用公司(教育类):学而思、北大青鸟、网易有道、猿辅导、作业帮、…...

  • 手机厂商:华为、荣耀、魅族、......

  • 其它云服务平台:三大运营商、云服务商(硅基流动等)

Y 推荐文献

X 参考文献

posted @ 2026-02-08 17:28  数据知音  阅读(0)  评论(0)    收藏  举报