Deepseek免费无限量API无需本地部署就可用最大70B蒸馏模型

一、DeepSeek概述

2025年1月20日，DeepSeek正式发布 DeepSeek-R1 模型，并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。 DeepSeek-V3和DeepSeek-R1两款大模型，成本价格低廉，性能与OpenAI相当，让硅谷震惊，甚至引发了Meta内部的恐慌，工程师们开始连夜尝试复制DeepSeek的成果。

华为云与硅基流动联合推出了基于昇腾云服务的 DeepSeek R1/V3 推理服务。该服务通过自研推理加速引擎，使 DeepSeek 模型在昇腾云服务上的性能达到了与高端 GPU 部署模型相当的效果。

在DeepSeek没有出现之前，AI模型需要依赖英伟达高端显卡才能运行，企业维护成本很高。但是在DeepSeek出现之后，极大的降低了显卡成本，使用低端的显卡也可以运行AI模型，性能也不差。

二、DeepSeek 蒸馏模型

DeepSeek 蒸馏模型是通过模型蒸馏技术从更大的 DeepSeek-R1 模型中提取知识并转移到更小的模型中，以实现更高的计算效率和更低的推理成本，同时保留强大的推理能力。

蒸馏模型的核心优势

高效推理：蒸馏模型比原始 DeepSeek-R1 更小，计算效率更高，适合在资源受限的环境中部署。
推理能力：尽管规模较小，但蒸馏模型仍保留了强大的推理能力，性能在多个基准测试中优于其他开源模型。
开源可用性：蒸馏模型是开源的，允许研究人员和开发人员在各种应用中使用和构建。

蒸馏模型的变体

DeepSeek-R1 蒸馏模型包括多个不同参数规模的版本，例如：

DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B

蒸馏模型的性能表现

DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上实现了 55.5% Pass@1，超越了 QwQ-32B-Preview。
DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上实现了 72.6% Pass@1，在 MATH-500 上实现了 94.3% Pass@1。
DeepSeek-R1-Distill-Llama-70B 在 AIME 2024 上实现了 70.0% Pass@1，在 MATH-500 上实现了 94.5% Pass@1。

蒸馏模型的应用场景

移动设备与边缘计算：适合在移动设备和边缘设备上运行，提供低延迟的实时推理。
在线推理服务：如电商推荐和智能问答系统，通过蒸馏技术提高响应速度。
成本优化：减少对高性能服务器的依赖，降低云服务提供商的运营成本。

蒸馏模型的部署

腾讯云 TI 平台：支持 DeepSeek 系列模型的一键部署，并限时开放了 R1 模型的免费在线体验。
华为云昇腾云服务：联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务，提供稳定的生产级推理服务。

接下来，我们主要使用DeepSeek-R1-Distill-Llama-70B蒸馏模型，使用OpenRouter

三、OpenRouter简介

OpenRouter 是一个统一的 API 服务平台，旨在将各种大型语言模型（LLMs）和服务集成到一个统一的接口中。它允许用户通过简单的配置和调用，访问多个预训练的大模型，而无需自己部署和维护这些模型。

主要功能和特点

统一接口：提供标准化的 API，简化了模型的集成和部署过程。
多模型支持：支持多种预训练模型，如 OpenAI 的 GPT-4、Claude、Gemini 等。
无需 GPU 服务器：通过调用预训练模型的 API，用户无需自建 GPU 服务器。
成本优化：提供透明的定价机制，帮助用户在性能和成本之间找到最佳平衡点。
易于集成：便于与现有系统集成，适合各种应用场景。
免费模型：提供部分免费开源模型，用户可以按需选择。
API Key 管理：用户可以创建和管理自己的 API Key，为每个 Key 设置使用额度。

使用场景

研究和开发：快速试验和集成不同的大模型 API，进行机器学习、自然语言处理等领域的研究和开发。
企业应用：企业通过 OpenRouter 集成多个大模型 API，为应用提供智能化支持，如客服机器人、智能推荐系统等。
教育和培训：教育机构和培训机构基于 OpenRouter 的资源，开展 AI 相关的教学和培训活动。
内容创作：作家、编辑和内容创作者基于 OpenRouter 接入的模型来辅助写作、编辑和语言润色。
语言翻译和本地化：基于支持多语言的模型 API，进行高效的语言翻译和内容本地化。

限制

费用：除了标识为“free”的免费模型外，其他模型的调用均会产生费用。
支付方式：目前不支持微信、支付宝等支付方式。
API Key 限制：API Key 创建后需妥善保管，后续无法查看。

官网和资源

官网地址：https://openrouter.ai。
文档地址：https://openrouter.ai/docs/quick-start。

我有几台云服务，没有配置GPU显卡，想尝试部署DeepSeek，结果发现下载DeepSeek模型后，大概20GB左右，尝试运行，发现cpu使用率直接到了300%以上，服务器直接卡死了，索性放弃了。

目前能免费使用DeepSeek-R1-Distill-Llama-70B蒸馏模型，主要有2个，OpenRouter，Groq。但是Groq有IP限制，必须是国外ip才能使用。OpenRouter没有IP限制，全球所有国家都可以使用。

使用

登录官网地址：https://openrouter.ai，使用谷歌账户登录，点击搜索框

点击搜索框，下拉列表就会显示模型列表，这里会显示比较热门的几个模型，每月都会有更新的。注意带free的，就是可以免费使用的，其他的是要支付美元使用的。

我们找到1月的DeepSeek: R1 Distill Llama 70B(free)

点击API，创建API

点击创建

然后输入名字deepseek，名字可以随意。注意credit limit不要填写，表示无限制使用。

创建之后，会生成一个key，注意自己保存一下。注意：这个key只会显示一次，再次进入就看不到了。

点击Settings，设置默认模型为 DeepSeek: R1 Distill Llama 70B(free)

四、Cherry Studio简介

Cherry Studio 是一款功能强大的多模型 AI 客户端，支持 Windows、macOS 和 Linux 系统。它集成了多种主流的大型语言模型（LLMs），如 OpenAI、Gemini 等，以及本地模型运行功能，用户可以根据需求自由切换云端和本地模型。

主要功能

多模型支持：
- 支持主流云服务（如 OpenAI、Gemini、Anthropic 等）。
- 支持本地模型部署（通过 Ollama）。
- 可同时与多个模型对话，方便比较不同模型的输出。
AI 助手与对话：
- 内置 300 多个预配置的 AI 助手，涵盖写作、编程、设计等多个领域。
- 支持自定义助手的角色、语气和功能。
- 对话记录可保存，方便随时查阅。
文档与数据处理：
- 支持文本、图像、PDF、Office 文档等多种文件格式。
- 支持 WebDAV 文件管理与数据备份。
- 支持 Mermaid 图表可视化。
实用工具集成：
- 全局搜索功能。
- AI 驱动的翻译功能。
- 代码高亮显示。
用户体验：
- 跨平台支持（Windows、macOS、Linux）。
- 开箱即用，无需配置环境。
- 支持明暗主题与透明窗口。