Determined:一个集成的深度学习训练平台
Determined:一个集成的深度学习训练平台
开源项目 Determined 是一个面向深度学习的一体化平台,目前已获得 3,225 个 Star:


Determined 兼容 PyTorch 和 TensorFlow,覆盖了模型训练中的多个环节:分布式训练、超参数调优、GPU 资源管理以及实验追踪。
项目核心功能分为四个方向:
- 分布式训练:将训练任务拆分到多台机器或多张 GPU 上并行执行,缩短训练周期。
- 超参数调优:内置自适应搜索算法,自动寻找更优的超参数组合。
- 资源管理:对集群中的 GPU 等资源进行调度和分配,降低云端的算力开销。
- 实验追踪:记录每次实验的配置、代码版本和结果,保证可复现性。
Determined 由三个主要部分组成:Python 库、命令行工具(CLI)和 Web 界面。
Python 库
现有 PyTorch 或 TensorFlow 代码可以通过继承 Trial 类来接入 Determined:
from determined.pytorch import PyTorchTrial
class YourExperiment(PyTorchTrial):
def __init__(self, context):
...
也支持通过 Core API 按需调用所需功能:
import determined as det
with det.core.init() as core_context:
...
命令行工具
CLI 支持在本地快速启动集群:
det deploy local cluster-up
也支持部署到 AWS 或 GCP:
det deploy aws up
提交训练任务时,通过 YAML 文件配置分布式训练和超参数搜索策略:
det experiment create gpt.yaml .
resources:
slots_per_trial: 8
priority: 1
hyperparameters:
learning_rate:
type: double
minval: .0001
maxval: 1.0
searcher:
name: adaptive_asha
metric: validation_loss
smaller_is_better: true
Web 界面
Web UI 用于查看 loss 曲线、超参数分布图、代码快照、模型注册表、集群利用率、调试日志和性能分析报表等。
安装
通过 pip 安装 CLI:
pip install determined
安装后使用 det deploy 在本地或云平台启动集群。项目同时支持 Kubernetes、Slurm 和 PBS 等环境的部署。
Determined 仓库内包含 30 余个示例项目,涵盖常见模型和任务场景,可直接用于熟悉平台的用法。
浙公网安备 33010602011771号