罗西的思考 - 博客园

2021年12月

摘要：本文分析如何处理节点变化。即对成员更改作出反应，并使用新的成员来重启所有workers，从而实现弹性训练。阅读全文

posted @ 2021-12-31 14:31 罗西的思考阅读(1055) 评论(0) 推荐(0)

摘要：关于PyTorch弹性训练，迄今为止我们已经分别介绍了 Agent 和 rendezous，但是有些部分并没有深入，比如监控，本文就把它们统一起来，对弹性训练做一个整体逻辑上的梳理。阅读全文

posted @ 2021-12-29 18:02 罗西的思考阅读(2836) 评论(0) 推荐(0)

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第五篇，看看Rendezvous 的内部引擎，比如如何处理节点加入，节点离开，等待，心跳等等。阅读全文

posted @ 2021-12-28 09:55 罗西的思考阅读(1846) 评论(0) 推荐(0)

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第四篇，看看Rendezvous 的结构和总体逻辑。阅读全文

posted @ 2021-12-27 10:15 罗西的思考阅读(3089) 评论(0) 推荐(0)

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第三篇，看看弹性代理的基本功能。阅读全文

posted @ 2021-12-25 10:15 罗西的思考阅读(2326) 评论(0) 推荐(0)

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第二篇，重点关注的是如何启动弹性训练，并且可以对系统总体架构有所了解。阅读全文

posted @ 2021-12-24 09:01 罗西的思考阅读(5801) 评论(0) 推荐(0)

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第一篇，介绍其历史和设计理念，也会与Horovod做一下对比。阅读全文

posted @ 2021-12-22 09:36 罗西的思考阅读(3614) 评论(0) 推荐(0)

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，接下来我们通过几篇文章来看看如何把这些模块应用到实践之中，顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何使用 RPC 来完成分布式管道并行。阅读全文

posted @ 2021-12-20 10:03 罗西的思考阅读(1500) 评论(0) 推荐(0)

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，接下来我们通过几篇文章来看看如何把这些模块应用到实践之中，顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何把DDP和RPC framework结合起来。阅读全文

posted @ 2021-12-16 20:38 罗西的思考阅读(1946) 评论(0) 推荐(0)

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，接下来我们通过几篇文章来看看如何把这些模块应用到实践之中，顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何使用异步执行操作来实现批处理 RPC，大家可以学习到PyTorch对参数服务器一个新的实现方式。阅读全文

posted @ 2021-12-15 21:04 罗西的思考阅读(1273) 评论(3) 推荐(1)