简单之美

在 AI 大模型训练场景中，数据是海量的，模型也是超大的，对于训练大模型会带来很大挑战，比如对算力的需求，对处理大模型的工程复杂度，等等。PyTorch 给出了一种实现方式——FSDP（Fully Sharded Data Parallel），它提供了易用的 API，可以非常方便地解决大模型分布式训练的难题。 FSDP 是在 DDP（DistributedDataParallel）的基础上提出的，首先我们了解一下 PyTorch 的 DDP（DistributedDataParallel）训练模式的一些特点：在 DDP 中，核心的能力还是训练数据并行（Data Parallel）。以多机多卡方式为例，每个 process/worker 都会持有模型的一个副本（Replica），通过使每个 process/worker 处理一个 batch 的数据试下并行处理，最后使用 all-reduce 操作对多个不同 process/worker 计算得到的梯度进行累加求和；接着，再将优化器状态、梯度通过跨多个 process/worker 进行复制，使得每个 process/worker 上的模型参数都得到同步更新。也就是说，在 DDP 中并没有实现对模型参数的分片管理，即模型并行（Model Parallel）。在 FSDP 中实现了模型的分片管理能

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美，难得简单，享受简单的唯美。

按标签浏览文章: FSDP

PyTorch 分布式训练模式 FSDP 设计分析