简单之美

PyTorch 实现了 SWA（Stochastic Weight Averaging，随机加权平均），相比于传统的 SGD，使用 SWA 能够明显改善一些深度神经网络模型的测试精度（Test Accuracy）。而且，SWA 使用起来非常简单，能够加速模型训练，并提高模型的泛化能力。 SWA 基本原理 SWA 依赖两个重要的因素：第一个是，SWA 使用一个不断修改的 LR 调节器（Learning Rate Schedule），使得 SGD 能够在最优值附近进行调整，并评估最优解附近的值对应的模型的精度，而不是只选取最优解对应的模型。因为，最优解对应的模型不一定是最优的，而且泛化能力可能也不一定最好。比如，在 75% 的训练时间里，可以使用一个标准的衰减学习率（Decaying Learning Rate）策略，然后在剩余 25% 的训练时间里将学习率设置为一个比较高的固定值。如下图所示：第二个是，SWA 计算的是 SGD 遍历过的神经网络权重的平均值。例如，上面提到模型训练的后 25% 时间，我们可以在这 25% 时间里的每一轮训练（every epoch）后，计算一个权重的 running 平均值，在训练结束后再设置网络模型的权重为 SWA 权重平均值。 SWA

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美，难得简单，享受简单的唯美。

按标签浏览文章: SWA

使用 PyTorch SWA 优化模型训练入门实践