<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Tag &#187; SWA</title>
	<atom:link href="http://shiyanjun.cn/archives/tag/swa/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>使用 PyTorch SWA 优化模型训练入门实践</title>
		<link>http://shiyanjun.cn/archives/2341.html</link>
		<comments>http://shiyanjun.cn/archives/2341.html#comments</comments>
		<pubDate>Sat, 27 Jan 2024 16:14:50 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[PyTorch]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[SWA]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2341</guid>
		<description><![CDATA[<p>PyTorch 实现了 SWA（Stochastic Weight Averaging，随机加权平均），相比于传统的 SGD，使用 SWA 能够明显改善一些深度神经网络模型的测试精度（Test Accuracy）。而且，SWA 使用起来非常简单，能够加速模型训练，并提高模型的泛化能力。
SWA 基本原理
SWA 依赖两个重要的因素：
第一个是，SWA 使用一个不断修改的 LR 调节器（Learning Rate Schedule），使得 SGD 能够在最优值附近进行调整，并评估最优解附近的值对应的模型的精度，而不是只选取最优解对应的模型。因为，最优解对应的模型不一定是最优的，而且泛化能力可能也不一定最好。比如，在 75% 的训练时间里，可以使用一个标准的衰减学习率（Decaying Learning Rate）策略，然后在剩余 25% 的训练时间里将学习率设置为一个比较高的固定值。如下图所示：

第二个是，SWA 计算的是 SGD 遍历过的神经网络权重的平均值。例如，上面提到模型训练的后 25% 时间，我们可以在这 25% 时间里的每一轮训练（every epoch）后，计算一个权重的 running 平均值，在训练结束后再设置网络模型的权重为 SWA 权重平均值。
SWA</p>]]></description>
	<p>PyTorch 实现了 SWA（Stochastic Weight Averaging，随机加权平均），相比于传统的 SGD，使用 SWA 能够明显改善一些深度神经网络模型的测试精度（Test Accuracy）。而且，SWA 使用起来非常简单，能够加速模型训练，并提高模型的泛化能力。
SWA 基本原理
SWA 依赖两个重要的因素：
第一个是，SWA 使用一个不断修改的 LR 调节器（Learning Rate Schedule），使得 SGD 能够在最优值附近进行调整，并评估最优解附近的值对应的模型的精度，而不是只选取最优解对应的模型。因为，最优解对应的模型不一定是最优的，而且泛化能力可能也不一定最好。比如，在 75% 的训练时间里，可以使用一个标准的衰减学习率（Decaying Learning Rate）策略，然后在剩余 25% 的训练时间里将学习率设置为一个比较高的固定值。如下图所示：

第二个是，SWA 计算的是 SGD 遍历过的神经网络权重的平均值。例如，上面提到模型训练的后 25% 时间，我们可以在这 25% 时间里的每一轮训练（every epoch）后，计算一个权重的 running 平均值，在训练结束后再设置网络模型的权重为 SWA 权重平均值。
SWA</p>			<content:encoded><![CDATA[<p>PyTorch 实现了 SWA（Stochastic Weight Averaging，随机加权平均），相比于传统的 SGD，使用 SWA 能够明显改善一些深度神经网络模型的测试精度（Test Accuracy）。而且，SWA 使用起来非常简单，能够加速模型训练，并提高模型的泛化能力。
SWA 基本原理
SWA 依赖两个重要的因素：
第一个是，SWA 使用一个不断修改的 LR 调节器（Learning Rate Schedule），使得 SGD 能够在最优值附近进行调整，并评估最优解附近的值对应的模型的精度，而不是只选取最优解对应的模型。因为，最优解对应的模型不一定是最优的，而且泛化能力可能也不一定最好。比如，在 75% 的训练时间里，可以使用一个标准的衰减学习率（Decaying Learning Rate）策略，然后在剩余 25% 的训练时间里将学习率设置为一个比较高的固定值。如下图所示：

第二个是，SWA 计算的是 SGD 遍历过的神经网络权重的平均值。例如，上面提到模型训练的后 25% 时间，我们可以在这 25% 时间里的每一轮训练（every epoch）后，计算一个权重的 running 平均值，在训练结束后再设置网络模型的权重为 SWA 权重平均值。
SWA</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2341.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
