为什么先更新了学习率，后优化权重呢？ #123

AnnaPatio · 2025-01-23T04:47:06Z

AnnaPatio
Jan 23, 2025

请教一下，1-pretrain.py 的 train_epoch 方法中，先更新了 optimizer 的 lr，然后才计算损失和更新权重，正常顺序不应该最后再更新学习率吗？本人是初学者。

Answered by jingyaogong

Jan 23, 2025

事实上二者基本一致，并无影响

放一段deepseek的回复：

在深度学习中，学习率更新在前（即在优化器更新参数之前更新学习率）是更常见的做法。这种顺序的逻辑是：

学习率更新在前：
- 先通过学习率调度器（scheduler）更新学习率。
- 然后优化器使用更新后的学习率进行参数更新。
- 这种方式确保当前迭代使用的是最新的学习率，能够更及时地反映学习率调整对模型训练的影响。
学习率更新在后：
- 优化器先使用当前学习率更新参数。
- 然后学习率调度器更新学习率，供下一次迭代使用。
- 这种方式会导致学习率调整滞后一步，当前迭代使用的是上一次的学习率。

为什么学习率更新在前更常见？

即时性：学习率调整能够立即生效，更符合动态调整学习率的初衷。
主流框架的默认行为：PyTorch、TensorFlow 等主流框架的官方示例和文档通常采用学习率更新在前的顺序。
更直观：从逻辑上讲，先调整学习率再更新参数更符合直觉。

代码示例（PyTorch）

# 更常见的顺序：学习率更新在前
for epoch in range(num_epochs):
    for batch in data_loader:
        # 前向传播、计算损失
        loss = model(batch)
        
        # 反向传播
        loss.backward()
        
        # 更新学习率
        scheduler.step()
        
        # 更新模型参数
        optimizer.step…

View full answer

jingyaogong · 2025-01-23T06:02:24Z

jingyaogong
Jan 23, 2025
Maintainer

事实上二者基本一致，并无影响

放一段deepseek的回复：

在深度学习中，学习率更新在前（即在优化器更新参数之前更新学习率）是更常见的做法。这种顺序的逻辑是：

学习率更新在前：
- 先通过学习率调度器（scheduler）更新学习率。
- 然后优化器使用更新后的学习率进行参数更新。
- 这种方式确保当前迭代使用的是最新的学习率，能够更及时地反映学习率调整对模型训练的影响。
学习率更新在后：
- 优化器先使用当前学习率更新参数。
- 然后学习率调度器更新学习率，供下一次迭代使用。
- 这种方式会导致学习率调整滞后一步，当前迭代使用的是上一次的学习率。

为什么学习率更新在前更常见？

即时性：学习率调整能够立即生效，更符合动态调整学习率的初衷。
主流框架的默认行为：PyTorch、TensorFlow 等主流框架的官方示例和文档通常采用学习率更新在前的顺序。
更直观：从逻辑上讲，先调整学习率再更新参数更符合直觉。

代码示例（PyTorch）

# 更常见的顺序：学习率更新在前
for epoch in range(num_epochs):
    for batch in data_loader:
        # 前向传播、计算损失
        loss = model(batch)
        
        # 反向传播
        loss.backward()
        
        # 更新学习率
        scheduler.step()
        
        # 更新模型参数
        optimizer.step()
        
        # 清零梯度
        optimizer.zero_grad()

总结

学习率更新在前是更常见的做法，因为它能确保学习率调整立即生效，更符合动态调整学习率的逻辑。如果你的任务有特殊需求，也可以尝试学习率更新在后的顺序，但需要明确其影响。

1 reply

AnnaPatio Jan 23, 2025
Author

非常感谢！我是一名转行者，这个项目对我帮助非常大。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

为什么先更新了学习率，后优化权重呢？ #123

{{title}}

Replies: 1 comment 1 reply

{{title}}

{{title}}

Select a reply

为什么先更新了学习率，后优化权重呢？ #123

AnnaPatio Jan 23, 2025

为什么学习率更新在前更常见？

代码示例（PyTorch）

Replies: 1 comment · 1 reply

jingyaogong Jan 23, 2025 Maintainer

为什么学习率更新在前更常见？

代码示例（PyTorch）

总结

AnnaPatio Jan 23, 2025 Author

AnnaPatio
Jan 23, 2025

Replies: 1 comment 1 reply

jingyaogong
Jan 23, 2025
Maintainer

AnnaPatio Jan 23, 2025
Author