一、实例代码
import torch
x=torch.rand(1)
b=torch.rand(1,requires_grad=True)
w=torch.rand(1,requires_grad=True)
y=w*x
z=y+b
z.sum().backward()
print(f"x:{x}")
print(f"b:{b},b.grad:{b.grad}")
print(f"w:{w},w.grad:{w.grad}")
print(f"y:{y},y.grad:{y.grad}")
print(f"z:{z},z/grad:{z.grad}")
二、 运行结果
三、分析
1.梯度的概念:
是一个向量,表示一个函数在某一个点上各个方向的变化率。对于单变量函数,梯度=导数;对于多变量函数,梯度=对多个变量偏导所组成的向量
2.代码分析
- requires_grad=True:代表该变量可以被求导,x不可以被求导,w,b,y,z可以被求导
- z=y+b=w*x+b,其中,w,x,b是叶子节点,只有叶子节点的梯度值会被存储下来,y和z的是中间节点,梯度值不会被存储,所以:y.grad和z.grad是None。如果想要查看中间节点的值,需要使用retain_grad()来显示的保存中间结点的梯度值
- z.sum.backward():在实际运用场景中需要计算损失函数的总和或者平均值,然后再进行反向传播,注意必须是 标量.backward()
- 在print中f的使用print(f"字符串{变量}")