判断题
step函数处理的是反向传播。
错误
判断题 cost.backward()会一直叠加梯度。
判断题 optimizer.zero_grad()只会在小批量中使用。
判断题 在tensorflow2.0和pytorch中,@都是做矩阵乘法。