判断题
zero_grad用于更新梯度。
正确
判断题 step函数处理的是反向传播。
判断题 cost.backward()会一直叠加梯度。
判断题 optimizer.zero_grad()只会在小批量中使用。