单项选择题

A.批规范化(batch normalization)是在不引入新参数的情况下保证每一层网络的输入具有相同的分布
B.与Sigmoid函数相比,Relu较不容易使网络产生梯度消失
C.梯度下降法实现简单,当目标函数是凸函数时,可基于二阶收敛快速到达目标值
D.用Sigmoid激活函数时,如果权重初始化较大或较小时,容易出现梯度饱和梯度消失,可选用Tanh函数改进