叉熵的优势:
在回归模型中有时候会使用均方差作为损失函数,但是当激活函数为sigmoid时,由于其在上边界和下边界的斜率下降十分之快。事实上,一般sigmoid函数的斜率最大值也只有0.25。因此,当训练结果接近真实值时会因为梯度算子极小,使得模型的收敛速度变得非常慢。
而由于交叉熵损失函数为对数函数,在接近上边界的时候,其仍然可以保持在高梯度状态,因此模型的收敛速度不会受到影响。
叉熵的优势:
在回归模型中有时候会使用均方差作为损失函数,但是当激活函数为sigmoid时,由于其在上边界和下边界的斜率下降十分之快。事实上,一般sigmoid函数的斜率最大值也只有0.25。因此,当训练结果接近真实值时会因为梯度算子极小,使得模型的收敛速度变得非常慢。
而由于交叉熵损失函数为对数函数,在接近上边界的时候,其仍然可以保持在高梯度状态,因此模型的收敛速度不会受到影响。