周末刷知乎看到一个问题,关于如何理解梯度消失和梯度爆炸的。有个回答讲的比较好,就和 sigmoid 函数一起总结一下吧。
神经网络量化方法
神经网络虽然在多个领域取得了非常巨大的成就,但是其本质是大量参数的拟合和泛化,如果想处理更加复杂的任务,在没有过拟合的情况下,增加训练数据和加大网络规模无疑是简单有效的手段。现实情况就是这么做的,但是巨大的参数量和复杂的网络结构造成了两个主要的问题:模型体积和运算速度。这两个问题会带来诸如内存容量,内存存取带宽,移动端还有电量消耗等一系列问题,大大限制了神经网络的应用场景。