什么是激活函数

如下图，在神经元中，输入的 inputs 通过加权，求和后，还被作用了一个函数，这个函数就是激活函数 Activation Function。

如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。

如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

激活函数介绍

sigmoid函数： $f(x)=\frac{1}{1+e^{-x}}$

sigmoid函数定义域是R，其值域为「0，1」，所以可以用来二分类（1,0），在特征相差比较复杂或是相差不是特别大时效果比较好。

sigmoid函数的导数：

f^{'} (x) = f (x) * (1 - f (x))

，导函数值域为(0，0.25]

在这里插入图片描述

sigmoid缺点：

激活函数计算量大，反向传播求误差梯度时，求导涉及除法

反向传播时，很容易就会出现梯度消失的情况，从而无法完成深层网络的训练

Sigmoids函数饱和且kill掉梯度

Sigmoids函数收敛缓慢

sigmoid 原函数及导数图形如下：

由图可知，导数从 0 开始很快就又趋近于 0 了，易造成“梯度消失”现象

Tanh函数： $tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$

Tanh函数也可以表示为： $t a n h (x) = 2 s i g m o i d (2 x) - 1$ ，其定义域为R，值域为（-1，1）

其导函数为：

(tanh(x))&#x27;=sech^2(x)=1-tanh^2(x)

，导函数值域为(0，1]

在这里插入图片描述

观察sigmoid和tanh的函数曲线，sigmoid在输入处于[-1,1]之间时，函数值变化敏感(导函数最大)，一旦接近或者超出区间就失去敏感性，处于饱和状态，影响神经网络预测的精度值。tanh的输出和输入能够保持非线性单调上升和下降关系，符合BP网络的梯度求解，容错性好，有界，渐进于0、1，符合人脑神经饱和的规律，但比sigmoid函数延迟了饱和期。

tanh在特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果。