Posted 2024-10-19Updated 2024-11-19blog19 minutes read (About 2781 words)

训练神经网络

在选择数据时，我们可以选择一次性使用全部的数据进行训练，但是这样的计算量太大，还可以选择每次选择一个数据进行计算，但是这样容易受到噪音的干扰，因此我们希望采用一种更加折中的方式，即采用小批量随机梯度下降法。

这样既没有那么震荡，也没有那么大的计算量。

激活函数选择

sigmod

梯度消失问题

可以看到当$ x $过大或过小时，很容易造成梯度消失的问题，这不利于对于参数的调整。

不关于$ 0 $对称问题

指数运算问题

在进行指数运算时容易产生很大的计算开销。

tanh

$ \tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} $，实际上是关于$ sigmod $函数的变型，也就是$ tanh(x)=2sigmoid(2x)-1 $。

避免了不关于原点对称的$ zig-zag $问题，但仍存在梯度消失问题。

ReLU

关于$ ReLU $激活函数具有不饱和，计算快，收敛快这一系列优点，但是它仍具有不关于$ 0 $对称，并且在$ x<0 $的情况下它的输出为$ 0 $。

由于这个函数在$ x<0 $时梯度为$ 0 $，因此会出现一种$ Dead\ ReLU $的问题，即当输入为负时，梯度为0。这个神经元及之后的神经元梯度永远为0，不再对任何数据有所响应，导致相应参数永远不会被更新。

这种情况可能是由于初始化不好，或者学习率过大导致改变幅度过大到一个$ Dead \ ReLU $的地方再也出不去。为了解决这个问题通常加上一个偏置项在初始化中，避免开始就进入了$ Dead\ ReLU $。

Leaky ReLU

对于前面的$ ReLU $的神经元梯度为$ 0 $的问题，我们可以使用$ Leaky\ ReLU $的方式。

ELU

进一步使得输出接近关于$ 0 $对称，但同时指数的运算也带来了较大的运算量。

Maxout

通过在两个神经元后面再加上一层神经元，其中有$ k $个神经元，参数个数也成$ k $倍增加。

总结一下，多使用$ ReLU $，但是要注意它的学习率，不要在中间层使用$ sigmod $函数，可能是因为计算量太大还会有$ zig-zag $问题。

数据预处理

+ 标准化处理

通过标准化，使其分布更加均匀，关于标准正态的解释可以使用中心极限定理解释，原始分布在$ n $足够大时近似为正态分布。

主成分分析

首先通过主成分分析将数据转化在一个二维空间中，再进行标准化，这也被称为$ PCA $白化，然后将其重新变回之前所在的维度，这被称为$ ZCA $白化。

权重初始化

我们可能认为由于最终都有梯度下降进行迭代，那么无论怎么进行权重初始化都没有什么影响，但是实际上。如果我们给同一层的神经元一个相同的值，那么对于相同的输入，相同的权重，自然会导致相同的输出，相同的反向传播梯度，相同的更新，那么无论我们具有多少神经元本质上都是仅仅只有一个，因此权重初始化是一个很重要的问题。