sumowanie sygnałów od porzedzających neuronów
$$ z = w_1 x_1 + \cdots + w_i x_i + \cdots w_k x_k + b $$$$ z = \boldsymbol{w} \cdot \boldsymbol{x} + b $$Sigmoida
$$ \sigma(z) = \frac{1}{1 + e^{-z}} $$Tangens hiperboliczny
$$ \tanh(z) = \frac{e^z - e^{-z}}{e^z+e^{-z}} $$Rektyfikowana jednostka liniowa
(rectified linear unit)
Jednostka liniowa z błędem gaussowskim
Gaussian error linear unit
Typowa sieć neuronowa składa się z:
Uniwersalny aproksymator
Sieć neuronowa z nieliniową funkcją aktywacji stanowi uniwersalny aproksymator, tzn. może aproksymować dowolną funkcję:
$$ f(x): \mathbb{R}^{n} \rightarrow \mathbb{R}^{m} $$Entropia krzyżowa:
$$ H(P,Q) = \boldsymbol{E}_{\boldsymbol{z} \sim P(\boldsymbol{z})}\left[\log Q(\boldsymbol{z})\right] = \int P(\boldsymbol{z})\log Q(\boldsymbol{z}) d\boldsymbol{z} $$$$ \frac{dg}{dx} = \frac{dg}{df}\cdot\frac{df}{dx} $$
Pomimo tego, że wartość funkcji straty maleje, to norma z gradientu rośnie. Oznacza to, że proces nie osiąga minimum.
https://towardsdatascience.com/a-visual-explanation-of-gradient-descent-methods-momentum-adagrad-rmsprop-adam-f898b102325c
https://towardsdatascience.com/a-visual-explanation-of-gradient-descent-methods-momentum-adagrad-rmsprop-adam-f898b102325c
from IPython.lib.display import YouTubeVideo
YouTubeVideo('ilYd4TAzNoU', 1120, 630)