Réseaux de neurones : fondations et mathématiques · 03 / 09

Fonctions d'activation

Identity, sigmoïde, ReLU, tanh : pourquoi elles existent, ce qu'elles donnent, et comment choisir.

Aux chapitres 1 et 2 tu as croisé la fonction d’activation $f$ dans la formule $y = f(\mathbf{w} \cdot \mathbf{x} + b)$ sans qu’on lui consacre vraiment de temps. C’est l’objet de ce chapitre. On va voir pourquoi elle est mathématiquement indispensable, comparer les quatre classiques (Identity, sigmoïde, ReLU, tanh) et apprendre à les choisir.

Pourquoi a-t-on besoin d’une fonction non-linéaire

La démonstration qui justifie tout le reste

Imaginons un réseau à deux couches sans fonction d’activation, donc avec $f$ remplacée par l’identité. La sortie de la première couche est :

\mathbf{h} = W_1 \mathbf{x} + \mathbf{b}_1

La sortie de la seconde couche, appliquée à $\mathbf{h}$ , donne :

\mathbf{y} = W_2 \mathbf{h} + \mathbf{b}_2 = W_2 (W_1 \mathbf{x} + \mathbf{b}_1) + \mathbf{b}_2 = (W_2 W_1) \mathbf{x} + (W_2 \mathbf{b}_1 + \mathbf{b}_2)

En posant $W' = W_2 W_1$ et $\mathbf{b}' = W_2 \mathbf{b}_1 + \mathbf{b}_2$ , on retrouve :

\mathbf{y} = W' \mathbf{x} + \mathbf{b}'

C’est une simple couche affine. Ajouter des couches sans non-linéarité ne sert mathématiquement à rien : on peut toujours réduire le tout à une seule couche équivalente. C’est la raison d’être de la fonction d’activation.

Cet argument se reproduit à chaque transition entre couches. C’est pourquoi on insère $f$ après chaque couche cachée, et pas seulement à la sortie : si une seule paire de couches contiguës n’a pas de non-linéarité entre elles, ces deux couches collapsent en une seule, et la profondeur perd à nouveau de l’intérêt.

Ce qu’on demande à une fonction d’activation

Pour être utilisable en pratique, une fonction $f$ doit cocher plusieurs cases :

Non-linéaire (pour la raison qu’on vient de voir).
Dérivable presque partout, pour que la backpropagation puisse calculer un gradient (sujet du chapitre 8).
Calculable rapidement, parce qu’on l’évalue des millions de fois par seconde en entraînement.
Bornée (idéalement), pour éviter que la sortie ne diverge.
De gradient non-nul sur un intervalle large, sinon l’apprentissage stagne.

Les quatre classiques qu’on va étudier cochent ces cases à des degrés différents.

Les quatre fonctions classiques

Identity

L’identité est la fonction qui ne fait rien. On l’inclut pour la complétude et parce qu’on l’utilise sur la couche de sortie des problèmes de régression.

f(x) = x

Identity

Équation : $f(x) = x$ . Dérivée : $f'(x) = 1$ .

Tu peux ignorer cette fonction tant qu’on est dans les couches cachées, mais elle réapparaîtra au chapitre 6 quand on parlera de fonctions de coût pour la régression.

Sigmoïde

La sigmoïde a dominé les réseaux de neurones entre 1986 et 2010. Sa forme en S compresse n’importe quel réel dans l’intervalle ouvert $]0, 1[$ , ce qui permet d’interpréter sa sortie comme une probabilité.

σ(x) = 1 / (1 + e⁻ˣ)

Sigmoïde

Équation : $\sigma(x) = \dfrac{1}{1 + e^{-x}}$ . Dérivée : $\sigma'(x) = \sigma(x)(1 - \sigma(x))$ , propriété élégante qui simplifie la backpropagation.

Allure : courbe en S, $\sigma(0) = 0{,}5$ , $\sigma(-\infty) \to 0$ , $\sigma(+\infty) \to 1$ .

Usage moderne : couche de sortie des classifications binaires (où la sortie probabilité a un sens). Plus utilisée pour les couches cachées profondes à cause du vanishing gradient (on y revient juste après).

ReLU

La ReLU est aujourd’hui le choix par défaut pour les couches cachées. Sa simplicité brutale est précisément ce qui la rend efficace.

ReLU(x) = max(0, x)

ReLU

Équation : $\text{ReLU}(x) = \max(0, x)$ . Dérivée : $\text{ReLU}'(x) = \mathbb{1}[x > 0]$ , soit $1$ si $x > 0$ et $0$ sinon. Indéfinie strictement en $x = 0$ , mais on convient d’y mettre $0$ ou $1$ sans conséquence pratique.

Allure : nulle pour les négatifs, identité pour les positifs. Pas bornée vers le haut.

Usage moderne : depuis son introduction pour les RBM par Nair et Hinton (2010), ReLU et ses variantes (Leaky ReLU, ELU, GELU) sont devenues le choix dominant pour les couches cachées des réseaux profonds. Elle calcule en une seule opération, son gradient est exact (1 ou 0), et elle ne sature pas vers le haut. Inconvénient : si l’entrée d’un neurone est constamment négative, son gradient est nul et la backpropagation (chapitre 8) ne peut plus mettre à jour ses poids. Le neurone se fige. C’est le problème du dying ReLU, qu’on contourne avec les variantes.

Voir un neurone mourir

Le composant ci-dessous est un neurone ReLU à une entrée. Sa sortie est $\text{ReLU}(w \cdot x + b)$ , tracée en orange. Douze points d’un dataset uniforme sont marqués sur cette courbe : vert si le neurone s’active sur eux, rouge sinon. Pousse le biais vers les valeurs très négatives : tu verras tous les points basculer en rouge. À ce stade, le neurone n’apprendra plus, parce que son gradient est partout nul.

Poids w = 1.20Biais b = 0.40

● 7 / 12 actifs ● 5 inactifs

Sélectif

Diminue le biais pour pousser le neurone vers la mort. Si la sortie ReLU est nulle sur tout le dataset, son gradient l'est aussi et il n'apprendra plus.

Simulateur : neurone ReLU qui meurt (interactif)

Neurone ReLU à une entrée avec sortie ReLU(w·x + b), poids initial w=1,2 et biais b=0,4. La courbe orange représente la sortie en fonction de l'entrée. Douze points d'un dataset uniforme sont marqués sur cette courbe : verts si le neurone s'active dessus, rouges sinon. En poussant le biais vers les valeurs très négatives (b=-2 par exemple), tous les points passent en rouge : le neurone est mort, son gradient est partout nul, il n'apprendra plus rien.

Trois choses à essayer :

Place le biais à $-2$ avec un poids positif modéré. Le neurone meurt complètement sur tout le dataset.
Remets le biais à $0$ et inverse le signe du poids. Tu vois que la frontière d’activation pivote autour de l’origine.
Cherche une configuration où exactement la moitié des points sont actifs. C’est typiquement un bon point de départ pour l’apprentissage.

Tanh

La tangente hyperbolique est la cousine centrée de la sigmoïde. Même allure en S, mais compresse dans $]-1, 1[$ au lieu de $]0, 1[$ .

tanh(x) = (eˣ - e⁻ˣ) / (eˣ + e⁻ˣ)

Tanh

Équation : $\tanh(x) = \dfrac{e^x - e^{-x}}{e^x + e^{-x}}$ . Dérivée : $\tanh'(x) = 1 - \tanh^2(x)$ .

Allure : courbe en S, $\tanh(0) = 0$ , $\tanh(-\infty) \to -1$ , $\tanh(+\infty) \to +1$ .

Usage moderne : prisée quand on veut une sortie centrée sur zéro (statistiquement préférable pour l’apprentissage). Souvent utilisée dans les RNN classiques (LSTM, GRU) et dans certaines couches d’attention.

Tableau récapitulatif

Une seule vue d’ensemble pour mémoriser les quatre fonctions classiques : forme, dérivée, plage de sortie, coût de calcul.

Fonction	Définition	Dérivée	Plage	Coût relatif
Identity	$f(x) = x$	$f'(x) = 1$	$\mathbb{R}$	1× (référence)
Sigmoïde	$\sigma(x) = \dfrac{1}{1 + e^{-x}}$	$\sigma'(x) = \sigma(x)(1 - \sigma(x))$	$(0, 1)$	~10× (une exp)
Tanh	$\tanh(x) = \dfrac{e^x - e^{-x}}{e^x + e^{-x}}$	$\tanh'(x) = 1 - \tanh^2(x)$	$(-1, 1)$	~10× (une exp en pratique)
ReLU	$\text{ReLU}(x) = \max(0, x)$	$\text{ReLU}'(x) = \mathbb{1}[x > 0]$	$[0, +\infty)$	1× (un test)

Trois observations à garder en tête : (1) seules ReLU et Identity ont un coût aussi faible que le produit scalaire qui les précède ; (2) seules Sigmoïde et Tanh saturent et donc déclenchent le vanishing gradient ; (3) seule ReLU peut mourir, ce que les variantes modernes ci-dessous corrigent.

Les coûts relatifs sont des ordres de grandeur : la valeur exacte dépend du hardware (CPU vs GPU, FP32 vs FP16, présence d’instructions vectorielles ou de tables de lookup pour l’exponentielle). Sur un CPU sans optimisation matérielle de l’exponentielle, on est dans la zone indiquée ; sur un GPU moderne en FP16, l’écart entre ReLU et sigmoïde se resserre significativement. Note pratique : on calcule tanh comme $\tanh(x) = 1 - 2 / (e^{2x} + 1)$ , ce qui ne demande qu’une seule exponentielle malgré la formule définitionnelle qui en suggère deux.

La famille ReLU moderne

ReLU est le choix par défaut depuis 2012, mais les architectures de pointe (transformers, modèles de fondation, diffusion) ont adopté des variantes plus douces qui résolvent le dying ReLU tout en gardant l’essentiel des avantages.

Leaky ReLU

LeakyReLU(x) = max(α x, x)

Leaky ReLU

Équation : $\text{LeakyReLU}(x) = \max(\alpha x, x)$ , avec un petit coefficient $\alpha$ typiquement fixé à $0{,}01$ . Dérivée : $\alpha$ sur la partie négative, $1$ sur la partie positive.

Au lieu de plaquer la sortie à zéro pour les entrées négatives, on laisse passer une petite pente $\alpha$ . Le neurone garde un gradient non nul de chaque côté et ne peut donc plus mourir. Introduite par Maas, Hannun et Ng (2013) pour la reconnaissance vocale.

GELU

GELU(x) = x · Φ(x)

GELU

Équation : $\text{GELU}(x) = x \cdot \Phi(x)$ , où $\Phi$ est la fonction de répartition de la loi normale standard. C’est l’activation des transformers de la fin des années 2010 (BERT, GPT-2, GPT-3) et elle reste très utilisée dans la plupart des transformers contemporains. Les architectures propriétaires plus récentes (GPT-4, Claude) ne publient pas leur choix d’activation. Dérivée : $\Phi(x) + x \cdot \phi(x)$ où $\phi$ est la densité gaussienne.

Géométriquement, GELU se comporte presque comme ReLU loin de zéro, mais elle est lisse partout (donc dérivable partout, contrairement à ReLU). Introduite par Hendrycks et Gimpel (2016).

SiLU (Swish)

SiLU(x) = x · σ(x)

SiLU / Swish

Équation : $\text{SiLU}(x) = x \cdot \sigma(x)$ , où $\sigma$ est la sigmoïde. C’est la même chose que la fonction « Swish » de Ramachandran et al. (2017), simplement renommée. Elle est la composante d’activation interne de SwiGLU, le bloc utilisé dans Llama (toutes générations), Mistral, Mixtral, PaLM et la plupart des LLMs ouverts récents. Elle apparaît aussi telle quelle dans EfficientNet. Dérivée : $\sigma(x) + x \cdot \sigma(x)(1 - \sigma(x))$ .

Forme très proche de GELU, légèrement moins chère à calculer (pas de fonction d’erreur, juste une sigmoïde). Décrite indépendamment par Elfwing, Uchibe et Doya (2018) sous le nom SiLU.

ELU

ELU(x) = x si x ≥ 0, sinon α(eˣ - 1)

ELU

Équation : $\text{ELU}(x) = x$ si $x \geq 0$ , sinon $\alpha (e^x - 1)$ , avec $\alpha$ typiquement à $1$ . Forme lisse sur la partie négative qui asymptote vers $-\alpha$ . Dérivée : $1$ sur la partie positive, $\alpha e^x$ sur la partie négative.

Plus chère que ReLU (une exponentielle sur la branche négative seulement) mais centre la sortie autour de zéro, ce qui aide la convergence. Introduite par Clevert, Unterthiner et Hochreiter (2015).

En 2026, le triplet ReLU / GELU / SiLU couvre l’écrasante majorité des architectures déployées en production. La règle pratique : ReLU pour la simplicité et la vitesse pure, GELU pour les transformers, SiLU pour les architectures denses récentes.

Joue avec les fonctions

L’idée d’une fonction d’activation se voit mieux qu’elle ne se raconte. Le composant ci-dessous est un atelier complet : tu peux activer ou désactiver chaque fonction individuellement (cliquer sur son label), afficher les dérivées en pointillés, activer un curseur qui place une ligne verticale et fait apparaître la tangente locale au point survolé pour chaque courbe (la pente de cette tangente, c’est exactement $f'(x)$ ). Un panneau dépliable en bas te permet aussi d’ajuster le domaine de $x$ si tu veux zoomer ou dézoomer.

DérivéeCurseur

Domaine de x

min = -5.0max = 5.0

x = 0.00

Fonction	f(x)	f'(x)
Identity	0.000	1.000
Sigmoid	0.500	0.250
ReLU	0.000	0.000
Tanh	0.000	1.000

Les segments en pointillés autour de chaque point sont les tangentes locales. Une tangente plate signifie un gradient faible (apprentissage lent) ; une tangente raide signifie un gradient fort.

Atelier : tracer les fonctions d'activation (interactif)

Atelier qui trace simultanément quatre fonctions d'activation (sigmoïde, ReLU, tanh, identité) sur le domaine x ∈ [-5, 5]. Les dérivées sont affichées en pointillés. Un curseur déclenche une ligne verticale qui fait apparaître la tangente locale à chaque courbe au point survolé. À x=0, σ'(0) = 0,25 ; à x=2, σ'(2) tombe vers 0,1 (saturation). Sur la partie active de ReLU (x>0), la dérivée vaut exactement 1, indépendante de x. C'est la racine du vanishing gradient sur sigmoïde et de la robustesse de ReLU.

Cinq expériences à tenter :

À $x = 0$ , vérifie que $\sigma(0) = 0{,}5$ et $\sigma'(0) = 0{,}25$ . La tangente de la sigmoïde est nette.
À $x = 2$ , observe que $\sigma'(2)$ est déjà tombée vers $0{,}1$ . La sigmoïde sature très vite, sa tangente est presque plate.
À $x = -3$ , ReLU et sa dérivée sont strictement à zéro. Sur cette branche, aucun gradient ne remonte.
Désactive Identity et Tanh pour comparer seulement sigmoïde et ReLU : on voit le contraste entre saturation et linéarité par morceaux.
Compare au centre la pente de la tangente de la sigmoïde (au max $0{,}25$ ) avec celle de ReLU pour $x > 0$ (toujours exactement $1$ ). C’est la racine du vanishing gradient.

Le problème du vanishing gradient

Quand on dérive la sigmoïde, on voit que $\sigma'(x) = \sigma(x)(1 - \sigma(x))$ . Le maximum est atteint pour $x = 0$ et vaut $0{,}25$ . Donc, à chaque couche traversée, le gradient est multiplié par un facteur au plus égal à $0{,}25$ .

Pour un réseau de 10 couches utilisant sigmoïde, le gradient à la première couche est multiplié au maximum par $0{,}25^{10} \approx 9{,}5 \times 10^{-7}$ . C’est extrêmement faible : la première couche n’apprend plus. C’est le problème du vanishing gradient, observé pour la première fois par Hochreiter dans sa thèse (1991), analysé pour les réseaux récurrents par Bengio, Simard et Frasconi (1994), puis quantifié et corrigé pour les réseaux feedforward profonds par Glorot et Bengio (2010).

ReLU résout en grande partie ce problème : sur sa partie active, le gradient vaut exactement $1$ . Une multiplication par $1$ ne réduit pas le gradient. C’est l’une des deux raisons (avec sa vitesse de calcul) de sa domination moderne.

Voir le gradient s’écraser

Le composant ci-dessous simule un réseau profond. Bouge le nombre de couches et change la fonction d’activation. Chaque barre représente le gradient effectif à une couche donnée, en partant de la sortie en haut vers l’entrée en bas. Sur sigmoïde tu vois les barres rétrécir à vue d’œil à mesure que la profondeur monte. Sur ReLU elles gardent leur longueur.

Nombre de couches : 8

Couche 08

1.000

Couche 07

0.250

Couche 06

0.063

Couche 05

0.016

Couche 04

3.91e-3

Couche 03

9.77e-4

Couche 02

2.44e-4

Couche 01

6.10e-5

Gradient effectif à la première couche : 6.10e-5

La couche de sortie reçoit un gradient de référence de 1. Chaque couche traversée vers l'entrée le multiplie par la dérivée maximale de la fonction choisie : sigmoïde 0,25, tanh 1, ReLU 1.

Simulateur : disparition du gradient en profondeur (interactif)

Simulateur d'un réseau profond avec 8 couches (jusqu'à 20). Chaque barre représente le gradient effectif à une couche donnée, de la sortie en haut vers l'entrée en bas. Sur sigmoïde, les barres rétrécissent à vue d'œil : à 15 couches, le gradient à la première couche est de l'ordre de 10⁻⁹. Sur ReLU, toutes les barres gardent la même longueur, parce que la dérivée vaut 1 sur la partie active. C'est la raison technique de l'abandon de sigmoïde au profit de ReLU dans les couches cachées à partir de 2012.

L’expérience clé : passe à $15$ couches avec sigmoïde et regarde le gradient à la première couche. C’est de l’ordre de $10^{-9}$ , totalement insuffisant pour ajuster un poids. Bascule maintenant sur ReLU et observe que les barres se remettent à toutes mesurer la même chose. C’est exactement la raison technique pour laquelle on a abandonné sigmoïde dans les couches cachées au profit de ReLU à partir de 2012.

Comment choisir en pratique

Une heuristique simple qui marche dans 95 % des cas :

Couche	Choix par défaut	Variantes
Couches cachées	ReLU	Leaky ReLU, ELU, GELU pour les cas de dying ReLU
Sortie de classification binaire	Sigmoïde	(aucune)
Sortie de classification multi-classe	Softmax (chapitre 6)	(aucune)
Sortie de régression	Identity	(aucune)
Couches récurrentes (RNN, LSTM, GRU)	Tanh + sigmoïde sur les portes	(aucune)

Cette table est une heuristique, pas un dogme. Sur des architectures spécifiques (transformers, GANs, diffusion models), d’autres fonctions sont utilisées (GELU, Swish, Mish). Mais pour un réseau standard, ReLU partout sauf en sortie est un excellent point de départ.

En une phrase

La fonction d’activation est ce qui empêche un réseau profond de se réduire à une régression linéaire. Sigmoïde et tanh ont régné jusqu’à 2010, puis ReLU s’est imposée sur les couches cachées à partir de 2012. Le choix dépend du contexte mais reste rarement délicat en pratique.

Vers le chapitre 4

Tu as maintenant tous les ingrédients pour comprendre la machine qui apprend : entrées vectorielles (chap. 2), somme pondérée, biais et fonction d’activation (ce chapitre). Le chapitre 4 te présente le perceptron, le premier neurone qui ajuste ses poids tout seul à partir d’exemples. C’est la naissance de l’apprentissage automatique tel qu’on le connaît.

Subtilité que tu vas explorer : ce chapitre vient pourtant d’établir qu’une fonction d’activation doit être dérivable pour pouvoir calculer un gradient. Or le perceptron utilise la fonction de Heaviside, presque partout dérivable de dérivée nulle. Comment fait-il pour apprendre alors, sans gradient ? C’est précisément la question qui ouvre le chapitre suivant.

Exercices

Exercice 1 : dériver la sigmoïde

À partir de la définition $\sigma(x) = \dfrac{1}{1 + e^{-x}}$ , démontrer que $\sigma'(x) = \sigma(x)(1 - \sigma(x))$ .

Exercice 2 : calculer une dérivée à une valeur précise

Calculer $\sigma'(0)$ , puis $\sigma'(2)$ . Comparer ces deux valeurs. Que peux-tu en déduire sur le comportement du gradient pour des entrées éloignées de zéro ?

Exercice 3 : comparer la vitesse

Soit un neurone qui prend en entrée 1000 valeurs. Combien d’opérations arithmétiques élémentaires (additions, multiplications, exponentielles) sont nécessaires pour calculer la sortie d’un neurone avec activation ReLU ? Avec activation sigmoïde ? La différence te paraît-elle marginale ou significative quand tu multiplies par des millions d’évaluations ?

Corrigé de l'exercice 1 : dériver la sigmoïde

On a $\sigma(x) = \dfrac{1}{1 + e^{-x}}$ et on cherche $\sigma'(x)$ . On utilise la règle de la chaîne.

Étape 1. Posons $u(x) = 1 + e^{-x}$ . Alors :

\sigma(x) = \dfrac{1}{u(x)}

Étape 2. La dérivée d’une fonction de la forme $1/u$ est $-u'/u^2$ :

\sigma'(x) = -\dfrac{u'(x)}{u(x)^2}

Étape 3. Calcul de $u'(x)$ . La dérivée de $1$ est nulle, et la dérivée de $e^{-x}$ est $-e^{-x}$ (règle de la chaîne sur l’exponentielle) :

u'(x) = 0 + (-e^{-x}) = -e^{-x}

Étape 4. On substitue $u'$ et $u$ dans l’expression de $\sigma'$ :

\sigma'(x) = -\dfrac{-e^{-x}}{(1 + e^{-x})^2} = \dfrac{e^{-x}}{(1 + e^{-x})^2}

Étape 5. On reconnaît deux blocs. Le premier est $\sigma(x)$ :

\dfrac{1}{1 + e^{-x}} = \sigma(x)

Le second se réécrit en factorisant :

\dfrac{e^{-x}}{1 + e^{-x}} = \dfrac{(1 + e^{-x}) - 1}{1 + e^{-x}} = 1 - \dfrac{1}{1 + e^{-x}} = 1 - \sigma(x)

Étape 6. En remettant ensemble :

\sigma'(x) = \sigma(x) \cdot (1 - \sigma(x)) \qquad \square

Corrigé de l'exercice 2 : calcul à deux valeurs

On utilise la formule prouvée à l’exercice 1 : $\sigma'(x) = \sigma(x)(1 - \sigma(x))$ .

Calcul de $\sigma'(0)$ .

D’abord $\sigma(0)$ :

\sigma(0) = \dfrac{1}{1 + e^{0}} = \dfrac{1}{1 + 1} = \dfrac{1}{2}

Donc :

\sigma'(0) = \dfrac{1}{2} \times \left(1 - \dfrac{1}{2}\right) = \dfrac{1}{2} \times \dfrac{1}{2} = \dfrac{1}{4} = 0{,}25

C’est le maximum de la dérivée de la sigmoïde.

Calcul de $\sigma'(2)$ .

D’abord $\sigma(2)$ :

\sigma(2) = \dfrac{1}{1 + e^{-2}} \approx \dfrac{1}{1 + 0{,}135} \approx \dfrac{1}{1{,}135} \approx 0{,}881

Donc :

\sigma'(2) \approx 0{,}881 \times (1 - 0{,}881) \approx 0{,}881 \times 0{,}119 \approx 0{,}105

Comparaison et interprétation.

Le gradient est divisé par environ $2{,}4$ entre $x = 0$ et $x = 2$ . Pour des entrées encore plus grandes, le gradient s’écroule très vite : c’est la saturation de la sigmoïde et la source du problème du vanishing gradient.

Corrigé de l'exercice 3 : comparer les coûts de calcul

On compte les opérations pour un seul neurone avec 1000 entrées.

Tronc commun : la somme pondérée.

Pour les deux activations, on calcule d’abord $z = \sum_{i=1}^{1000} w_i x_i + b$ . Cela demande :

1000 multiplications $w_i \times x_i$
999 additions pour faire la somme
1 addition pour le biais

Soit environ 2000 opérations élémentaires pour la somme pondérée.

Avec ReLU.

Une seule opération supplémentaire : la comparaison de $z$ avec 0.

Total : environ 2000 opérations (en valeur brute, négligeable l’ajout d’une comparaison).

Avec sigmoïde.

On doit calculer $1/(1 + e^{-z})$ , ce qui demande :

1 négation : $-z$
1 exponentielle : $e^{-z}$
1 addition : $1 + e^{-z}$
1 division : $1/(1 + e^{-z})$

Soit 4 opérations supplémentaires.

Total : environ 2003 opérations.

Le piège : toutes les opérations ne coûtent pas pareil.

L’exponentielle est très chère sur du matériel courant : environ 20 à 50 cycles processeur, contre 1 cycle pour une comparaison.

Pour ce neurone à 1000 entrées, le surcoût reste pourtant marginal : la somme pondérée (environ 2000 opérations) domine de loin, et l’exponentielle n’ajoute que quelques pourcents. La différence ne devient vraiment significative que lorsque l’activation pèse autant que le calcul qui la précède : neurones à très peu d’entrées, ou surtout activation appliquée élément par élément sur de gros tenseurs, où chaque sortie ne coûte qu’une poignée d’opérations avant l’exponentielle. C’est précisément le régime des réseaux profonds modernes, et c’est là que l’économie de ReLU compte.

C’est la deuxième raison (avec le gradient préservé) de la domination de ReLU sur les couches cachées.

Sources

Nair, V. & Hinton, G. E. (2010). « Rectified Linear Units Improve Restricted Boltzmann Machines. » ICML 27. Lien ICML
Glorot, X. & Bengio, Y. (2010). « Understanding the difficulty of training deep feedforward neural networks. » AISTATS 9, 249-256. Lien AISTATS
Cox, D. R. (1958). « The Regression Analysis of Binary Sequences. » Journal of the Royal Statistical Society 20(2), 215-242. (Origine historique de la fonction logistique). DOI 10.1111/j.2517-6161.1958.tb00292.x

Pour aller plus loin

Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep Learning. MIT Press. Section 6.3 sur les fonctions d’activation et leurs variantes. deeplearningbook.org
Maas, A. L., Hannun, A. Y. & Ng, A. Y. (2013). « Rectifier Nonlinearities Improve Neural Network Acoustic Models. » ICML 30, Workshop on Deep Learning for Audio, Speech and Language Processing. (Introduction de la Leaky ReLU). Lien Stanford
Hendrycks, D. & Gimpel, K. (2016). « Gaussian Error Linear Units (GELUs). » arXiv. arXiv 1606.08415
Ramachandran, P., Zoph, B. & Le, Q. V. (2017). « Searching for Activation Functions. » arXiv. (Recherche automatisée d’activations, introduit la famille Swish, équivalente à SiLU). arXiv 1710.05941
Elfwing, S., Uchibe, E. & Doya, K. (2018). « Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning. » Neural Networks 107, 3-11. (Description originale de SiLU). arXiv 1702.03118
Clevert, D.-A., Unterthiner, T. & Hochreiter, S. (2015). « Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). » arXiv. arXiv 1511.07289

Quiz

1. Pourquoi une fonction d'activation non-linéaire est-elle indispensable dans un réseau profond ?
2. Quelle est la dérivée de la sigmoïde σ(x) ?
3. Pourquoi ReLU domine-t-elle les couches cachées des réseaux profonds depuis 2012 ?
4. Sur une classification binaire, quelle fonction d'activation utilise-t-on typiquement en sortie ?
5. Pour un réseau profond de 10 couches utilisant la sigmoïde partout, que peut-il arriver lors de l'entraînement ?