Réseaux de neurones : fondations et mathématiques · 01 / 09

Le neurone artificiel

Du biologique au mathématique, ce qui se passe vraiment dans la brique élémentaire d'un réseau.

Tout réseau de neurones, du plus simple au plus profond, est un assemblage d’une seule brique élémentaire répétée par millions. Cette brique, le neurone artificiel, n’a pourtant rien de magique. C’est une équation à trois ingrédients qui s’inspire d’une cellule biologique vieille de plusieurs centaines de millions d’années.

À la fin de ce chapitre tu sauras répondre à trois questions : qu’est-ce qu’un neurone artificiel calcule exactement, d’où vient cette idée, et pourquoi un neurone tout seul a une limite que les réseaux modernes ont dû dépasser.

L’inspiration biologique

Ton cerveau contient environ 86 milliards de neurones (Azevedo et al., 2009). Chaque neurone reçoit des signaux électriques d’autres neurones via ses dendrites, intègre ces signaux dans son corps cellulaire, et décide selon un seuil interne s’il doit lui-même envoyer un signal le long de son axone.

En 1943, Warren McCulloch et Walter Pitts modélisent ce comportement par une équation (McCulloch & Pitts, 1943), et posent les bases de ce qu’on appellera quelques années plus tard le neurone artificiel. Ce n’est pas une copie fidèle de la biologie, c’est une simplification mathématique qui s’avère puissante.

L’analogie de l’arbitre

Imagine un arbitre de foot qui doit décider si une faute mérite un penalty. Il reçoit plusieurs informations, et chacune compte plus ou moins selon le contexte.

Information	Entrée	Poids
La main a touché le ballon	$x_1 = 1$	$w_1 = 0{,}8$
Dans la surface de réparation	$x_2 = 0$	$w_2 = 0{,}5$
Geste intentionnel	$x_3 = 1$	$w_3 = 0{,}9$

L’arbitre fait dans sa tête une somme pondérée : il additionne les informations en les multipliant chacune par leur importance. Si le total dépasse un seuil, il siffle. C’est exactement ce que fait un neurone artificiel.

Joue avec un neurone

Place de la pratique avant la théorie. Bouge les curseurs ci-dessous. La sortie se recalcule en direct. Ta mission : trouver une combinaison où la sortie $y$ est très proche de $1$ , puis une autre où elle est très proche de $0$ . Tu vas sentir comment chaque paramètre tire dans une direction.

f =

x₁ = 1.00x₂ = 0.00x₃ = 1.00w₁ = 0.80w₂ = 0.50w₃ = 0.90biais = -0.50

z = 1.00·0.80 + 0.00·0.50 + 1.00·0.90 + -0.50 = 1.20

y = σ(z) = 0.77

Figure : neurone à 3 entrées (curseurs interactifs)

Diagramme paramétrable d'un neurone à trois entrées x₁, x₂, x₃ avec trois poids w₁=0,8, w₂=0,5, w₃=0,9, un biais b=-0,5 et une activation sigmoïde. Avec la configuration de départ (x₁=1, x₂=0, x₃=1), la somme pondérée vaut z = 1·0,8 + 0·0,5 + 1·0,9 + (-0,5) = 1,2 et la sortie y = σ(1,2) ≈ 0,77. Bouger les curseurs montre comment chaque entrée, poids et biais déplace la sortie.

Trois choses à remarquer en jouant :

Une entrée à zéro annule la contribution de son poids, peu importe la valeur de ce dernier.
Augmenter un poids accentue l’influence de son entrée. Le passer en négatif inverse son effet.
Le biais translate la sortie indépendamment des entrées. Un biais très négatif rend le neurone très difficile à activer.

Note historique : du seuil binaire à la sigmoïde

Le NeuronDiagram ci-dessus utilise une fonction d’activation sigmoïde par défaut, qui rend la sortie continue entre 0 et 1. Mais les neurones originaux de McCulloch et Pitts (1943) et le perceptron de Rosenblatt (1958) utilisaient une fonction seuil binaire $H(z) = \mathbb{1}[z \geq 0]$ : sortie 1 si la somme atteint ou dépasse 0, sortie 0 sinon. Pas de nuance.

Bascule le sélecteur f = au-dessus du diagramme entre σ (sigmoid) et H (Heaviside) pour comparer en direct les deux activations. Avec la configuration de départ, la sigmoïde donne $y \approx 0{,}77$ et le seuil binaire bascule directement à $y = 1$ . Joue avec les curseurs pour trouver les zones où le seuil change de sortie : tu y verras l’effet « tout ou rien » du neurone historique.

Le passage à la sigmoïde, puis plus tard à ReLU, est historiquement lié à la backpropagation (1986) qui exige une fonction d’activation dérivable pour propager le gradient. Sujet du chapitre 3. La sigmoïde te donne une intuition plus douce ici, mais ne perds pas de vue que le neurone le plus simple, mathématiquement, est celui à seuil.

La formule mathématique

L’opération du neurone se résume en une équation. La forme développée, lisible :

y = f( x₁·w₁ + x₂·w₂ + x₃·w₃ + b )

Forme développée

La même équation en notation compacte avec le symbole somme :

y = f\left(\sum_{i=1}^{n} w_i x_i + b\right)

Et la forme la plus dense, en notation vectorielle :

y = f(\mathbf{w} \cdot \mathbf{x} + b)

Les trois formes disent la même chose, à des niveaux d’abstraction croissants. Apprends à les reconnaître toutes les trois, tu les croiseras dans n’importe quel article scientifique.

Que représente chaque symbole

$x_i$ : les entrées, les informations que le neurone reçoit
$w_i$ : les poids, l’importance accordée à chaque entrée
$b$ : le biais , un décalage de base indépendant des entrées
$f$ : la fonction d’activation , qui transforme le résultat brut en valeur interprétable (sujet du chapitre 3)

Le flux d’information, vu comme un graphe

Propagation d'une entrée à travers un neurone

Chaque entrée passe par une multiplication par son poids, toutes les contributions s’additionnent avec le biais, et le résultat traverse la fonction d’activation pour produire la sortie.

Du biologique à l’artificiel

Élément biologique	Rôle	Équivalent artificiel
Dendrites	Reçoivent les signaux entrants	Entrées $x_1, x_2, \dots, x_n$
Synapses	Régulent l’intensité du signal	Poids $w_1, w_2, \dots, w_n$
Corps cellulaire	Intègre tous les signaux	Somme pondérée $\sum w_i x_i$
Seuil d’activation	Déclenche ou non le signal	Biais $b$ + fonction $f$
Axone	Transmet la sortie	Sortie $y$

Une idée née en 1943

Le neurone artificiel a une histoire de 83 ans, faite de percées et de longs hivers.

Année	Événement
1943	McCulloch & Pitts modélisent le neurone mathématiquement.
1949	Donald Hebb énonce la règle « les neurones qui s’activent ensemble se renforcent ensemble ».
1958	Frank Rosenblatt publie l’article fondateur du perceptron , première règle d’apprentissage automatique d’un neurone.
1960	Mark I Perceptron : première réalisation matérielle (Cornell Aeronautical Laboratory), un calculateur électromécanique capable de reconnaître des formes simples.
1969	Minsky & Papert publient Perceptrons et démontrent qu’un seul neurone ne peut pas apprendre XOR . Premier coup d’arrêt sérieux à l’enthousiasme.
1973	Rapport Lighthill au Royaume-Uni : l’IA est jugée incapable de tenir ses promesses. Les financements s’effondrent en Europe et aux États-Unis. C’est le premier hiver de l’IA, qui durera une décennie.
1986	Rumelhart, Hinton & Williams publient la rétropropagation du gradient. La recherche repart.
2012	AlexNet (Krizhevsky, Sutskever, Hinton) écrase ImageNet sur GPU. Début de l’ère du deep learning moderne.

Ce qu’un seul neurone ne peut pas faire

Définition formelle : hyperplan et linéaire séparabilité

Travailler proprement demande une définition précise. Soit $\mathbf{x} \in \mathbb{R}^n$ un vecteur d’entrée, $\mathbf{w} \in \mathbb{R}^n$ un vecteur de poids, $b \in \mathbb{R}$ un biais. On note ici $\mathbb{R}^n$ l’ensemble des listes ordonnées de $n$ nombres réels (le chapitre 2 formalisera cette notion). L’ensemble des points qui annulent la somme pondérée

\{\mathbf{x} \in \mathbb{R}^n \mid \mathbf{w} \cdot \mathbf{x} + b = 0\}

est ce qu’on appelle un hyperplan. Dans $\mathbb{R}^2$ c’est une droite, dans $\mathbb{R}^3$ un plan, et en dimension supérieure on ne peut plus le dessiner mais l’équation reste la même.

Un hyperplan partitionne l’espace en deux demi-espaces : celui où $\mathbf{w} \cdot \mathbf{x} + b > 0$ (le neurone s’active) et celui où $\mathbf{w} \cdot \mathbf{x} + b < 0$ (le neurone ne s’active pas). Un neurone à seuil est exactement cette opération de partition.

Un ensemble de points étiquetés $\{(\mathbf{x}_i, y_i)\}$ avec $y_i \in \{0, 1\}$ est dit linéairement séparable s’il existe $(\mathbf{w}, b)$ tel que l’hyperplan associé sépare correctement les points de label 1 des points de label 0. Sinon, il est non linéairement séparable.

Pourquoi XOR n’est pas linéairement séparable

Ce résultat n’est pas seulement visuel, il se démontre en quelques lignes par l’absurde. On utilise ici la fonction seuil, qui est celle du perceptron historique. La même impossibilité reste vraie avec une sigmoïde : on perd seulement la simplicité de l’inégalité stricte.

Avant d’attaquer la démonstration, fixons une notation utile pour la suite. Pour une condition logique $P$ , on note $\mathbb{1}[P]$ la fonction indicatrice de $P$ : elle vaut $1$ si $P$ est vraie, $0$ sinon. En particulier $\mathbb{1}[z \geq 0]$ est la fonction de Heaviside, parfois notée $H(z)$ , qu’on a déjà croisée au début de ce chapitre.

Démonstration : XOR n'admet pas de séparateur linéaire

On note les quatre points de XOR : $(0,0) \to 0$ , $(1,0) \to 1$ , $(0,1) \to 1$ , $(1,1) \to 0$ .

Supposons par l’absurde qu’il existe $(w_1, w_2, b) \in \mathbb{R}^3$ tels que la classification $\mathbb{1}[w_1 x_1 + w_2 x_2 + b \geq 0]$ produise la sortie attendue pour chaque point. On obtient quatre inégalités :

\begin{aligned} (0,0) \to 0 &\quad : \quad b < 0 \\ (1,0) \to 1 &\quad : \quad w_1 + b \geq 0 \\ (0,1) \to 1 &\quad : \quad w_2 + b \geq 0 \\ (1,1) \to 0 &\quad : \quad w_1 + w_2 + b < 0 \end{aligned}

En additionnant $(2)$ et $(3)$ : $w_1 + w_2 + 2b \geq 0$ , donc $w_1 + w_2 \geq -2b$ .

De $(4)$ on a $w_1 + w_2 + b < 0$ , donc $w_1 + w_2 < -b$ .

En combinant les deux : $-2b \leq w_1 + w_2 < -b$ , donc $-2b < -b$ , soit $b > 0$ . Contradiction avec $(1)$ qui impose $b < 0$ . ∎

Cette démonstration tient en cinq lignes mais elle clôt définitivement le débat : aucun choix de poids et de biais ne peut résoudre XOR avec un seul neurone à seuil.

Vérifier soi-même

Cela suffit pour des problèmes linéairement séparables, comme l’opération ET, où une seule droite suffit à isoler le cas $(1, 1)$ des trois autres. Mais ça ne suffit pas pour XOR (ou exclusif), où les cas positifs se trouvent en diagonale : aucune droite ne peut les séparer des cas négatifs.

Essaie de séparer XOR à la main

Bouge les curseurs ci-dessous pour orienter et déplacer la droite. Sur AND et OR, tu peux atteindre 4 points sur 4 correctement classés. Sur XOR, tu n’y arriveras jamais : un point sera toujours du mauvais côté.

Pente = -1.00Ordonnée = 1.50

Droite : B = -1.00·A + 1.50

1 / 4 bien classés

Sur XOR, aucune droite ne sépare correctement les quatre points. Tu auras beau essayer, tu n'atteindras jamais 4 sur 4.

Figure : séparation linéaire de XOR (interactif)

Plan 2D avec quatre points correspondant à la table XOR : (0,0) et (1,1) classés négatifs, (1,0) et (0,1) classés positifs. Les curseurs déplacent et orientent une droite. Aucune orientation ni position ne permet de séparer les deux paires positives des deux paires négatives : XOR n'est pas linéairement séparable, ce que Minsky et Papert ont démontré formellement en 1969.

C’est exactement ce qu’ont démontré Minsky et Papert en 1969. Géométriquement, un neurone correspond à une droite ; XOR demande une frontière qui ne peut pas être linéaire. La solution viendra des réseaux multi-couches, qui peuvent composer plusieurs droites pour dessiner des frontières plus complexes.

Le rôle du biais, visuellement

Sans biais, la droite que trace le neurone passe forcément par l’origine. C’est une contrainte forte : la plupart des problèmes réels ont une frontière de décision qui n’est pas à l’origine.

Le biais résout ça en translatant la droite n’importe où dans le plan. Image mentale utile : les poids contrôlent l’orientation de la droite (sa pente), le biais contrôle sa position.

Pour le voir en direct, reprends le composant ci-dessous sur le dataset OR. Garde la pente proche de $-1$ et ne touche qu’à l’ordonnée à l’origine (qui joue ici le rôle du biais). La droite glisse parallèlement à elle-même. Sans cette translation, impossible de classer correctement les trois points orange.

Pente = -1.00Ordonnée = 0.50

Droite : B = -1.00·A + 0.50

4 / 4 bien classés

Figure : rôle du biais sur le dataset OR (interactif)

Même plan 2D, mais sur la table OR : (0,0) seul négatif, les trois autres positifs. Pente initialisée à -1, ordonnée à 0,5. En ne touchant qu'à l'ordonnée (qui joue le rôle du biais), la droite glisse parallèlement à elle-même. Sans biais (sans la possibilité de translater), la droite passerait forcément par l'origine et ne pourrait pas isoler (0,0) des trois autres.

Une autre façon d’observer le biais : reviens sur le NeuronDiagram plus haut, mets toutes les entrées à zéro. La sortie ne dépend plus que du biais. C’est le « niveau de base » du neurone, indépendant de toute donnée d’entrée.

En une phrase

Un neurone artificiel calcule une combinaison linéaire de ses entrées, ajoute un biais, et passe le tout dans une fonction non-linéaire. C’est tout. La puissance vient de ce qu’on en fait quand on les empile et les entraîne.

Vers le chapitre 2

Tu as vu dans la dernière section que la formule du neurone s’écrit aussi sous la forme compacte $y = f(\mathbf{w} \cdot \mathbf{x} + b)$ . Cette notation vectorielle est partout en deep learning, mais on ne l’a pas vraiment définie : qu’est-ce qu’un vecteur exactement ? Que veut dire le point central entre $\mathbf{w}$ et $\mathbf{x}$ ? Le chapitre 2 installe ces fondations d’algèbre linéaire en restant strictement utile pour la suite du cours.

Exercices

Prends une feuille et un crayon. Les corrigés sont juste en-dessous, regarde-les seulement après avoir essayé.

Exercice 1 : calcul direct

Soit un neurone à deux entrées avec $w_1 = 2$ , $w_2 = -1$ , $b = 0{,}5$ , et fonction d’activation ReLU définie par $\text{ReLU}(z) = \max(0, z)$ . Calculer la sortie pour $x_1 = 0{,}7$ et $x_2 = 0{,}3$ .

Exercice 2 : construire un neurone AND

Trouver un triplet $(w_1, w_2, b)$ tel qu’un neurone à seuil $H(z) = \mathbb{1}[z \geq 0]$ avec deux entrées binaires $x_1, x_2 \in \{0, 1\}$ implémente la fonction logique ET. Vérifier sur les quatre cas.

Corrigé de l'exercice 1 : calcul direct

On a $w_1 = 2$ , $w_2 = -1$ , $b = 0{,}5$ , $x_1 = 0{,}7$ , $x_2 = 0{,}3$ , et la fonction d’activation ReLU.

Étape 1. On écrit la formule de la somme pondérée :

z = w_1 x_1 + w_2 x_2 + b

Étape 2. On substitue les valeurs numériques :

z = 2 \cdot 0{,}7 + (-1) \cdot 0{,}3 + 0{,}5

Étape 3. On calcule chaque produit séparément :

2 \cdot 0{,}7 = 1{,}4

(-1) \cdot 0{,}3 = -0{,}3

Étape 4. On additionne les trois termes :

z = 1{,}4 + (-0{,}3) + 0{,}5 = 1{,}4 - 0{,}3 + 0{,}5 = 1{,}6

Étape 5. On applique l’activation. Comme $z = 1{,}6 > 0$ , on a :

y = \text{ReLU}(1{,}6) = \max(0\ ;\ 1{,}6) = 1{,}6

Résultat. La sortie du neurone est $y = 1{,}6$ .

Corrigé de l'exercice 2 : construire un neurone AND

On cherche $(w_1, w_2, b)$ tel que $H(w_1 x_1 + w_2 x_2 + b)$ implémente la fonction logique ET sur les quatre cas $(0, 0), (1, 0), (0, 1), (1, 1)$ .

Une solution simple. Prenons $w_1 = 1$ , $w_2 = 1$ , $b = -1{,}5$ .

Vérification cas par cas.

Cas $(x_1, x_2) = (0, 0)$ :

z = 1 \cdot 0 + 1 \cdot 0 + (-1{,}5) = -1{,}5

Comme $z < 0$ , la sortie vaut $0$ . Attendu : $0$ ✓

Cas $(x_1, x_2) = (1, 0)$ :

z = 1 \cdot 1 + 1 \cdot 0 + (-1{,}5) = 1 - 1{,}5 = -0{,}5

Comme $z < 0$ , la sortie vaut $0$ . Attendu : $0$ ✓

Cas $(x_1, x_2) = (0, 1)$ :

z = 1 \cdot 0 + 1 \cdot 1 + (-1{,}5) = 1 - 1{,}5 = -0{,}5

Comme $z < 0$ , la sortie vaut $0$ . Attendu : $0$ ✓

Cas $(x_1, x_2) = (1, 1)$ :

z = 1 \cdot 1 + 1 \cdot 1 + (-1{,}5) = 2 - 1{,}5 = 0{,}5

Comme $z \geq 0$ , la sortie vaut $1$ . Attendu : $1$ ✓

Autres solutions valides. Le triplet $(1, 1, -1{,}2)$ fonctionne aussi (à vérifier en refaisant les quatre cas).

Caractérisation générale. Tout triplet $(w_1, w_2, b)$ tel que $w_1, w_2 > 0$ , $w_1 + b < 0$ , $w_2 + b < 0$ et $w_1 + w_2 + b \geq 0$ est solution. Géométriquement, la droite $w_1 x_1 + w_2 x_2 + b = 0$ doit passer entre les trois points négatifs et le point $(1, 1)$ .

Sources

Azevedo, F. A. et al. (2009). « Equal numbers of neuronal and nonneuronal cells make the human brain an isotropically scaled-up primate brain. » Journal of Comparative Neurology 513(5), 532-541. DOI 10.1002/cne.21974
McCulloch, W. & Pitts, W. (1943). « A Logical Calculus of Ideas Immanent in Nervous Activity. » Bulletin of Mathematical Biophysics 5(4), 115-133. DOI 10.1007/BF02478259
Hebb, D. O. (1949). The Organization of Behavior. Wiley. Archive.org
Rosenblatt, F. (1958). « The Perceptron: a probabilistic model for information storage and organization in the brain. » Psychological Review 65(6), 386-408. DOI 10.1037/h0042519
Minsky, M. & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press.
Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). « Learning representations by back-propagating errors. » Nature 323(6088), 533-536. DOI 10.1038/323533a0
Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). « ImageNet Classification with Deep Convolutional Neural Networks. » NeurIPS 25. Lien NeurIPS
Lighthill, J. (1973). Artificial Intelligence: A General Survey. Science Research Council, Royaume-Uni. Archive.org

Pour aller plus loin

Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep Learning. MIT Press. Chapitre 6 sur les réseaux feed-forward. deeplearningbook.org
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. Chapitre 5 sur les réseaux de neurones.
Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning. Springer. Chapitre 11. stanford.edu PDF gratuit
LeCun, Y. (cours en ligne au Collège de France, 2016 à aujourd’hui). « L’apprentissage profond ». college-de-france.fr
Ng, A. (cours en ligne Coursera, « Deep Learning Specialization »). Très bon complément en anglais.

Quiz

1. Que produit l'opération d'un neurone, avant la fonction d'activation ?
2. Pourquoi un seul neurone ne peut-il pas apprendre XOR ?
3. Quel est le rôle géométrique du biais ?
4. Que fait la fonction d'activation f dans l'équation y = f(Σ wᵢ xᵢ + b) ?
5. Vrai ou faux : le neurone artificiel est une copie fidèle du neurone biologique.