Le neurone artificiel
Du biologique au mathématique, ce qui se passe vraiment dans la brique élémentaire d'un réseau.
Tout réseau de neurones, du plus simple au plus profond, est un assemblage d’une seule brique élémentaire répétée par millions. Cette brique, le neurone artificiel, n’a pourtant rien de magique. C’est une équation à trois ingrédients qui s’inspire d’une cellule biologique vieille de plusieurs centaines de millions d’années.
À la fin de ce chapitre tu sauras répondre à trois questions : qu’est-ce qu’un neurone artificiel calcule exactement, d’où vient cette idée, et pourquoi un neurone tout seul a une limite que les réseaux modernes ont dû dépasser.
L’inspiration biologique
Ton cerveau contient environ 86 milliards de neurones (Azevedo et al., 2009). Chaque neurone reçoit des signaux électriques d’autres neurones via ses dendrites, intègre ces signaux dans son corps cellulaire, et décide selon un seuil interne s’il doit lui-même envoyer un signal le long de son axone.
En 1943, Warren McCulloch et Walter Pitts modélisent ce comportement par une équation (McCulloch & Pitts, 1943), et posent les bases de ce qu’on appellera quelques années plus tard le neurone artificiel. Ce n’est pas une copie fidèle de la biologie, c’est une simplification mathématique qui s’avère puissante.
L’analogie de l’arbitre
Imagine un arbitre de foot qui doit décider si une faute mérite un penalty. Il reçoit plusieurs informations, et chacune compte plus ou moins selon le contexte.
| Information | Entrée | Poids |
|---|---|---|
| La main a touché le ballon | ||
| Dans la surface de réparation | ||
| Geste intentionnel |
L’arbitre fait dans sa tête une somme pondérée Somme pondérée Addition de plusieurs valeurs, chacune multipliée par un coefficient appelé poids. Formule générale Σ wᵢ xᵢ. C'est le cœur du calcul du neurone artificiel, avant l'ajout du biais et l'application de la fonction d'activation. : il additionne les informations en les multipliant chacune par leur importance. Si le total dépasse un seuil, il siffle. C’est exactement ce que fait un neurone artificiel.
Joue avec un neurone
Place de la pratique avant la théorie. Bouge les curseurs ci-dessous. La sortie se recalcule en direct. Ta mission : trouver une combinaison où la sortie est très proche de , puis une autre où elle est très proche de . Tu vas sentir comment chaque paramètre tire dans une direction.
Trois choses à remarquer en jouant :
- Une entrée à zéro annule la contribution de son poids, peu importe la valeur de ce dernier.
- Augmenter un poids accentue l’influence de son entrée. Le passer en négatif inverse son effet.
- Le biais translate la sortie indépendamment des entrées. Un biais très négatif rend le neurone très difficile à activer.
La formule mathématique
L’opération du neurone se résume en une équation. La forme développée, lisible :
La même équation en notation compacte avec le symbole somme :
Et la forme la plus dense, en notation vectorielle :
Les trois formes disent la même chose, à des niveaux d’abstraction croissants. Apprends à les reconnaître toutes les trois, tu les croiseras dans n’importe quel article scientifique.
Que représente chaque symbole
- : les entrées, les informations que le neurone reçoit
- : les poids, l’importance accordée à chaque entrée
- : le biais Biais Terme constant ajouté à la somme pondérée d'un neurone, indépendant des entrées. Géométriquement, il translate la frontière de décision dans l'espace des entrées. Sans biais, cette frontière passerait obligatoirement par l'origine. , un décalage de base indépendant des entrées
- : la fonction d’activation Fonction d'activation Fonction non-linéaire appliquée à la sortie de la somme pondérée d'un neurone. Sans elle, un réseau de neurones se réduirait à une simple combinaison linéaire, peu importe sa profondeur. Les classiques sont sigmoïde, ReLU, tanh. , qui transforme le résultat brut en valeur interprétable (sujet du chapitre 3)
Le flux d’information, vu comme un graphe
Chaque entrée passe par une multiplication par son poids, toutes les contributions s’additionnent avec le biais, et le résultat traverse la fonction d’activation pour produire la sortie.
Du biologique à l’artificiel
| Élément biologique | Rôle | Équivalent artificiel |
|---|---|---|
| Dendrites | Reçoivent les signaux entrants | Entrées |
| Synapses | Régulent l’intensité du signal | Poids |
| Corps cellulaire | Intègre tous les signaux | Somme pondérée |
| Seuil d’activation | Déclenche ou non le signal | Biais + fonction |
| Axone | Transmet la sortie | Sortie |
Une idée née en 1943
Le neurone artificiel a une histoire de 83 ans, faite de percées et de longs hivers.
| Année | Événement |
|---|---|
| 1943 | McCulloch & Pitts modélisent le neurone mathématiquement. |
| 1949 | Donald Hebb énonce la règle « les neurones qui s’activent ensemble se renforcent ensemble ». |
| 1958 | Frank Rosenblatt publie l’article fondateur du perceptron Perceptron Premier neurone artificiel capable d'apprendre, inventé par Frank Rosenblatt en 1958. Il combine une somme pondérée des entrées avec une fonction seuil pour produire une décision binaire 0 ou 1. Source : Rosenblatt, 1958 , première règle d’apprentissage automatique d’un neurone. |
| 1960 | Mark I Perceptron : première réalisation matérielle (Cornell Aeronautical Laboratory), un calculateur électromécanique capable de reconnaître des formes simples. |
| 1969 | Minsky & Papert publient Perceptrons et démontrent qu’un seul neurone ne peut pas apprendre XOR XOR (ou exclusif) Opération logique qui vaut 1 quand exactement une de ses deux entrées vaut 1, et 0 sinon. Ses cas positifs sont en diagonale dans le plan 2D, ce qui les rend non séparables par une seule droite. Cela rend XOR impossible à apprendre pour un perceptron unique. Source : Minsky et Papert, 1969 . Premier coup d’arrêt sérieux à l’enthousiasme. |
| 1973 | Rapport Lighthill au Royaume-Uni : l’IA est jugée incapable de tenir ses promesses. Les financements s’effondrent en Europe et aux États-Unis. C’est le premier hiver de l’IA, qui durera une décennie. |
| 1986 | Rumelhart, Hinton & Williams publient la rétropropagation Backpropagation Algorithme permettant de calculer le gradient de la fonction de coût par rapport à chaque poids d'un réseau de neurones. Il propage l'erreur de la sortie vers les couches précédentes en appliquant la règle de la chaîne. C'est le cœur de l'apprentissage des réseaux multi-couches. Source : Rumelhart, Hinton et Williams, 1986 du gradient. La recherche repart. |
| 2012 | AlexNet (Krizhevsky, Sutskever, Hinton) écrase ImageNet sur GPU. Début de l’ère du deep learning moderne. |
Ce qu’un seul neurone ne peut pas faire
Définition formelle : hyperplan et linéaire séparabilité
Travailler proprement demande une définition précise. Soit un vecteur d’entrée, un vecteur de poids, un biais. On note ici l’ensemble des listes ordonnées de nombres réels (le chapitre 2 formalisera cette notion). L’ensemble des points qui annulent la somme pondérée
est ce qu’on appelle un hyperplan. Dans c’est une droite, dans un plan, et en dimension supérieure on ne peut plus le dessiner mais l’équation reste la même.
Un hyperplan partitionne l’espace en deux demi-espaces : celui où (le neurone s’active) et celui où (le neurone ne s’active pas). Un neurone à seuil est exactement cette opération de partition.
Un ensemble de points étiquetés avec est dit linéairement séparable s’il existe tel que l’hyperplan associé sépare correctement les points de label 1 des points de label 0. Sinon, il est non linéairement séparable.
Pourquoi XOR n’est pas linéairement séparable
Ce résultat n’est pas seulement visuel, il se démontre en quelques lignes par l’absurde. On utilise ici la fonction seuil, qui est celle du perceptron historique. La même impossibilité reste vraie avec une sigmoïde : on perd seulement la simplicité de l’inégalité stricte.
Avant d’attaquer la démonstration, fixons une notation utile pour la suite. Pour une condition logique , on note la fonction indicatrice de : elle vaut si est vraie, sinon. En particulier est la fonction de Heaviside, parfois notée , qu’on a déjà croisée au début de ce chapitre.
Cette démonstration tient en cinq lignes mais elle clôt définitivement le débat : aucun choix de poids et de biais ne peut résoudre XOR avec un seul neurone à seuil.
Vérifier soi-même
Cela suffit pour des problèmes linéairement séparables, comme l’opération ET, où une seule droite suffit à isoler le cas des trois autres. Mais ça ne suffit pas pour XOR XOR (ou exclusif) Opération logique qui vaut 1 quand exactement une de ses deux entrées vaut 1, et 0 sinon. Ses cas positifs sont en diagonale dans le plan 2D, ce qui les rend non séparables par une seule droite. Cela rend XOR impossible à apprendre pour un perceptron unique. Source : Minsky et Papert, 1969 (ou exclusif), où les cas positifs se trouvent en diagonale : aucune droite ne peut les séparer des cas négatifs.
Essaie de séparer XOR à la main
Bouge les curseurs ci-dessous pour orienter et déplacer la droite. Sur AND et OR, tu peux atteindre 4 points sur 4 correctement classés. Sur XOR, tu n’y arriveras jamais : un point sera toujours du mauvais côté.
C’est exactement ce qu’ont démontré Minsky et Papert en 1969. Géométriquement, un neurone correspond à une droite ; XOR demande une frontière qui ne peut pas être linéaire. La solution viendra des réseaux multi-couches, qui peuvent composer plusieurs droites pour dessiner des frontières plus complexes.
Le rôle du biais, visuellement
Sans biais, la droite que trace le neurone passe forcément par l’origine. C’est une contrainte forte : la plupart des problèmes réels ont une frontière de décision qui n’est pas à l’origine.
Le biais résout ça en translatant la droite n’importe où dans le plan. Image mentale utile : les poids contrôlent l’orientation de la droite (sa pente), le biais contrôle sa position.
Pour le voir en direct, reprends le composant ci-dessous sur le dataset OR. Garde la pente proche de et ne touche qu’à l’ordonnée à l’origine (qui joue ici le rôle du biais). La droite glisse parallèlement à elle-même. Sans cette translation, impossible de classer correctement les trois points orange.
Une autre façon d’observer le biais : reviens sur le NeuronDiagram plus haut, mets toutes les entrées à zéro. La sortie ne dépend plus que du biais. C’est le « niveau de base » du neurone, indépendant de toute donnée d’entrée.
En une phrase
Un neurone artificiel calcule une combinaison linéaire de ses entrées, ajoute un biais, et passe le tout dans une fonction non-linéaire. C’est tout. La puissance vient de ce qu’on en fait quand on les empile et les entraîne.
Vers le chapitre 2
Tu as vu dans la dernière section que la formule du neurone s’écrit aussi sous la forme compacte . Cette notation vectorielle est partout en deep learning, mais on ne l’a pas vraiment définie : qu’est-ce qu’un vecteur exactement ? Que veut dire le point central entre et ? Le chapitre 2 installe ces fondations d’algèbre linéaire en restant strictement utile pour la suite du cours.
Exercices
Prends une feuille et un crayon. Les corrigés sont juste en-dessous, regarde-les seulement après avoir essayé.
Exercice 1 : calcul direct
Soit un neurone à deux entrées avec , , , et fonction d’activation ReLU définie par . Calculer la sortie pour et .
Exercice 2 : construire un neurone AND
Trouver un triplet tel qu’un neurone à seuil avec deux entrées binaires implémente la fonction logique ET. Vérifier sur les quatre cas.
Sources
- Azevedo, F. A. et al. (2009). « Equal numbers of neuronal and nonneuronal cells make the human brain an isotropically scaled-up primate brain. » Journal of Comparative Neurology 513(5), 532-541. DOI 10.1002/cne.21974
- McCulloch, W. & Pitts, W. (1943). « A Logical Calculus of Ideas Immanent in Nervous Activity. » Bulletin of Mathematical Biophysics 5(4), 115-133. DOI 10.1007/BF02478259
- Hebb, D. O. (1949). The Organization of Behavior. Wiley. Archive.org
- Rosenblatt, F. (1958). « The Perceptron: a probabilistic model for information storage and organization in the brain. » Psychological Review 65(6), 386-408. DOI 10.1037/h0042519
- Minsky, M. & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press.
- Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986). « Learning representations by back-propagating errors. » Nature 323(6088), 533-536. DOI 10.1038/323533a0
- Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). « ImageNet Classification with Deep Convolutional Neural Networks. » NeurIPS 25. Lien NeurIPS
- Lighthill, J. (1973). Artificial Intelligence: A General Survey. Science Research Council, Royaume-Uni. Archive.org
Pour aller plus loin
- Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep Learning. MIT Press. Chapitre 6 sur les réseaux feed-forward. deeplearningbook.org
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. Chapitre 5 sur les réseaux de neurones.
- Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning. Springer. Chapitre 11. stanford.edu PDF gratuit
- LeCun, Y. (cours en ligne au Collège de France, 2016 à aujourd’hui). « L’apprentissage profond ». college-de-france.fr
- Ng, A. (cours en ligne Coursera, « Deep Learning Specialization »). Très bon complément en anglais.
1. Que produit l'opération d'un neurone, avant la fonction d'activation ?
2. Pourquoi un seul neurone ne peut-il pas apprendre XOR ?
3. Quel est le rôle géométrique du biais ?
4. Que fait la fonction d'activation f dans l'équation y = f(Σ wᵢ xᵢ + b) ?
5. Vrai ou faux : le neurone artificiel est une copie fidèle du neurone biologique.