Le perceptron
Comment Rosenblatt a fait apprendre une machine sans gradient (1958).
Au chapitre 3, tu as compris pourquoi une fonction d’activation doit être non-linéaire Non-linéarité Propriété d'une fonction qui n'est pas affine. Une fonction d'activation non-linéaire est obligatoire dans un réseau profond, sans quoi la composition de plusieurs couches se réduit à une seule couche affine équivalente, et la profondeur perd tout intérêt. et dérivable pour qu’un réseau profond ait un intérêt mathématique. Or le premier neurone artificiel capable d’apprendre, le perceptron de Frank Rosenblatt (1958), utilise la fonction de seuil Fonction seuil Fonction d'activation binaire H(z) qui vaut 1 si z >= 0 et 0 sinon. Aussi appelée fonction de Heaviside. C'est l'activation originale de McCulloch-Pitts (1943) et du perceptron de Rosenblatt (1958), abandonnée plus tard parce qu'elle n'est pas dérivable. , qui n’est presque partout dérivable que de dérivée nulle. Comment Rosenblatt a-t-il pu lui faire apprendre quoi que ce soit ?
Ce chapitre répond à cette question en construisant le perceptron d’un point de vue géométrique, sans dérivée. On démontre que la procédure converge sur un dataset séparable, puis on découvre la limite qui a mis fin au premier âge des réseaux de neurones.
La géométrie d’un hyperplan
L’analogie de la règle sur la table
Pose une règle plate sur une table. Cette règle divise la surface de la table en deux zones : la partie devant la règle et la partie derrière la règle. Le bord de la règle, c’est la frontière. La direction perpendiculaire au bord, c’est ce qu’on va appeler le vecteur normal Vecteur normal Vecteur $w$ qui définit la direction perpendiculaire à un hyperplan d'équation $w \cdot x + b = 0$. Sa direction indique de quel côté de l'hyperplan se trouve un point ; sa norme fixe l'échelle de la distance signée. Source : Bishop, PRML, ch. 4 , et la distance entre la règle et le bord de la table, c’est le décalage.
Un hyperplan Hyperplan Sous-ensemble de Rⁿ défini par une équation linéaire w · x + b = 0. En dimension 2 c'est une droite, en dimension 3 un plan. C'est exactement la frontière de décision tracée par un neurone unique. en deux dimensions, c’est ça : une droite qui sépare le plan en deux demi-espaces Demi-espace Une des deux régions dans lesquelles un hyperplan partitionne Rⁿ. Algébriquement, l'ensemble des points x tels que w · x + b > 0 (resp. < 0). Un neurone à seuil sépare l'espace en exactement deux demi-espaces : actif et inactif. . En trois dimensions, c’est un plan. En dimensions, c’est une surface plate de dimension .
Définition formelle
Soit un vecteur non nul et un scalaire. L’hyperplan affine d’équation est l’ensemble :
Distance signée d’un point à l’hyperplan
Pour un point quelconque, on définit sa distance signée Distance signée Distance perpendiculaire d'un point à un hyperplan, affectée d'un signe selon le côté où se trouve le point. Pour l'hyperplan $w \cdot x + b = 0$, elle vaut $d(x) = (w \cdot x + b) / \|w\|$ : positive d'un côté, négative de l'autre, nulle sur l'hyperplan lui-même. Source : Hastie, Tibshirani, Friedman, ESL, ch. 4 à par :
Cette quantité est positive d’un côté de , négative de l’autre, nulle sur lui-même. En valeur absolue, c’est la distance perpendiculaire usuelle.
Joue avec l’hyperplan
Géométrie de l'hyperplan
Trois choses à remarquer en jouant :
- Quand , l’hyperplan passe exactement par l’origine.
- Multiplier par deux ne déplace pas la droite : seule la direction de compte pour la position de l’hyperplan, pas sa norme.
- La distance signée change de signe quand tu cliques de l’autre côté de la droite : c’est ce signe qu’on va exploiter pour classifier.
Linéairement séparable, avec marge
L’analogie de la bande tampon
Imagine deux pays voisins avec une bande tampon entre eux. La frontière, c’est la droite au milieu. La largeur de la bande tampon, c’est la marge : plus elle est large, plus la frontière est robuste aux petites perturbations des points. Si la bande tampon se réduit à zéro, des habitants des deux pays se croisent et la frontière devient ambiguë.
Encodage des cibles : pourquoi
Jusqu’ici on a souvent codé les classes binaires par et . Pour le perceptron, on choisit plutôt et . Ce choix simplifie tout : un exemple est bien classé par si et seulement si et ont le même signe, ce qui s’écrit en une seule inégalité :
Définitions formelles
Soit un jeu de données avec et . On dit que est linéairement séparable Linéairement séparable Un jeu de données étiquetées est dit linéairement séparable s'il existe un hyperplan qui sépare correctement les points de label 1 des points de label 0. XOR est l'exemple historique d'un problème non linéairement séparable. s’il existe tels que pour tout :
Pour un tel couple , on définit deux marges. La marge fonctionnelle Marge fonctionnelle Pour un exemple $(x, y)$ avec $y \in \{-1, +1\}$, la marge fonctionnelle est la quantité $\hat\gamma = y (w \cdot x + b)$. Elle est strictement positive si et seulement si l'exemple est bien classé. Elle dépend de l'échelle des poids et n'est pas une distance géométrique. Source : Bishop, PRML, ch. 7 du point est . La marge géométrique Marge géométrique Distance perpendiculaire minimale entre un hyperplan séparateur et les points du jeu de données. Définie par $\gamma = \min_i y_i (w \cdot x_i + b) / \|w\|$ avec $y_i \in \{-1, +1\}$. Joue un rôle central dans le théorème de Novikoff et dans la formulation des machines à vecteurs de support. Source : Novikoff, 1962 du point est . La marge du dataset, c’est le minimum sur tous les points :
La marge fonctionnelle dépend de l’échelle des poids ( double si on double ). La marge géométrique, elle, est invariante : elle mesure une vraie distance dans le plan.
Le perceptron, et la tension avec le chapitre 3
Définition
Soit . Le perceptron associé est le classifieur
où est la fonction signe.
1958 et 1960 : deux dates distinctes
Frank Rosenblatt publie l’article fondateur dans la revue Psychological Review (Rosenblatt, 1958). Il y propose le modèle théorique et la règle d’apprentissage que tu vas voir tout de suite. Deux ans plus tard, il construit au Cornell Aeronautical Laboratory le Mark I Perceptron Mark I Perceptron Machine physique construite par Frank Rosenblatt entre 1958 et 1960 au Cornell Aeronautical Laboratory. Capable de reconnaître des formes simples grâce à 400 photorécepteurs connectés à des poids ajustables via potentiomètres motorisés. Première implémentation matérielle d'un algorithme d'apprentissage automatique, distincte du modèle théorique publié en 1958. Source : Rosenblatt, 1958, 1960 : une machine physique avec 400 photorécepteurs et des poids ajustables via des potentiomètres motorisés. Le New York Times titre alors que la marine américaine vient de construire « une machine qui apprend par elle-même ».
Le point important : 1958, c’est le modèle ; 1960, c’est l’implémentation matérielle. Beaucoup de récits confondent les deux, mais l’article théorique précède la machine de deux ans.
La tension avec ce que le chapitre 3 nous a appris
Au chapitre 3, on a démontré que la profondeur d’un réseau ne sert à rien si la fonction d’activation est linéaire, et qu’on a besoin d’une fonction dérivable pour calculer un gradient. Or est presque partout dérivable de dérivée nulle. Comment Rosenblatt a-t-il fait apprendre une machine équipée d’une telle fonction ?
La réponse, étonnamment, est qu’il n’a pas eu besoin d’une dérivée. Sa procédure d’apprentissage est une correction géométrique locale : quand le perceptron se trompe sur un exemple, on déplace le vecteur de poids dans la direction qui corrigerait l’erreur, sans jamais calculer de gradient.
C’est une exception historique. À partir du chapitre 7, on rebasculera sur des fonctions d’activation dérivables et la descente de gradient Descente de gradient Algorithme d'optimisation qui ajuste itérativement les paramètres d'un modèle pour minimiser une fonction de coût. À chaque étape, il déplace les paramètres dans la direction opposée au gradient, d'une distance proportionnelle au taux d'apprentissage. Méthode dominante pour entraîner les réseaux de neurones. Source : Cauchy, 1847 prendra le relais. Mais pour le perceptron, l’apprentissage se fait à la main, par projection.
La règle d’apprentissage du perceptron
L’analogie du panneau de signalisation
Imagine un panneau de signalisation mal orienté. À chaque automobiliste qui se trompe à cause de lui, tu le tournes d’un cran dans la direction qui aurait évité l’erreur. Tu ne calcules pas de dérivée, tu ne maximises rien : tu réagis localement, à chaque incident. Au bout d’un certain nombre d’incidents, le panneau est correctement orienté.
C’est exactement ce que fait la règle de Rosenblatt sur les poids et le biais .
Énoncé
Soit le taux d’apprentissage Taux d'apprentissage Scalaire positif qui contrôle la taille du pas effectué par la descente de gradient à chaque itération. Trop petit, l'apprentissage est lent ; trop grand, il oscille ou diverge. Souvent noté η (eta) ou α (alpha). C'est le premier hyperparamètre à régler dans tout entraînement. . Pour un exemple mal classé, la règle d’apprentissage Règle d'apprentissage Procédure qui met à jour les paramètres (poids, biais) d'un modèle à partir d'exemples observés. Pour le perceptron, la règle est $w \leftarrow w + \eta \cdot y \cdot x$ et $b \leftarrow b + \eta \cdot y$ appliquée seulement quand un exemple est mal classé. Source : Rosenblatt, 1958 du perceptron applique :
Pour un exemple bien classé, on ne touche à rien. La procédure parcourt le dataset, applique l’update à chaque erreur, et recommence jusqu’à ce qu’aucun exemple ne soit mal classé.
Trois formes pour la même règle
| Forme | Écriture |
|---|---|
| Par composante | pour chaque |
| Vectorielle | |
| Avec biais absorbé | avec et |
Les trois disent exactement la même chose. La forme par composante est la plus explicite pour calculer à la main. La forme vectorielle est la plus compacte. La forme avec biais absorbé est utile pour les démonstrations : elle réduit deux mises à jour ( et ) à une seule.
Démonstration : l’update améliore strictement la marge fonctionnelle
Avant l’update, soit la marge fonctionnelle de l’exemple . Comme cet exemple est mal classé, on a .
Après l’update, le nouveau . Calculons la nouvelle marge fonctionnelle.
Étape 1. On remplace par leur expression.
Étape 2. On développe.
Étape 3. Comme , on a . La nouvelle marge fonctionnelle est donc :
Résultat. La quantité ajoutée est strictement positive (car ). L’update a donc augmenté strictement la marge fonctionnelle de l’exemple. Aucune dérivée n’a été calculée nulle part dans la démonstration. □
Construis le perceptron pas à pas
Construire le perceptron pas à pas
Trois choses à observer en jouant :
- Sur OR ou AND, la frontière violette se stabilise rapidement. Le compteur d’erreurs tombe à zéro et le perceptron a convergé.
- Sur XOR, le compteur d’erreurs ne tombe jamais à zéro, même après cent époques. La règle continue d’osciller indéfiniment.
- Le taux ne change pas la convergence sur les datasets séparables : il modifie seulement l’amplitude de chaque pas et donc la vitesse visuelle de la frontière, pas le résultat final.
Le théorème de convergence (Novikoff, 1962)
L’analogie du curseur qui zigzague
Imagine un curseur qui rebondit entre les deux bords d’un canal étroit. À chaque rebond, il dépense un peu de son élan. Si le canal a une largeur strictement positive, le curseur finit par s’arrêter au milieu en un nombre fini de rebonds.
C’est ce que va prouver le théorème de Novikoff Théorème de Novikoff Si un jeu de données est linéairement séparable avec marge géométrique $\gamma > 0$ et rayon $R = \max_i \|x_i\|$, alors l'algorithme du perceptron initialisé à zéro converge en au plus $T \leq (R / \gamma)^2$ corrections, quelle que soit la valeur du taux d'apprentissage. Source : Novikoff, 1962 : tant que la marge est strictement positive, le nombre de corrections du perceptron est borné par une quantité qui ne dépend que de la géométrie du dataset.
Énoncé
Soit un jeu de données linéairement séparable. On suppose qu’il existe un vecteur unitaire avec et un scalaire tels que pour tout :
Soit le rayon du dataset.
Une précision de rigueur : une fois le biais absorbé, les quantités du théorème se lisent toutes dans . Le rayon est alors , et désigne le séparateur optimal renormalisé à dans ce même espace augmenté. La borne garde exactement sa forme.
Théorème. L’algorithme du perceptron (en forme à biais absorbé) initialisé à avec pas effectue au plus
corrections avant de classer correctement tous les exemples.
Démonstration en deux lemmes
On note le vecteur de poids après la -ème correction.
Lemme 1 (minoration). Pour tout , .
Étape 1. À l’initialisation, , donc .
Étape 2. À la -ème correction, on a pour un exemple mal classé.
Étape 3. Calculons :
Étape 4. Par hypothèse de séparation avec marge : . Donc :
Étape 5. Par récurrence sur , . □
Lemme 2 (majoration). Pour tout , .
Étape 1. À l’initialisation, .
Étape 2. À la -ème correction :
Étape 3. Comme est mal classé par , on a (sinon, il serait bien classé). Donc le terme du milieu est négatif ou nul :
Étape 4. Par récurrence, , donc . □
Combinaison via Cauchy-Schwarz.
Étape 1. L’inégalité de Cauchy-Schwarz donne, pour deux vecteurs :
Étape 2. Appliquée à et avec :
Étape 3. En combinant avec les deux lemmes après corrections :
Étape 4. On élève au carré et on simplifie par (qui est positif) :
Résultat. Le nombre de corrections du perceptron est borné par . Avec un pas , le facteur apparaîtrait identiquement dans les deux lemmes : le minorant deviendrait et la majoration . Après Cauchy-Schwarz et simplification, on retrouverait exactement la même borne. Le nombre de corrections ne dépend donc pas du choix de , et la procédure converge en un nombre fini d’étapes. □
Lecture intuitive
- Plus la marge est étroite (deux classes très proches), plus la borne explose, et plus la convergence est lente.
- Plus le rayon est grand (points éloignés de l’origine), plus la borne croît quadratiquement.
- Mais quelle que soit la difficulté, la borne reste finie tant que .
Explore la borne en direct
Explorateur de la borne de Novikoff
Trois choses à observer en jouant :
- Rapproche les deux groupes de points : rétrécit et la borne explose, alors que le effectif augmente plus modérément.
- Éloigne un point isolé du centre : grossit, la borne aussi, mais le effectif n’augmente pas forcément autant.
- Le ratio est généralement bien inférieur à : la borne est pessimiste, mais elle existe.
Et si le dataset n’est pas séparable ?
Le théorème de Novikoff fait une hypothèse cruciale : il existe un séparateur linéaire de marge . Que se passe-t-il quand cette hypothèse tombe ?
Le perceptron oscille
La borne est démontrée sous l’hypothèse . Quand le dataset n’est pas linéairement séparable, n’est pas défini : il n’existe aucun couple qui classe tout correctement. Conséquence : la règle d’apprentissage de Rosenblatt continue à corriger en boucle, sans jamais converger. Le vecteur de poids oscille indéfiniment, et même les itérations qui passent par un « presque bon » sont perdues à l’itération suivante quand un autre exemple mal classé déclenche un update qui dégrade ce qu’on avait.
Le Pocket Algorithm de Gallant
La solution classique est étonnamment simple : on garde en poche le meilleur jamais rencontré. À chaque mise à jour de la règle de Rosenblatt, on évalue le nouveau sur l’ensemble du dataset, on compte le nombre d’exemples bien classés, et si ce nombre dépasse celui du couple « en poche », on remplace. À la fin (après un budget fixé d’itérations, qu’on peut choisir grand), on retourne le contenu de la poche, pas la dernière valeur de .
Cette procédure, le Pocket Algorithm, a été introduite par Gallant (1990). Sur dataset séparable elle se réduit au perceptron classique (la poche finit par contenir un séparateur parfait). Sur dataset non séparable, elle converge en probabilité vers le séparateur qui maximise le nombre d’exemples bien classés. On perd la garantie de Novikoff, mais on récupère une procédure utilisable en pratique.
L’impossibilité de XOR
L’analogie du damier impossible
Imagine quatre cases d’un damier : les diagonales sont alternées (deux blanches en bas-gauche et haut-droite, deux noires en haut-gauche et bas-droite). Aucune ligne droite ne peut séparer les deux blanches des deux noires. C’est exactement la situation de la fonction XOR.
Énoncé
La fonction définie par , , , n’est pas réalisable par un seul perceptron.
Démonstration par contradiction
Pour cette démonstration, on revient à l’encodage usuel de XOR avec cibles dans et la convention de la fonction de Heaviside : la sortie vaut si et sinon. Le résultat ne dépend pas du choix d’encodage : passer aux cibles et à la fonction donne quatre inéquations équivalentes par changement de variable, et la même contradiction.
Supposons qu’il existe tels que le perceptron réalise XOR. Alors les quatre contraintes suivantes sont simultanément vraies :
| Point | XOR | Inéquation |
|---|---|---|
| (1) : | ||
| (2) : | ||
| (3) : | ||
| (4) : |
Étape 1. Additionnons (2) et (3) :
Étape 2. De (1), , donc , donc . En réécrivant l’étape 1 :
La chaîne combine une inégalité large () et une inégalité stricte (), donc le résultat est strict : .
Étape 3. En ajoutant de chaque côté :
Étape 4. Mais (4) dit que .
Résultat. On a simultanément et . Contradiction. Donc aucun triplet ne réalise XOR. □
Explore-le toi-même
Pourquoi XOR est impossible
Trois choses à observer en jouant :
- Quel que soit le réglage des sliders, on n’atteint jamais 4 / 4 inéquations satisfaites. Le maximum est 3 / 4.
- Le preset « OR-like » satisfait (1), (2), (3) mais viole (4). Le preset « AND-like » satisfait (1), (4) mais viole (2) ou (3). Aucune frontière linéaire ne peut concilier les quatre.
- En cliquant « Pourquoi 4 / 4 est impossible », tu retrouves la démonstration par contradiction sous forme condensée.
Le contexte historique
Marvin Minsky et Seymour Papert Minsky & Papert Marvin Minsky et Seymour Papert, auteurs du livre *Perceptrons* (MIT Press, 1969) qui démontre formellement les limites d'un perceptron simple, notamment l'impossibilité de réaliser la fonction XOR. Leur analyse a contribué au déclin du financement public de la recherche en réseaux de neurones jusqu'au milieu des années 1980. Source : Minsky & Papert, *Perceptrons*, MIT Press, 1969 publient Perceptrons en 1969, livre dont le chapitre central démontre cette impossibilité et la généralise à toute une famille de fonctions « non-locales ». Leur analyse rigoureuse a contribué à un repli du financement public de la recherche en réseaux de neurones, période qu’on appelle aujourd’hui le premier hiver de l’IA Hiver de l'IA Période de désintérêt et de coupure de financement de la recherche en intelligence artificielle. Le premier hiver, années 1970 et début des années 1980, suit la critique du perceptron par Minsky et Papert (1969). Le second, fin des années 1980 et années 1990, suit les déceptions liées aux systèmes experts. Chaque hiver précède un regain : la rétropropagation pour le premier, l'apprentissage profond moderne pour le second. Source : Russell & Norvig, *AIMA*, ch. 1 . Il faudra attendre Hopfield en 1982 et la redécouverte de la rétropropagation par Rumelhart, Hinton et Williams en 1986 pour que la communauté reparte.
Exercices papier-crayon
Exercice 1 : une itération en trois dimensions
Soit , , . On présente l’exemple avec cible .
(a) Calcule la prédiction . Est-elle correcte ?
(b) Applique la règle d’apprentissage et donne le couple après mise à jour.
(c) Vérifie que la nouvelle marge fonctionnelle est strictement supérieure à l’ancienne.
Exercice 2 : tester la séparabilité
Le jeu de données est-il linéairement séparable ? Justifie.
Exercice 3 : un perceptron explicite pour NAND
Trouve explicitement tels que le perceptron réalise la fonction NAND, c’est-à-dire sauf si . Vérifie ta solution sur les quatre points.
Exercice 4 : sans biais, Novikoff peut échouer
On force pendant tout l’apprentissage (le perceptron ne met à jour que les poids , pas le biais). Donne un dataset de deux points en dimension , linéairement séparable, pour lequel l’algorithme du perceptron sans biais ne converge pas. Justifie.
En une phrase
Le perceptron prouve qu’une machine peut construire géométriquement la frontière qui sépare deux classes, sans calculer de dérivée, en un nombre fini d’étapes : à condition que cette frontière soit une droite, et XOR ne l’est pas.
Vers le chapitre 5 : empiler résout XOR
XOR n’est pas linéairement séparable, mais on peut l’écrire comme une composition de fonctions qui le sont :
OR est linéairement séparable, et l’est aussi (tu viens de le démontrer en exercice 3). En posant et , on a , et AND est lui-même séparable. Trois perceptrons, deux dans une première couche (OR et NAND) puis un dans une seconde (AND), suffisent donc à résoudre XOR :
C’est exactement ce que le chapitre 5 va formaliser : empiler des perceptrons en couches élargit drastiquement la classe de fonctions que le réseau peut représenter. Au chapitre 5, un seul neurone séparera l’espace en deux ; plusieurs neurones organisés en couches sépareront en régions arbitrairement complexes.
Quiz
1. Pourquoi la règle d'apprentissage du perceptron n'a-t-elle pas besoin de calculer une dérivée ?
2. Sur un dataset non linéairement séparable, que se passe-t-il avec le perceptron ?
3. Dans l'update w ← w + η y x, pourquoi multiplie-t-on par x et pas par autre chose ?
4. Quelle est la signification géométrique de b dans l'équation w · x + b = 0 ?
5. Pourquoi XOR n'est-il pas réalisable par un seul perceptron, et que va faire le chapitre 5 ?
Sources
- Rosenblatt, F. (1958). « The perceptron: A probabilistic model for information storage and organization in the brain ». Psychological Review 65(6), 386-408. DOI 10.1037/h0042519
- Novikoff, A. B. J. (1962). « On convergence proofs on perceptrons ». Symposium on the Mathematical Theory of Automata 12, 615-622.
- Minsky, M. & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 978-0-262-13043-1.
- Gallant, S. I. (1990). « Perceptron-Based Learning Algorithms ». IEEE Transactions on Neural Networks 1(2), 179-191. (Introduction du Pocket Algorithm.) DOI 10.1109/72.80230
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning, ch. 4. Springer. ISBN 978-0-387-31073-2.
- Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning, ch. 4. Springer. ISBN 978-0-387-84857-0.
- Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep Learning, ch. 1. MIT Press. ISBN 978-0-262-03561-3.
Pour aller plus loin
- Cortes, C. & Vapnik, V. (1995). « Support-Vector Networks ». Machine Learning 20(3), 273-297. Les SVM sont précisément le perceptron à marge maximale : là où la règle de Rosenblatt accepte n’importe quel séparateur valide, SVM optimise le séparateur dont la marge géométrique (celle-là même qui apparaît dans Novikoff) est la plus grande possible. C’est l’héritage direct du perceptron, et la pierre angulaire de l’apprentissage supervisé pré-2012. DOI 10.1007/BF00994018
- Freund, Y. & Schapire, R. E. (1999). « Large Margin Classification Using the Perceptron Algorithm ». Machine Learning 37(3), 277-296. Introduit le voted perceptron qui agrège les hypothèses intermédiaires : sur dataset bruité, performance proche de SVM pour un coût comparable au perceptron. DOI 10.1023/A:1007662407062