Apprentissage local : apprendre sans gradient global
Et si un réseau apprenait sans jamais propager d'erreur en arrière ? Trois familles de règles purement locales face à la rétropropagation.
La rétropropagation domine l'IA, mais elle est globale : elle exige un balayage arrière qui réutilise tous les poids et verrouille les mises à jour. Le cerveau, lui, apprend localement. Ce dossier confronte la rétropropagation à trois alternatives locales (Forward-Forward, predictive coding, STDP) et explore ce que l'on gagne quand chaque synapse décide seule.
- #apprentissage-local
- #retropropagation
- #forward-forward
- #predictive-coding
- #stdp
- #plasticite-hebbienne
- #efficacite-energetique
- #apprentissage-biologique
Entraîner un grand modèle coûte de l’ordre du mégawatt pendant des semaines. Le cerveau humain, lui, raisonne, apprend en continu et généralise avec environ vingt watts. Cet écart de cinq à six ordres de grandeur n’est pas un détail de matériel : il signale un principe de calcul différent. Au cœur de la différence, le neurone artificiel est sans état (une somme pondérée, en pratique une régression logistique, Cox 1958), et le réseau entier est entraîné par un mécanisme global unique, la rétropropagation. La profondeur crée de la non-linéarité, pas de la richesse. La question de ce dossier tient en une phrase : peut-on apprendre sans propager d’erreur en arrière ?
Les trois verrous de la rétropropagation
La rétropropagation est remarquablement efficace, mais elle ne peut pas être une règle locale. Trois raisons l’en empêchent par construction.
- Transport de poids : la passe arrière réutilise les poids de la passe avant, transposés. Pour calculer son erreur, un neurone devrait connaître les poids des synapses situées en aval de lui, ce qui n’a aucun sens biologique : une synapse ne lit pas les synapses de ses voisines.
- Verrouillage des mises à jour : aucune couche ne se met à jour tant que le balayage arrière complet n’est pas terminé. Tout le réseau avance au pas cadencé, dans un verrou global.
- Deux phases séparées : il faut d’abord propager l’activité vers l’avant, puis l’erreur vers l’arrière. Les deux phases ne se recouvrent jamais.
Lance un cycle d'apprentissage. En mode global, l'erreur balaie le réseau en arrière. Active le mode local pour voir les trois verrous disparaître.
Rétropropagation : non locale, elle exige un signal d'erreur global.
La leçon est nette : la rétropropagation est puissante, mais non locale par construction. C’est précisément ce qu’une règle locale doit abandonner.
Pourquoi viser le local
Si renoncer à la rétropropagation coûte si cher, pourquoi le tenter ? Parce que le local promet quatre choses que le global ne sait pas offrir.
- Énergie proportionnelle à l’activité réelle : seules les unités qui s’activent dépensent, au lieu d’un balayage global systématique.
- Apprentissage continu : pas de phase gelée, le réseau s’adapte en marchant, sans séparer entraînement et inférence.
- Plausibilité biologique : une règle locale ressemble à ce que le vivant sait réellement faire.
- Co-localisation mémoire et calcul : la synapse est à la fois là où l’on stocke et là où l’on calcule, ce qui supprime le va-et-vient coûteux entre mémoire et processeur.
Le prix à payer est lucide : aujourd’hui, aucune méthode locale n’égale la rétropropagation à grande échelle. C’est donc un pari de recherche, pas un problème résolu.
Forward-Forward : deux passes, zéro retour
Hinton (2022) propose de remplacer le couple avant + arrière par deux passes avant. La première traite des données positives (réelles), la seconde des données négatives (corrompues). Chaque couche ajuste localement une qualité (la somme des carrés de ses activités) pour qu’elle soit haute sur le positif et basse sur le négatif. Il n’y a plus de passe arrière, plus d’erreur globale : chaque couche apprend avec sa seule information locale.
Deux passes avant, jamais de passe arrière. Chaque couche ajuste localement sa qualité pour la rendre haute sur les données réelles et basse sur les données corrompues.
La limite est réelle : l’architecture reste fixe, les synapses restent scalaires, et la méthode demeure en dessous de la rétropropagation sur les bancs d’essai. Mais elle prouve qu’un réseau profond peut apprendre sans jamais remonter d’erreur.
Predictive coding : prédire pour apprendre
Une autre voie renverse la perspective : chaque couche prédit l’activité de la suivante et minimise localement son erreur de prédiction. Millidge, Tschantz et Buckley (2022) ont montré que le predictive coding peut approcher la rétropropagation le long de graphes de calcul arbitraires, en n’utilisant que des unités d’erreur locales.
Notons la prédiction venue de la couche . L’erreur locale de prédiction s’écrit :
et la mise à jour locale d’un poids ne dépend que de quantités disponibles à la synapse :
C’est aujourd’hui considéré comme l’alternative la plus prometteuse à la rétropropagation parmi les approches fondées sur l’énergie.
STDP : la causalité par le timing
La STDP (spike-timing-dependent plasticity) est une règle locale documentée biologiquement. La variation du poids ne dépend que du timing relatif des deux décharges :
Si la pré décharge avant la post, la synapse se renforce (potentiation) : elle a participé à la causalité de la décharge suivante. Si la post décharge avant la pré, elle s’affaiblit (dépression). Un troisième facteur (une récompense ou un neuromodulateur) peut conditionner la consolidation : c’est l’apprentissage à trois facteurs. Diehl et Cook (2015) combinent la STDP avec une inhibition de type « le gagnant rafle tout » pour reconnaître des chiffres sans aucune rétropropagation ; Halvagal et Zenke (2023) prolongent cette ligne.
Règle la différence de timing entre les deux décharges. La synapse se renforce si la pré décharge avant la post, s'affaiblit sinon. Tout est local : seul le timing relatif compte.
- Δt
- 20 ms
- dw
- 0.37
- Poids courant
- 0.500
Potentiation : la synapse se renforce
La STDP rejoint directement mon travail : c’est exactement le genre de règle locale que cherche le programme SOAG, et le critère qui pourrait orienter les mutations décrites dans plasticité structurelle.
Une formalisation minimale
Opposons proprement la règle de la chaîne globale et une règle locale. La rétropropagation calcule :
où la somme sur parcourt toutes les unités situées en aval : la mise à jour de dépend de tout le reste du réseau. Une règle locale remplace ce global par un signal disponible à la synapse elle-même :
avec un modulateur global optionnel (une récompense). Tout le débat tient là : un local peut-il égaler le global ?
Tableau comparatif
| Propriété | Rétropropagation | Forward-Forward | Predictive coding | STDP |
|---|---|---|---|---|
| Apprentissage local | non | oui | oui | oui |
| Sans passe arrière | non | oui | partiel | oui |
| Plausibilité biologique | non | partiel | partiel | oui |
| Transport de poids requis | oui | non | non | non |
| Apprentissage en ligne | non | partiel | partiel | oui |
Chaque alternative lève au moins un verrou de la rétropropagation, mais aucune ne l’égale encore à grande échelle.
Limites et questions ouvertes
Il faut rester honnête sur l’état réel du domaine.
- Les méthodes locales restent en dessous de la rétropropagation sur les grands bancs d’essai.
- Il manque une théorie qui dise quelle règle locale produit quelle capacité.
- Comparer ces méthodes est difficile, car elles optimisent des objectifs différents.
- La question ouverte demeure : la localité est-elle une contrainte à surmonter, ou bien la clé de l’efficacité ?
Teste ta compréhension
1. Que signifie le « transport de poids », et pourquoi est-il biologiquement implausible ?
2. Par quoi Forward-Forward remplace-t-il la passe arrière ?
3. En STDP, dans quel sens varie le poids si la pré décharge avant la post ?
4. Quelle est l'affirmation centrale du predictive coding ?
Sources
- The Forward-Forward Algorithm: Some Preliminary Investigations Geoffrey Hinton (2022)
- Predictive Coding Approximates Backprop Along Arbitrary Computation Graphs Millidge, Tschantz & Buckley (2022)
- The combination of Hebbian and predictive plasticity learns invariant object representations in deep sensory networks Halvagal & Zenke (2023)
- Unsupervised learning of digit recognition using spike-timing-dependent plasticity Diehl & Cook (2015)