Concept IA Publié Publié le 31 mai 2026

Apprentissage local : apprendre sans gradient global

Et si un réseau apprenait sans jamais propager d'erreur en arrière ? Trois familles de règles purement locales face à la rétropropagation.

La rétropropagation domine l'IA, mais elle est globale : elle exige un balayage arrière qui réutilise tous les poids et verrouille les mises à jour. Le cerveau, lui, apprend localement. Ce dossier confronte la rétropropagation à trois alternatives locales (Forward-Forward, predictive coding, STDP) et explore ce que l'on gagne quand chaque synapse décide seule.

#apprentissage-local
#retropropagation
#forward-forward
#predictive-coding
#stdp
#plasticite-hebbienne
#efficacite-energetique
#apprentissage-biologique

Entraîner un grand modèle coûte de l’ordre du mégawatt pendant des semaines. Le cerveau humain, lui, raisonne, apprend en continu et généralise avec environ vingt watts. Cet écart de cinq à six ordres de grandeur n’est pas un détail de matériel : il signale un principe de calcul différent. Au cœur de la différence, le neurone artificiel est sans état (une somme pondérée, en pratique une régression logistique, Cox 1958), et le réseau entier est entraîné par un mécanisme global unique, la rétropropagation. La profondeur crée de la non-linéarité, pas de la richesse. La question de ce dossier tient en une phrase : peut-on apprendre sans propager d’erreur en arrière ?

Les trois verrous de la rétropropagation

La rétropropagation est remarquablement efficace, mais elle ne peut pas être une règle locale. Trois raisons l’en empêchent par construction.

Transport de poids : la passe arrière réutilise les poids de la passe avant, transposés. Pour calculer son erreur, un neurone devrait connaître les poids des synapses situées en aval de lui, ce qui n’a aucun sens biologique : une synapse ne lit pas les synapses de ses voisines.
Verrouillage des mises à jour : aucune couche ne se met à jour tant que le balayage arrière complet n’est pas terminé. Tout le réseau avance au pas cadencé, dans un verrou global.
Deux phases séparées : il faut d’abord propager l’activité vers l’avant, puis l’erreur vers l’arrière. Les deux phases ne se recouvrent jamais.

Lance un cycle d'apprentissage. En mode global, l'erreur balaie le réseau en arrière. Active le mode local pour voir les trois verrous disparaître.

Rétropropagation : non locale, elle exige un signal d'erreur global.

La leçon est nette : la rétropropagation est puissante, mais non locale par construction. C’est précisément ce qu’une règle locale doit abandonner.

Pourquoi viser le local

Si renoncer à la rétropropagation coûte si cher, pourquoi le tenter ? Parce que le local promet quatre choses que le global ne sait pas offrir.

Énergie proportionnelle à l’activité réelle : seules les unités qui s’activent dépensent, au lieu d’un balayage global systématique.
Apprentissage continu : pas de phase gelée, le réseau s’adapte en marchant, sans séparer entraînement et inférence.
Plausibilité biologique : une règle locale ressemble à ce que le vivant sait réellement faire.
Co-localisation mémoire et calcul : la synapse est à la fois là où l’on stocke et là où l’on calcule, ce qui supprime le va-et-vient coûteux entre mémoire et processeur.

Le prix à payer est lucide : aujourd’hui, aucune méthode locale n’égale la rétropropagation à grande échelle. C’est donc un pari de recherche, pas un problème résolu.

Forward-Forward : deux passes, zéro retour

Hinton (2022) propose de remplacer le couple avant + arrière par deux passes avant. La première traite des données positives (réelles), la seconde des données négatives (corrompues). Chaque couche ajuste localement une qualité (la somme des carrés de ses activités) pour qu’elle soit haute sur le positif et basse sur le négatif. Il n’y a plus de passe arrière, plus d’erreur globale : chaque couche apprend avec sa seule information locale.

Deux passes avant, jamais de passe arrière. Chaque couche ajuste localement sa qualité pour la rendre haute sur les données réelles et basse sur les données corrompues.

Aucune passe arrière : l'apprentissage est purement local.

Couche 1Qualité 50%

Seuil 50%

Couche 2Qualité 50%

Seuil 50%

Couche 3Qualité 50%

Seuil 50%

Couche 4Qualité 50%

Seuil 50%

La limite est réelle : l’architecture reste fixe, les synapses restent scalaires, et la méthode demeure en dessous de la rétropropagation sur les bancs d’essai. Mais elle prouve qu’un réseau profond peut apprendre sans jamais remonter d’erreur.

Predictive coding : prédire pour apprendre

Une autre voie renverse la perspective : chaque couche prédit l’activité de la suivante et minimise localement son erreur de prédiction. Millidge, Tschantz et Buckley (2022) ont montré que le predictive coding peut approcher la rétropropagation le long de graphes de calcul arbitraires, en n’utilisant que des unités d’erreur locales.

Notons $\hat{x}_l$ la prédiction venue de la couche $l+1$ . L’erreur locale de prédiction s’écrit :

\varepsilon_l = x_l - \hat{x}_l

et la mise à jour locale d’un poids ne dépend que de quantités disponibles à la synapse :

\Delta w_l \propto \varepsilon_l \, f(x_{l+1})

C’est aujourd’hui considéré comme l’alternative la plus prometteuse à la rétropropagation parmi les approches fondées sur l’énergie.

STDP : la causalité par le timing

La STDP (spike-timing-dependent plasticity) est une règle locale documentée biologiquement. La variation du poids ne dépend que du timing relatif des deux décharges :

\Delta t = t_{post} - t_{pre}

Si la pré décharge avant la post, la synapse se renforce (potentiation) : elle a participé à la causalité de la décharge suivante. Si la post décharge avant la pré, elle s’affaiblit (dépression). Un troisième facteur (une récompense ou un neuromodulateur) peut conditionner la consolidation : c’est l’apprentissage à trois facteurs. Diehl et Cook (2015) combinent la STDP avec une inhibition de type « le gagnant rafle tout » pour reconnaître des chiffres sans aucune rétropropagation ; Halvagal et Zenke (2023) prolongent cette ligne.

Règle la différence de timing entre les deux décharges. La synapse se renforce si la pré décharge avant la post, s'affaiblit sinon. Tout est local : seul le timing relatif compte.

Différence de timing : 20 ms

Pré-synaptique avantavant Post-synaptique

Troisième facteur (récompense)

Δt: 20 ms
dw: 0.37
Poids courant: 0.500

Potentiation : la synapse se renforce

La STDP rejoint directement mon travail : c’est exactement le genre de règle locale que cherche le programme SOAG, et le critère qui pourrait orienter les mutations décrites dans plasticité structurelle.

Une formalisation minimale

Opposons proprement la règle de la chaîne globale et une règle locale. La rétropropagation calcule :

\frac{\partial \mathcal{L}}{\partial w_{ij}} = \delta_j \, x_i, \qquad \delta_j = f'(a_j) \sum_k w_{jk}\,\delta_k

où la somme sur $k$ parcourt toutes les unités situées en aval : la mise à jour de $w_{ij}$ dépend de tout le reste du réseau. Une règle locale remplace ce $\delta_j$ global par un signal disponible à la synapse elle-même :

\Delta w_{ij} = \eta \, g(x_i, x_j, m)

avec $m$ un modulateur global optionnel (une récompense). Tout le débat tient là : un $g$ local peut-il égaler le $\delta$ global ?

Tableau comparatif

Propriété	Rétropropagation	Forward-Forward	Predictive coding	STDP
Apprentissage local	non	oui	oui	oui
Sans passe arrière	non	oui	partiel	oui
Plausibilité biologique	non	partiel	partiel	oui
Transport de poids requis	oui	non	non	non
Apprentissage en ligne	non	partiel	partiel	oui

Chaque alternative lève au moins un verrou de la rétropropagation, mais aucune ne l’égale encore à grande échelle.

Limites et questions ouvertes

Il faut rester honnête sur l’état réel du domaine.

Les méthodes locales restent en dessous de la rétropropagation sur les grands bancs d’essai.
Il manque une théorie qui dise quelle règle locale produit quelle capacité.
Comparer ces méthodes est difficile, car elles optimisent des objectifs différents.
La question ouverte demeure : la localité est-elle une contrainte à surmonter, ou bien la clé de l’efficacité ?

Teste ta compréhension

Quiz

1. Que signifie le « transport de poids », et pourquoi est-il biologiquement implausible ?
2. Par quoi Forward-Forward remplace-t-il la passe arrière ?
3. En STDP, dans quel sens varie le poids si la pré décharge avant la post ?
4. Quelle est l'affirmation centrale du predictive coding ?

Sources

The Forward-Forward Algorithm: Some Preliminary Investigations Geoffrey Hinton (2022)
Predictive Coding Approximates Backprop Along Arbitrary Computation Graphs Millidge, Tschantz & Buckley (2022)
The combination of Hebbian and predictive plasticity learns invariant object representations in deep sensory networks Halvagal & Zenke (2023)
Unsupervised learning of digit recognition using spike-timing-dependent plasticity Diehl & Cook (2015)