Avant-propos
Pourquoi des réseaux de neurones, à quels problèmes ils répondent, et comment lire ce cours.
En 2012, un programme appelé AlexNet a divisé par deux le taux d’erreur du meilleur système de reconnaissance d’images au monde. Depuis, les réseaux de neurones ont infiltré la traduction, la vision, la conduite assistée, la prédiction médicale et la génération d’image et de texte. Ce cours t’apprend ce qui se passe à l’intérieur de cette technologie qui transforme tant de domaines.
Treize chapitres, environ trois heures et demi de lecture. Aucun langage de programmation requis. Le seul prérequis : savoir lire une équation simple sans paniquer.
Ce que les réseaux de neurones savent faire aujourd’hui
Sans prétendre être exhaustif, voici les usages où ils ont réellement changé la donne, avec des ordres de grandeur :
- Vision par ordinateur : reconnaître un chat, segmenter une tumeur sur une IRM, conduire une voiture. Erreur sur ImageNet passée de 26 % en 2011 à moins de 4 % en 2020.
- Traduction automatique : DeepL, Google Translate, modernisés par les transformers depuis 2017. Qualité indistinguable de l’humain sur les paires de langues majoritaires.
- Compréhension et génération de texte : assistants conversationnels ( modèles de fondation Modèle de fondation Réseau de neurones de très grande taille entraîné sur une quantité massive de données généralistes, qui peut ensuite être adapté à de nombreuses tâches spécifiques. Le terme a été popularisé par Bommasani et al. en 2021. Exemples typiques en 2026 : GPT-4, Claude, Gemini. Source : Bommasani et al., 2021 comme GPT, Claude, Gemini, Mistral), résumé automatique, programmation assistée. Tous reposent sur l’architecture transformer Transformer Architecture de réseau de neurones introduite en 2017 par Vaswani et al. dans l'article "Attention is all you need". Basée sur le mécanisme d'attention, elle domine aujourd'hui le traitement du langage et s'étend à la vision et au son. C'est la fondation des modèles comme GPT, Claude, Gemini. Source : Vaswani et al., 2017 (2017).
- Génération d’image et de son : Stable Diffusion, Midjourney, DALL-E, models text-to-speech. Photoréalisme indistinguable sur certains domaines.
- Jeux et planification : AlphaGo (2016) qui a battu le champion du monde de go, AlphaFold (2021) qui prédit la structure 3D des protéines.
Le point commun : tous ces systèmes sont des assemblages, parfois immenses (jusqu’à des milliards de paramètres), de la brique élémentaire que tu vas étudier dans le chapitre 1.
Ce qu’ils ne savent pas (encore) faire
Important pour ne pas vendre du rêve. Les limites actuelles, à l’heure où ces lignes sont écrites :
- Raisonnement formel : un réseau peut résoudre une équation du second degré avec entraînement, mais ne « comprend » pas pourquoi la formule est ce qu’elle est. Il interpole, il ne déduit pas.
- Apprentissage avec peu de données : un humain reconnaît un chat après en avoir vu trois. Un réseau classique en demande des milliers. L’apprentissage few-shot progresse mais reste loin de l’humain.
- Généralisation hors distribution : un réseau entraîné sur des images de jour bute sur les mêmes objets photographiés de nuit. Il apprend ce qu’on lui montre, pas plus.
- Hallucinations : les modèles de langage produisent parfois des affirmations fausses avec aplomb. C’est un défaut structurel de leur entraînement, pas un bug.
- Explicabilité : un réseau profond classe correctement, mais expliquer pourquoi il a classé ainsi reste un problème de recherche ouvert.
Trois phases dans une histoire de 80 ans
Pour situer ce qu’on étudie dans le temps :
- Le rêve initial (1940-1960) : McCulloch et Pitts modélisent le neurone (1943). Rosenblatt fait apprendre le perceptron (1958). On pense la pensée artificielle proche.
- Les deux hivers (1969-1986, puis 1995-2010) : Minsky démontre les limites (1969), le rapport Lighthill démolit les financements (1973). Court répit dans les années 1980 avec la rétropropagation (1986). Nouveau ralentissement face aux machines à vecteurs de support (1995-2010).
- La renaissance (2012-aujourd’hui) : ImageNet + GPU + grandes données déclenchent l’explosion. AlexNet (2012), transformers Transformer Architecture de réseau de neurones introduite en 2017 par Vaswani et al. dans l'article "Attention is all you need". Basée sur le mécanisme d'attention, elle domine aujourd'hui le traitement du langage et s'étend à la vision et au son. C'est la fondation des modèles comme GPT, Claude, Gemini. Source : Vaswani et al., 2017 (2017), modèles de fondation Modèle de fondation Réseau de neurones de très grande taille entraîné sur une quantité massive de données généralistes, qui peut ensuite être adapté à de nombreuses tâches spécifiques. Le terme a été popularisé par Bommasani et al. en 2021. Exemples typiques en 2026 : GPT-4, Claude, Gemini. Source : Bommasani et al., 2021 (2020+).
Le chapitre 1 récapitule ces jalons dans une frise plus précise. Garde simplement en tête que la théorie qu’on étudie ici est ancienne ; ce sont les ordinateurs et les données qui sont nouveaux.
Frise des jalons clés
| Année | Acteurs | Apport |
|---|---|---|
| 1943 | McCulloch et Pitts | Modèle du neurone formel |
| 1958 | Rosenblatt | Perceptron qui apprend |
| 1969 | Minsky et Papert | Limites de XOR, premier signal d’arrêt |
| 1973 | Rapport Lighthill (Royaume-Uni) | Premier hiver de l’IA |
| 1986 | Rumelhart, Hinton, Williams | Backpropagation |
| 1998 | LeCun | LeNet et la vision convolutionnelle |
| 2012 | Krizhevsky, Sutskever, Hinton | AlexNet et l’explosion GPU |
| 2017 | Vaswani et al. | Transformer et mécanisme d’attention |
| 2020+ | OpenAI, Anthropic, Google, Mistral | Modèles de fondation à très grande échelle |
Le parcours en treize chapitres
Le cours s’organise en quatre blocs progressifs :
Bloc 1 : fondations conceptuelles (chapitres 1 à 4)
Le neurone artificiel, l’algèbre vectorielle, les fonctions d’activation, le perceptron. Tout ce qu’il faut pour comprendre une brique unique.
Bloc 2 : de la brique au réseau (chapitres 5 à 6)
Empiler les neurones en couches. Forward pass, fonctions de coût, classification vs régression.
Bloc 3 : apprentissage (chapitres 7 à 9)
Dérivées et règle de la chaîne, backpropagation, descente de gradient. Le cœur mathématique du domaine.
Bloc 4 : optimisation et généralisation (chapitres 10 à 12)
Régularisation, initialisation et batch normalisation, optimiseurs avancés. Ce qui fait la différence entre un réseau qui marche en théorie et un qui marche en pratique.
Carte des dépendances entre chapitres
Pour qui ce cours
Plusieurs profils peuvent profiter de ce cours, chacun à sa manière :
- Lycéen scientifique curieux : tu as les maths du programme (fonctions, dérivées de base, géométrie) et tu veux savoir comment marche l’IA dont tout le monde parle. Lis dans l’ordre, ne saute aucun exercice papier-crayon.
- Étudiant en première ou deuxième année (L1-L2) : tu maîtrises l’algèbre linéaire et le calcul différentiel. Tu peux survoler les chapitres 2 et 7 et te concentrer sur les chapitres « ML-specific ».
- Développeur professionnel sans bagage théorique récent : tu as oublié les dérivées partielles. Le cours te remet à jour en évitant le formalisme académique inutile.
- Personne curieuse hors STEM : tu vas devoir ralentir sur les équations et lire chaque démo deux fois. Vise le confort plutôt que la vitesse ; il n’y a pas d’examen final.
Ce cours n’est pas : une formation à PyTorch ou TensorFlow (utilise le cours dédié dans le sous-thème), un état de l’art de la recherche (l’IA bouge trop vite pour cela), ni une introduction à l’algorithmie générale.
Comment lire ce cours
Trois suggestions :
- Première lecture, ordre linéaire : lis 1 → 12, dans l’ordre. Chaque chapitre construit sur le précédent.
- Si tu connais déjà l’algèbre linéaire : tu peux survoler le chapitre 2 et lire en détail le 3.
- Si tu cherches juste à comprendre la backpropagation : assure-toi que les chapitres 1, 2, 5, 6, 7 sont solides avant d’attaquer le 8.
Chaque chapitre te propose un quiz auto-corrigé en fin de section et au moins deux exercices papier-crayon avec corrigés. Joue le jeu : passer le crayon sur la feuille change radicalement ce qui reste en tête.
En une phrase
Les réseaux de neurones modernes sont des assemblages massifs d’une brique élémentaire ancienne ; ce cours t’en livre la mécanique mathématique exacte, sans cacher les démos et sans demander un bagage que tu n’aies pas.
Place au chapitre 1
Tout commence par la brique. Comment un neurone biologique a inspiré une équation. Pourquoi cette équation seule suffit pour des problèmes simples, et pourquoi elle échoue sur XOR. C’est l’objet du prochain chapitre.
Sources
- Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). « ImageNet Classification with Deep Convolutional Neural Networks. » NeurIPS 25. Lien NeurIPS
- Russakovsky, O. et al. (2015). « ImageNet Large Scale Visual Recognition Challenge. » IJCV 115(3), 211-252. DOI 10.1007/s11263-015-0816-y
Pour aller plus loin avant d’attaquer le chap 1
- Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep Learning. MIT Press. Chapitre 1 : Introduction. Excellent panorama global, gratuit en ligne. deeplearningbook.org
- LeCun, Y. (cours en ligne au Collège de France). « Pourquoi l’apprentissage profond ? ». college-de-france.fr
- Karpathy, A. (vidéo YouTube, 2022). The spelled-out intro to neural networks and backpropagation: building micrograd. La meilleure explication pratique du domaine. youtube.com