GLOSSAIRE

Glossaire

Définitions courtes des termes techniques utilisés dans les cours interactifs. Chaque mot souligné en pointillés dans un cours renvoie vers son entrée ici.

Acquittement

Signal par lequel un consommateur confirme qu'un message a été pris en charge, autorisant le courtier à l'effacer. Son instant est décisif : acquitter avant de traiter expose à la perte (au plus une fois), acquitter après un traitement réussi expose au doublon en cas de redélivraison (au moins une fois). Tant qu'aucun acquittement n'arrive, le courtier peut redélivrer le message.

Source : RabbitMQ, Consumer Acknowledgements

Voir aussi : Livraison au plus une fois , Livraison au moins une fois , Courtier de messages
Appartenance

Relation fondamentale entre un objet et un ensemble, notée ∈. « x ∈ A » se lit « x appartient à A » et signifie que x est l'un des éléments de A. Sa négation se note ∉. L'appartenance est le prédicat de base de la théorie des ensembles : tout le reste, inclusion et opérations, se définit à partir d'elle.

Voir aussi : Ensemble , Inclusion , Prédicat
Backpropagation

Algorithme permettant de calculer le gradient de la fonction de coût par rapport à chaque poids d'un réseau de neurones. Il propage l'erreur de la sortie vers les couches précédentes en appliquant la règle de la chaîne. C'est le cœur de l'apprentissage des réseaux multi-couches.

Source : Rumelhart, Hinton et Williams, 1986

Voir aussi : Fonction d'activation
Biais

Terme constant ajouté à la somme pondérée d'un neurone, indépendant des entrées. Géométriquement, il translate la frontière de décision dans l'espace des entrées. Sans biais, cette frontière passerait obligatoirement par l'origine.

Voir aussi : Somme pondérée
Calcul neuromorphique

Branche de l'informatique qui conçoit des circuits matériels imitant le fonctionnement du cerveau biologique (neurones impulsionnels, mémoire locale, calcul asynchrone). Domaine de recherche actif chez Intel (Loihi), IBM (TrueNorth) et plusieurs laboratoires académiques.

Voir aussi : Réseau de neurones impulsionnel
Canal ionique

Pore traversant la membrane d'un neurone qui laisse passer certains ions chargés. Les canaux toujours ouverts font fuir un courant constant, ce qui se modélise comme une résistance. D'autres canaux s'ouvrent et se ferment selon la tension elle-même et engendrent activement l'impulsion (modèle de Hodgkin et Huxley).

Source : Hodgkin & Huxley, 1952

Voir aussi : Potentiel de repos , Potentiel de membrane
Chiffrement authentifié (AEAD)

Primitive cryptographique qui garantit simultanément la confidentialité et l'intégrité d'un message. Elle produit un tag d'authentification joint au chiffré, et toute altération des données rend le déchiffrement impossible. AEAD (Authenticated Encryption with Associated Data) étend ce mécanisme en protégeant également des données associées non chiffrées, liées au contexte d'utilisation.

Source : NIST SP 800-38D

Voir aussi : Tag d'authentification , Données associées (AAD) , Nonce , Malléabilité
Classification

Tâche d'apprentissage supervisé consistant à prédire une classe parmi un ensemble fini. Binaire si deux classes (chat ou non), multi-classe au-delà (espèce d'oiseau parmi 200). Utilise typiquement sigmoïde ou softmax en sortie.

Voir aussi : Sigmoïde , Softmax , Fonction de coût
Clé de déduplication

Identifiant qu'un consommateur utilise pour reconnaître un message qu'il a déjà traité. C'est souvent l'identifiant de message stable fourni par le courtier, parfois une clé métier (un numéro de commande). Elle est rangée dans une table de réception (inbox) : un message redélivré dont la clé y figure déjà est écarté. Elle répond à la question : est-ce le même message ?

Source : Kleppmann, 2017

Voir aussi : Consommateur idempotent , Idempotence , Acquittement
Clé de partition

Valeur qui sert à router un message vers une partition, en général par hachage. Deux messages portant la même clé de partition tombent toujours sur la même partition, donc restent ordonnés entre eux ; des messages de clés différentes se répartissent sur plusieurs partitions et se traitent en parallèle. Bien la choisir (par exemple l'identifiant de commande) achète l'ordre par clé sans sacrifier le débit. Elle répond à la question : quels messages doivent rester ordonnés ensemble ?

Source : Apache Kafka, Documentation

Voir aussi : Partition , Ordre partiel , Groupe de consommateurs
Codage temporel

Manière de représenter une information dans l'instant précis où une impulsion est émise, et non dans le nombre d'impulsions par seconde. L'instant de décharge porte alors le message, ce qui permet à un réseau impulsionnel de calculer avec très peu d'impulsions. S'oppose au codage par fréquence.

Voir aussi : Réseau de neurones impulsionnel , Détection de coïncidence
Combinaison affine

Combinaison linéaire à laquelle on ajoute un terme constant (biais). La somme pondérée d'un neurone avec son biais est une combinaison affine de ses entrées. Composer plusieurs combinaisons affines sans non-linéarité donne une seule combinaison affine équivalente.

Voir aussi : Combinaison linéaire , Non-linéarité , Biais
Combinaison linéaire

Expression de la forme a₁ v₁ + a₂ v₂ + ... + aₙ vₙ où les aᵢ sont des scalaires et les vᵢ des vecteurs. La somme pondérée d'un neurone est une combinaison linéaire des entrées avec les poids comme coefficients.

Voir aussi : Somme pondérée , Produit scalaire
Communication asynchrone

Mode d'échange où l'émetteur dépose un message et poursuit son travail sans attendre que le destinataire l'ait traité. Le message patiente dans une file ou un journal jusqu'à ce qu'un consommateur le prenne. S'oppose à la communication synchrone, où l'appelant reste bloqué jusqu'à la réponse.

Voir aussi : Couplage temporel , Message de commande
Complémentaire

Opération qui retourne ce qui n'est pas dans un ensemble, relativement à un univers de référence. Le complémentaire de A, noté Aᶜ (ou A barre), est l'ensemble des objets de l'univers qui n'appartiennent pas à A. Sa condition d'appartenance est une négation : x ∈ Aᶜ équivaut à « non (x ∈ A) ». Le complémentaire dépend de l'univers choisi : sans univers fixé, il n'a pas de sens.

Voir aussi : Union , Intersection , Domaine de discours
Composition de fonctions

Opération consistant à appliquer une fonction au résultat d'une autre, notée f rond g. Un réseau multi-couches est une composition, où la sortie d'une couche devient l'entrée de la suivante, et c'est cet emboîtement, alterné avec des activations non linéaires, qui crée la non-linéarité globale.

Voir aussi : Perceptron multicouches , Non-linéarité , Couche cachée
Concentration des distances

Phénomène par lequel, en grande dimension, les distances entre points tirés au hasard se resserrent autour d'une valeur commune. Le contraste relatif (distance maximale moins minimale, rapporté à la minimale) tend vers zéro comme l'inverse de la racine de la dimension. Conséquence : la notion de plus proche voisin perd de son sens quand toutes les distances se ressemblent.

Voir aussi : Malédiction de la dimension , Distance euclidienne
Connecteur logique

Symbole qui combine une ou deux propositions pour en former une nouvelle. Les cinq connecteurs de base sont la négation (¬), la conjonction (∧), la disjonction (∨), l'implication (⇒) et l'équivalence (⇔).

Voir aussi : Proposition , Implication , Table de vérité
Consommateur idempotent

Consommateur dont le traitement produit le même résultat qu'un message soit reçu une fois ou plusieurs fois. Il garde la trace de chaque message déjà traité par sa clé de déduplication et, dans la même transaction que l'effet, marque cette clé comme vue : à la redélivraison d'un doublon, il reconnaît la clé et saute l'effet. L'atomicité entre appliquer l'effet et marquer la clé est essentielle, sinon une panne entre les deux rouvre le problème des deux généraux dans sa propre base.

Source : Hohpe & Woolf, Enterprise Integration Patterns

Voir aussi : Idempotence , Clé de déduplication , Livraison au moins une fois
Constante de temps

Durée caractéristique de la fuite d'une membrane, notée τ et égale au produit de la résistance par la capacité, τ = R · C. Au bout d'une constante de temps, le potentiel a perdu environ 63 % de sa charge (il en reste 37 %, soit 1/e). Elle fixe le facteur de rétention discret λ = e^(-Δt/τ).

Source : Gerstner et al., 2014

Voir aussi : Potentiel de membrane , Integrate-and-fire (intègre-et-décharge)
Contre-exemple

Un élément du domaine qui rend faux un énoncé universel. Pour réfuter « ∀x, P(x) », il suffit d'exhiber un seul x tel que P(x) est faux : c'est la traduction directe de l'équivalence ¬(∀x, P(x)) ≡ ∃x, ¬P(x). Un contre-exemple démolit une conjecture sans qu'il soit besoin d'en dire plus.

Voir aussi : Quantificateur universel , Quantificateur existentiel , Implication
Couche cachée

Couche intermédiaire d'un réseau de neurones, située entre la couche d'entrée et la couche de sortie. Ses neurones ne reçoivent ni les données brutes ni ne produisent la prédiction finale, ils calculent des représentations intermédiaires. Un réseau « profond » a plusieurs couches cachées.

Voir aussi : Fonction d'activation , Perceptron multicouches , Pouvoir expressif
Couplage temporel

Dépendance qui force deux services à être disponibles au même instant pour qu'un échange réussisse. Un appel synchrone direct couple temporellement l'appelant et l'appelé : si l'appelé est en panne ou lent, l'appelant attend ou échoue. Le message asynchrone supprime ce couplage en intercalant une file qui accepte la demande même quand le destinataire est absent.

Voir aussi : Communication asynchrone , Message d'événement
Courtier de messages

Intermédiaire qui reçoit les messages, les range dans des files et remet chacun à un consommateur, puis l'efface une fois qu'il a été acquitté. L'archetype est RabbitMQ : un message livré et acquitté disparaît, il n'est pas conservé pour être relu. L'état de progression (ce qui reste à distribuer) vit dans le courtier, pas chez le lecteur.

Source : Hohpe & Woolf, 2003

Voir aussi : Journal de messages , Groupe de consommateurs , Médiateur
Crypto-agilité

Capacité d'un format ou d'un protocole à migrer vers de nouveaux primitifs cryptographiques sans casser les données existantes. Elle s'implémente typiquement par un octet de version en tête du chiffré, permettant de décoder les anciens enregistrements et de chiffrer les nouveaux avec l'algorithme courant. Elle est essentielle pour préparer une migration post-quantique.

Voir aussi : Chiffrement authentifié (AEAD) , Séparation de domaines
Demi-espace

Une des deux régions dans lesquelles un hyperplan partitionne Rⁿ. Algébriquement, l'ensemble des points x tels que w · x + b > 0 (resp. < 0). Un neurone à seuil sépare l'espace en exactement deux demi-espaces : actif et inactif.

Voir aussi : Hyperplan , Fonction seuil
Dérivée

Pente d'une fonction en un point. Formellement, la limite du taux de variation (f(x+h) - f(x)) / h quand h tend vers zéro. Elle dit de combien et dans quel sens la sortie change quand on bouge l'entrée d'un cheveu.

Voir aussi : Règle de la chaîne , Gradient
Dérivée partielle

Dérivée d'une fonction de plusieurs variables par rapport à une seule d'entre elles, les autres étant gardées constantes. Elle mesure la pente selon un axe. Empilées, les dérivées partielles forment le gradient.

Voir aussi : Gradient , Dérivée
Descente de gradient

Algorithme d'optimisation qui ajuste itérativement les paramètres d'un modèle pour minimiser une fonction de coût. À chaque étape, il déplace les paramètres dans la direction opposée au gradient, d'une distance proportionnelle au taux d'apprentissage. Méthode dominante pour entraîner les réseaux de neurones.

Source : Cauchy, 1847

Voir aussi : Gradient , Taux d'apprentissage , Fonction de coût
Détection de coïncidence

Capacité d'un neurone à état à décharger seulement quand deux entrées arrivent à un court intervalle l'une de l'autre. Sa fenêtre d'intégration interne rend ce calcul possible, là où un neurone sans mémoire en est incapable. Illustrée par le modèle de Jeffress (1948) pour la localisation sonore.

Source : Jeffress (1948)

Voir aussi : Neurone à état
Distance euclidienne

Distance entre deux vecteurs u et v dans Rⁿ, définie comme la norme de leur différence : d(u, v) = ‖u - v‖. C'est la généralisation à n dimensions de la distance entre deux points du plan. Sert à mesurer la similarité entre deux représentations vectorielles.

Voir aussi : Norme , Vecteur
Distance signée

Distance perpendiculaire d'un point à un hyperplan, affectée d'un signe selon le côté où se trouve le point. Pour l'hyperplan $w \cdot x + b = 0$, elle vaut $d(x) = (w \cdot x + b) / \|w\|$ : positive d'un côté, négative de l'autre, nulle sur l'hyperplan lui-même.

Source : Hastie, Tibshirani, Friedman, ESL, ch. 4

Voir aussi : Hyperplan , Vecteur normal , Distance euclidienne
Domaine de discours

L'ensemble des objets sur lesquels portent les variables d'un prédicat quantifié. La vérité d'un énoncé quantifié en dépend entièrement : « ∃x, x² = 2 » est faux sur les entiers mais vrai sur les réels. Préciser le domaine n'est donc pas un détail, c'est une partie de l'énoncé.

Voir aussi : Prédicat , Quantificateur universel , Quantificateur existentiel
Données associées (AAD)

Données authentifiées par un algorithme AEAD mais non chiffrées, typiquement des métadonnées comme un en-tête, un identifiant ou un contexte d'utilisation. Elles lient le chiffré à son contexte : toute discordance entre les données associées attendues et celles fournies au déchiffrement invalide le tag et fait échouer l'opération.

Voir aussi : Chiffrement authentifié (AEAD) , Tag d'authentification , Séparation de domaines
Double écriture

Situation où un service doit modifier deux systèmes distincts pour une seule action, typiquement sa propre base de données et un broker de messages. Comme aucune transaction ne couvre les deux à la fois, une panne entre les deux écritures laisse une incohérence : la base est à jour mais le message n'est jamais parti, ou le message est parti mais la base a été annulée. C'est le problème que l'outbox transactionnel résout.

Source : Richardson, Microservices Patterns

Voir aussi : Outbox transactionnel , Relais d'outbox
Dying ReLU

Phénomène par lequel un neurone à activation ReLU dont l'entrée reste constamment négative voit sa sortie et son gradient à zéro. Le neurone se fige, ne se met plus à jour, et reste mort jusqu'à la fin de l'entraînement. Contourné par les variantes Leaky ReLU, ELU, GELU.

Voir aussi : ReLU , Leaky ReLU
Embedding (plongement)

Représentation d'un objet (mot, phrase, image) par un vecteur de nombres réels, apprise par un réseau de neurones de sorte que la proximité géométrique reflète la proximité de sens. Deux textes au sens voisin reçoivent des vecteurs voisins. Les dimensions usuelles vont de quelques centaines à quelques milliers (par exemple 768 ou 1536).

Source : Mikolov et al., 2013

Voir aussi : Vecteur , Espace vectoriel , Similarité cosinus
Ensemble

Collection d'objets, appelés ses éléments, considérée comme un tout. Un ensemble est entièrement déterminé par ses éléments : deux ensembles ayant exactement les mêmes éléments sont égaux. On le décrit en extension, en listant ses éléments entre accolades comme {1, 2, 3}, ou en compréhension, en donnant la propriété que ses éléments vérifient, comme {x | x > 3}.

Voir aussi : Appartenance , Inclusion , Ensemble des parties
Ensemble des parties

Ensemble de tous les sous-ensembles d'un ensemble E, noté P(E). Ses éléments sont eux-mêmes des ensembles : l'ensemble vide et E lui-même en font toujours partie. Si E a n éléments, alors P(E) en a 2 puissance n, car chaque élément de E est soit pris, soit laissé dans un sous-ensemble. Par exemple P({a, b}) = {∅, {a}, {b}, {a, b}}.

Voir aussi : Ensemble , Inclusion , Appartenance
Entropie croisée

Fonction de coût pour la classification qui mesure l'écart entre la distribution prédite et la distribution cible. Elle vaut moins le logarithme de la probabilité attribuée à la bonne classe, donc elle explose quand le modèle est confiant et se trompe. Couplée à la fonction softmax, c'est le coût standard du multi-classe.

Source : Bishop, 2006

Voir aussi : Fonction de coût , Softmax , Classification
Équivalence logique

Relation entre deux propositions qui ont la même valeur de vérité dans tous les cas possibles. Le connecteur associé, noté ⇔, se lit « si et seulement si » et équivaut à une double implication.

Voir aussi : Implication , Table de vérité
Erreur quadratique moyenne

Fonction de coût qui moyenne le carré de l'écart entre la prédiction et la cible. Le carré pénalise fortement les grands écarts et rend le coût dérivable partout. Notée MSE (mean squared error), elle est le choix naturel pour la régression.

Source : Goodfellow, Bengio & Courville, 2016

Voir aussi : Fonction de coût , Régression
Espace vectoriel

Ensemble dont les éléments, les vecteurs, peuvent s'additionner entre eux et se multiplier par un nombre, en respectant des règles de cohérence. Concrètement pour ce cours : l'ensemble des listes de n nombres réels, où chaque embedding est un point. La dimension n est le nombre de coordonnées.

Voir aussi : Vecteur , Embedding (plongement)
Few-shot learning

Capacité d'un modèle à apprendre une nouvelle tâche à partir de très peu d'exemples (typiquement entre 1 et 10). C'est un défi ouvert pour les réseaux classiques qui demandent des milliers d'exemples, mais progresse vite avec les grands modèles de fondation.

Voir aussi : Modèle de fondation
Fonction d'activation

Fonction non-linéaire appliquée à la sortie de la somme pondérée d'un neurone. Sans elle, un réseau de neurones se réduirait à une simple combinaison linéaire, peu importe sa profondeur. Les classiques sont sigmoïde, ReLU, tanh.

Voir aussi : Sigmoïde , ReLU
Fonction de coût

Mesure de l'erreur entre la prédiction d'un réseau et la vérité attendue. Aussi appelée fonction de perte ou loss. Plus elle est élevée, plus le réseau se trompe. L'apprentissage cherche à la minimiser. Exemples courants : MSE pour la régression, cross-entropy pour la classification.

Voir aussi : Descente de gradient , Gradient
Fonction seuil

Fonction d'activation binaire H(z) qui vaut 1 si z >= 0 et 0 sinon. Aussi appelée fonction de Heaviside. C'est l'activation originale de McCulloch-Pitts (1943) et du perceptron de Rosenblatt (1958), abandonnée plus tard parce qu'elle n'est pas dérivable.

Voir aussi : Fonction d'activation , Perceptron
Forward pass

Propagation avant. Phase de calcul où une donnée d'entrée traverse le réseau couche par couche, des entrées vers la sortie, en appliquant à chaque neurone sa somme pondérée et sa fonction d'activation. Produit la prédiction finale.

Voir aussi : Somme pondérée , Fonction d'activation , Backpropagation
Frontière de décision

Lieu des points de l'espace d'entrée où le modèle bascule d'une classe à l'autre, c'est-à-dire où sa sortie change. Pour un neurone seul c'est un hyperplan ; pour un réseau multi-couches elle peut devenir polygonale, puis courbe.

Source : Bishop, 2006

Voir aussi : Hyperplan , Linéairement séparable , Perceptron multicouches
GELU

Gaussian Error Linear Unit, variante moderne de ReLU définie comme GELU(x) = x · Φ(x) où Φ est la fonction de répartition gaussienne. Plus douce que ReLU autour de zéro, dominante dans les transformers (GPT, BERT, Claude).

Source : Hendrycks et Gimpel, 2016

Voir aussi : ReLU , Transformer
Gradient

Vecteur de toutes les dérivées partielles d'une fonction. Il indique la direction de plus forte augmentation de la fonction au point considéré, et sa norme mesure la pente. En apprentissage, on suit l'opposé du gradient pour faire baisser la fonction de coût.

Voir aussi : Descente de gradient , Backpropagation
Gradient de substitution

Astuce d'entraînement des réseaux à impulsions. La décharge binaire n'étant pas dérivable, on remplace sa dérivée par une approximation douce lors de la rétropropagation, tout en gardant la dynamique à impulsions en passe avant. Formalisé par Neftci, Mostafa et Zenke (2019).

Source : Neftci, Mostafa & Zenke (2019)

Voir aussi : Réseau de neurones impulsionnel , Calcul neuromorphique
Graphe de calcul

Représentation d'un calcul comme un graphe orienté dont les noeuds sont des opérations et les arêtes les valeurs qui circulent. Lire un réseau comme un graphe de calcul rend la rétropropagation systématique : on multiplie les dérivées locales le long des arêtes, en remontant des sorties vers les entrées.

Voir aussi : Règle de la chaîne , Backpropagation , Forward pass
Graphe de proximite

Structure où chaque vecteur (un noeud) est relié par des arêtes à une poignée de ses voisins les plus proches. Au lieu d'un sac de vecteurs sans relations, qui force à tout comparer, on obtient un réseau dans lequel on peut se déplacer de proche en proche pour approcher une requête sans visiter tous les points. C'est la fondation des index à base de graphe comme HNSW.

Voir aussi : Plus proches voisins , HNSW , Réseau petit monde
Groupe de consommateurs

Ensemble de consommateurs qui partagent un même offset pour se répartir la lecture d'un journal : au sein du groupe, chaque message n'est traité qu'une fois. Plusieurs groupes distincts lisent le même journal indépendamment, chacun avec son propre offset, si bien qu'un message est relu autant de fois qu'il y a de groupes. C'est l'équivalent côté journal des consommateurs concurrents d'un courtier.

Source : Kleppmann, 2017

Voir aussi : Journal de messages , Offset , Courtier de messages
Hallucination

Production par un modèle de langage d'une affirmation fausse, énoncée avec aplomb. Défaut structurel issu de l'entraînement par maximisation de vraisemblance, qui pousse le modèle à toujours produire une réponse plausible même quand il devrait dire ne pas savoir.

Voir aussi : Modèle de fondation , Transformer
Hiver de l'IA

Période de désintérêt et de coupure de financement de la recherche en intelligence artificielle. Le premier hiver, années 1970 et début des années 1980, suit la critique du perceptron par Minsky et Papert (1969). Le second, fin des années 1980 et années 1990, suit les déceptions liées aux systèmes experts. Chaque hiver précède un regain : la rétropropagation pour le premier, l'apprentissage profond moderne pour le second.

Source : Russell & Norvig, *AIMA*, ch. 1

Voir aussi : Minsky & Papert , Perceptron , Backpropagation
HNSW

Hierarchical Navigable Small World : graphe hiérarchique navigable à petit monde. Index de recherche approchée qui empile des graphes de proximité en couches, rares et grossières en haut, denses et fines en bas. Une navigation gloutonne descend de couche en couche pour trouver les plus proches voisins en de l'ordre de log n sauts. Deux réglages : M (voisins par noeud, payé en mémoire) et ef (largeur de faisceau, payée en temps).

Voir aussi : Graphe de proximite , Réseau petit monde , Recherche gloutonne , Rappel@k
Hyperplan

Sous-ensemble de Rⁿ défini par une équation linéaire w · x + b = 0. En dimension 2 c'est une droite, en dimension 3 un plan. C'est exactement la frontière de décision tracée par un neurone unique.

Voir aussi : Vecteur , Produit scalaire , Perceptron
Hypothèse distributionnelle

Idée fondatrice de la sémantique vectorielle : un mot se caractérise par les contextes dans lesquels il apparaît, donc des mots qui partagent des contextes ont des sens voisins. Résumée par la formule de Firth, on connaît un mot par la compagnie qu'il tient. C'est ce principe qui justifie d'apprendre des embeddings où la proximité géométrique encode la proximité de sens.

Source : Firth, 1957

Voir aussi : Embedding (plongement) , Espace vectoriel
Idempotence

Propriété d'un traitement dont l'exécution répétée produit le même résultat qu'une exécution unique. Appliquée au messaging, elle rend les doublons inoffensifs : un message déjà traité est reconnu et son effet n'est pas refait. C'est le mécanisme qui transforme une livraison au moins une fois en livraison effectivement une fois. La façon concrète de fabriquer un consommateur idempotent (clé de déduplication, atomicité) fait l'objet du chapitre suivant.

Source : Hohpe & Woolf, 2003

Voir aussi : Livraison au moins une fois , Livraison effectivement une fois , Acquittement
Implication

Connecteur « si... alors... », noté ⇒. La proposition P ⇒ Q est fausse dans un seul cas : quand P est vraie et Q est fausse. En particulier, une implication dont la prémisse est fausse est toujours vraie.

Voir aussi : Connecteur logique , Équivalence logique
Inclusion

Relation entre deux ensembles, notée ⊆. « A ⊆ B » se lit « A est inclus dans B » ou « A est un sous-ensemble de B », et signifie que tout élément de A est aussi élément de B. Sa définition est un énoncé quantifié : A ⊆ B équivaut à « pour tout x, x ∈ A implique x ∈ B ». Deux ensembles sont égaux exactement quand chacun est inclus dans l'autre (double inclusion).

Voir aussi : Appartenance , Implication , Quantificateur universel
Inégalité de Cauchy-Schwarz

Pour deux vecteurs x et w de Rⁿ, |x · w| ≤ ‖x‖ · ‖w‖. L'égalité n'a lieu que si les deux vecteurs sont colinéaires. C'est l'inégalité fondamentale de l'algèbre linéaire, elle garantit la cohérence entre la formulation algébrique et géométrique du produit scalaire.

Source : Cauchy 1821, Schwarz 1888

Voir aussi : Produit scalaire , Norme
Integrate-and-fire (intègre-et-décharge)

Modèle de neurone qui accumule le courant entrant dans un potentiel de membrane avec une fuite (constante de temps tau) et émet une impulsion quand un seuil est franchi. Première variable d'état d'un neurone, introduite par Lapicque en 1907.

Source : Lapicque (1907)

Voir aussi : Neurone à état , Réseau de neurones impulsionnel
Intersection

Opération qui ne garde que ce que deux ensembles ont en commun, notée ∩. A ∩ B est l'ensemble des objets qui appartiennent à la fois à A et à B. Sa condition d'appartenance est une conjonction : x ∈ A ∩ B équivaut à « x ∈ A et x ∈ B ». Quand A ∩ B est vide, on dit que A et B sont disjoints.

Voir aussi : Union , Complémentaire , Connecteur logique
IVF (fichier inversé)

Inverted File. Index qui partitionne l'espace en cellules, calculées par un k-means, et range chaque vecteur dans la cellule de son centroïde le plus proche. À la recherche, on ne scanne que les nprobe cellules les plus proches de la requête, pas toute la base. IVF gagne de la latence sans réduire la mémoire, car les vecteurs restent stockés en clair. Le nombre nprobe règle le compromis entre vitesse et rappel.

Voir aussi : Recherche approchée , Plus proches voisins , Rappel@k
Journal de messages

Suite ordonnée et append-only de messages que l'on conserve au lieu de les effacer après lecture. L'archetype est Kafka : chaque message reçoit une position fixe, et plusieurs lecteurs peuvent le relire indépendamment, chacun à son rythme. À l'inverse du courtier, l'état de lecture ne vit pas dans le journal mais chez le consommateur, sous la forme d'un offset.

Source : Kleppmann, 2017

Voir aussi : Courtier de messages , Offset , Groupe de consommateurs
Leaky ReLU

Variante de ReLU qui laisse passer une petite pente alpha (typiquement 0.01) sur la partie négative au lieu d'être strictement nulle. Formule : LeakyReLU(x) = x si x > 0, alpha x sinon. Évite le problème du dying ReLU.

Source : Maas, Hannun et Ng, 2013

Voir aussi : ReLU , Dying ReLU
Linéairement séparable

Un jeu de données étiquetées est dit linéairement séparable s'il existe un hyperplan qui sépare correctement les points de label 1 des points de label 0. XOR est l'exemple historique d'un problème non linéairement séparable.

Voir aussi : Hyperplan , XOR (ou exclusif) , Perceptron
Livraison au moins une fois

Garantie selon laquelle un message est traité une fois ou plus, jamais zéro (en anglais at-least-once). On l'obtient en acquittant seulement après un traitement réussi et en redélivrant tant qu'aucun acquittement n'arrive : une panne survenant après le traitement mais avant l'acquittement provoque une redélivraison, donc un doublon. On ne perd jamais, mais on peut dupliquer ; c'est pourquoi le traitement doit être idempotent.

Source : Kleppmann, 2017

Voir aussi : Acquittement , Livraison au plus une fois , Livraison effectivement une fois , Idempotence
Livraison au plus une fois

Garantie selon laquelle un message est traité zéro ou une fois, jamais davantage (en anglais at-most-once). On l'obtient en acquittant le message dès sa réception, avant de le traiter : une panne survenant entre l'acquittement et la fin du traitement perd le message, car il a déjà été effacé. On ne duplique jamais, mais on peut perdre. Adaptée aux flux où la perte occasionnelle est sans conséquence.

Source : Kleppmann, 2017

Voir aussi : Acquittement , Livraison au moins une fois , Livraison effectivement une fois
Livraison effectivement une fois

Combinaison d'une livraison au moins une fois et d'un traitement idempotent, qui rend l'effet observable identique à un traitement unique (en anglais effectively-once). On ne supprime pas les doublons de livraison, on les neutralise : un message déjà traité est reconnu et son effet n'est pas refait. C'est l'approximation réaliste du exactly-once, impossible au niveau de la livraison à cause du problème des deux généraux.

Source : Kleppmann, 2017

Voir aussi : Livraison au moins une fois , Idempotence , Problème des deux généraux
Malédiction de la dimension

Ensemble de phénomènes contre-intuitifs qui surgissent quand le nombre de dimensions devient grand. En recherche vectorielle, deux effets dominent : les distances entre points tirés au hasard se concentrent (le plus proche et le plus lointain deviennent presque indiscernables), et deux vecteurs aléatoires sont presque toujours quasi perpendiculaires. C'est ce qui rend la recherche du plus proche voisin difficile en grande dimension.

Voir aussi : Concentration des distances , Orthogonalité
Malléabilité

Propriété d'un schéma de chiffrement où une modification du chiffré produit un changement prédicible et exploitable du clair correspondant. Les modes de chiffrement sans authentification (flux, CTR, CBC sans MAC) sont malléables. L'utilisation d'un algorithme AEAD supprime cette propriété en faisant échouer tout déchiffrement d'un chiffré altéré.

Voir aussi : Chiffrement authentifié (AEAD) , Tag d'authentification , Oracle de padding
Marge fonctionnelle

Pour un exemple $(x, y)$ avec $y \in \{-1, +1\}$, la marge fonctionnelle est la quantité $\hat\gamma = y (w \cdot x + b)$. Elle est strictement positive si et seulement si l'exemple est bien classé. Elle dépend de l'échelle des poids et n'est pas une distance géométrique.

Source : Bishop, PRML, ch. 7

Voir aussi : Marge géométrique , Linéairement séparable , Perceptron
Marge géométrique

Distance perpendiculaire minimale entre un hyperplan séparateur et les points du jeu de données. Définie par $\gamma = \min_i y_i (w \cdot x_i + b) / \|w\|$ avec $y_i \in \{-1, +1\}$. Joue un rôle central dans le théorème de Novikoff et dans la formulation des machines à vecteurs de support.

Source : Novikoff, 1962

Voir aussi : Marge fonctionnelle , Linéairement séparable , Théorème de Novikoff
Mark I Perceptron

Machine physique construite par Frank Rosenblatt entre 1958 et 1960 au Cornell Aeronautical Laboratory. Capable de reconnaître des formes simples grâce à 400 photorécepteurs connectés à des poids ajustables via potentiomètres motorisés. Première implémentation matérielle d'un algorithme d'apprentissage automatique, distincte du modèle théorique publié en 1958.

Source : Rosenblatt, 1958, 1960

Voir aussi : Perceptron
Matrice

Tableau rectangulaire de nombres organisés en lignes et colonnes. Une matrice de taille m×n possède m lignes et n colonnes. Dans un réseau de neurones, une couche de m neurones avec n entrées chacun se résume à une matrice de poids m×n.

Voir aussi : Vecteur , Produit scalaire
Médiateur

Objet qui centralise l'acheminement des messages à l'intérieur d'un même processus, en mémoire. Au lieu que l'émetteur référence directement le bon gestionnaire, il remet le message au médiateur, qui sait à quel handler le router : un seul pour une commande ou une requête, zéro à plusieurs abonnés pour un événement. Il se distingue du bus ou broker, qui rend le même service mais à travers le réseau, entre processus.

Source : Gamma et al., 1994

Voir aussi : Message de commande , Message de requête , Message d'événement
Message d'événement

Message qui annonce un fait déjà survenu (par exemple « Commande payée »). Il est nommé au passé, diffusé à qui veut l'écouter, et l'émetteur ignore qui le consomme, voire si quelqu'un le consomme. Plusieurs abonnés peuvent réagir au même événement. À distinguer du message de commande, qui demande une action future à un destinataire unique.

Voir aussi : Message de commande , Couplage temporel
Message de commande

Message qui exprime une intention, un ordre adressé à un destinataire précis pour qu'il fasse quelque chose (par exemple « Prélève le paiement »). Il est nommé à l'impératif, possède en principe un seul gestionnaire, et l'émetteur attend qu'un effet se produise. À distinguer du message d'événement, qui constate un fait déjà arrivé.

Voir aussi : Message d'événement , Communication asynchrone
Message de requête

Message qui demande une information à un destinataire précis sans rien changer à l'état du système (par exemple « Quel est le solde de fidélité de ce client ? »). Il se formule comme une question, vise un seul gestionnaire, et l'émetteur attend toujours une donnée en retour. C'est la troisième famille de messages, à côté de la commande qui ordonne et de l'événement qui constate.

Source : Hohpe & Woolf, 2003

Voir aussi : Message de commande , Message d'événement , Séparation commande-requête , Requête-réponse
Minimum local

Noeud d'un graphe dont tous les voisins immédiats sont plus loin de la requête que lui, alors qu'un point bien meilleur existe ailleurs dans le graphe, hors de portée directe. Une recherche gloutonne s'y arrête à tort, croyant avoir trouvé le plus proche voisin. Élargir la largeur de faisceau (garder plusieurs candidats) permet de s'en extraire.

Voir aussi : Recherche gloutonne , Graphe de proximite , Rappel@k
Minsky & Papert

Marvin Minsky et Seymour Papert, auteurs du livre *Perceptrons* (MIT Press, 1969) qui démontre formellement les limites d'un perceptron simple, notamment l'impossibilité de réaliser la fonction XOR. Leur analyse a contribué au déclin du financement public de la recherche en réseaux de neurones jusqu'au milieu des années 1980.

Source : Minsky & Papert, *Perceptrons*, MIT Press, 1969

Voir aussi : Perceptron , XOR (ou exclusif) , Hiver de l'IA
Modèle de fondation

Réseau de neurones de très grande taille entraîné sur une quantité massive de données généralistes, qui peut ensuite être adapté à de nombreuses tâches spécifiques. Le terme a été popularisé par Bommasani et al. en 2021. Exemples typiques en 2026 : GPT-4, Claude, Gemini.

Source : Bommasani et al., 2021

Voir aussi : Transformer , llm-mcp
Neurone à état

Neurone dont la sortie dépend d'une variable interne qui évolue dans le temps (potentiel de membrane, seuil adaptatif), et donc de son histoire récente. Par opposition au neurone sans état, dont la sortie ne dépend que de l'entrée instantanée.

Voir aussi : Integrate-and-fire (intègre-et-décharge) , Réseau de neurones impulsionnel
Non-linéarité

Propriété d'une fonction qui n'est pas affine. Une fonction d'activation non-linéaire est obligatoire dans un réseau profond, sans quoi la composition de plusieurs couches se réduit à une seule couche affine équivalente, et la profondeur perd tout intérêt.

Voir aussi : Fonction d'activation , Couche cachée
Nonce

Valeur utilisée une seule fois avec une clé donnée. C'est l'unicité qui importe, non le secret : réutiliser un nonce avec la même clé brise complètement le schéma. Un nonce aléatoire de 192 bits (XChaCha20) offre une probabilité de collision négligeable, tandis qu'un compteur de 96 bits (AES-GCM, ChaCha20-Poly1305) exige une gestion rigoureuse pour ne jamais dépasser 2^32 messages par clé.

Source : RFC 8439

Voir aussi : Chiffrement authentifié (AEAD) , Séparation de domaines
Normalisation

Opération qui ramène un vecteur à une longueur de 1 en le divisant par sa norme, sans changer sa direction. Sur des vecteurs ainsi normalisés, la similarité cosinus se réduit au produit scalaire, et le classement par cosinus coïncide avec le classement par distance euclidienne. C'est pourquoi beaucoup de bases vectorielles normalisent les embeddings à l'entrée.

Voir aussi : Norme , Similarité cosinus , Distance euclidienne
Norme

Longueur d'un vecteur, mesurée par la racine carrée de la somme de ses carrés. Pour un vecteur x = (x₁, ..., xₙ), la norme ‖x‖ = √(x₁² + ... + xₙ²). C'est la généralisation du théorème de Pythagore à n dimensions.

Voir aussi : Vecteur , Produit scalaire
Offset

Position de lecture d'un consommateur dans un journal de messages : le numéro du prochain message qu'il lira. C'est le consommateur qui détient et fait avancer son offset, pas le journal. Deux lecteurs du même journal ont donc des offsets indépendants, et rembobiner un offset à une position antérieure suffit pour relire l'historique.

Source : Kleppmann, 2017

Voir aussi : Journal de messages , Groupe de consommateurs , Courtier de messages
Oracle de padding

Attaque exploitant tout signal (message d'erreur, temps de réponse, comportement observable) qui révèle si le rembourrage d'un bloc chiffré est valide. En itérant les modifications du chiffré et en observant les réponses, un attaquant peut déchiffrer le message sans connaître la clé. C'est l'une des raisons historiques majeures pour lesquelles le chiffrement seul sans authentification est dangereux.

Voir aussi : Malléabilité , Chiffrement authentifié (AEAD) , Temps constant
Oracle différentiel

Méthode de test qui valide un code rapide-mais-approché (ou optimisé) en comparant sa sortie à celle d'une référence lente-mais-exacte, sur la métrique qui compte vraiment. Au lieu de vérifier des propriétés locales (le résultat est bien formé), on mesure l'écart de qualité à la vérité-terrain produite par l'implémentation naïve. Indispensable quand un algorithme peut être structurellement correct mais globalement faux : recherche approchée, cache, heuristique.

Voir aussi : Recherche approchée , Rappel@k , Recherche exhaustive
Ordre partiel

Garantie selon laquelle les messages ne sont ordonnés qu'à l'intérieur de chaque partition, pas sur l'ensemble du journal. Un journal offre un ordre partiel, pas un ordre total : deux messages d'une même partition gardent leur ordre relatif, mais deux messages de partitions différentes n'ont aucun ordre défini entre eux. C'est pourquoi il faut une clé qui regroupe les messages causalement liés dans une même partition.

Source : Kleppmann, 2017

Voir aussi : Partition , Clé de partition , Offset
Orthogonalité

Deux vecteurs sont orthogonaux quand leur produit scalaire est nul. Géométriquement, cela correspond à un angle de 90 degrés entre eux. En machine learning, des entrées orthogonales contribuent indépendamment au calcul du neurone.

Voir aussi : Produit scalaire , Vecteur
Outbox transactionnel

Motif qui supprime le problème de la double écriture en n'écrivant qu'un seul système de façon atomique. Le service inscrit l'état métier ET une ligne décrivant le message à envoyer dans la même transaction de sa base de données. Un relais lit ensuite cette table outbox et publie les messages vers le broker. Une écriture distribuée impossible devient une écriture locale atomique suivie d'un relais.

Source : Richardson, Microservices Patterns

Voir aussi : Double écriture , Relais d'outbox , Réclamation de ligne
Partition

Sous-flux d'un journal de messages qui contient un sous-ensemble ordonné des messages. On découpe un journal en plusieurs partitions pour que des consommateurs les lisent en parallèle. L'ordre n'est garanti qu'à l'intérieur d'une même partition, jamais entre partitions. Chaque message est affecté à une partition selon sa clé de partition.

Source : Kleppmann, 2017

Voir aussi : Clé de partition , Ordre partiel , Journal de messages
Passe arrière

Phase de la rétropropagation où le signal d'erreur se propage de la sortie vers l'entrée, en sens inverse du forward pass, pour assembler le gradient de chaque poids. Elle réutilise les activations mémorisées pendant la passe avant au lieu de les recalculer.

Voir aussi : Forward pass , Backpropagation , Signal d'erreur
Perceptron

Premier neurone artificiel capable d'apprendre, inventé par Frank Rosenblatt en 1958. Il combine une somme pondérée des entrées avec une fonction seuil pour produire une décision binaire 0 ou 1.

Source : Rosenblatt, 1958

Voir aussi : Somme pondérée , Biais
Perceptron multicouches

Réseau de neurones organisé en couches successives (entrée, une ou plusieurs couches cachées, sortie), où chaque neurone applique une combinaison affine suivie d'une fonction d'activation. En empilant des neurones, il dépasse la limite du perceptron simple et réalise des fonctions non linéairement séparables comme XOR.

Source : Rumelhart, Hinton & Williams, 1986

Voir aussi : Couche cachée , Perceptron , XOR (ou exclusif) , Composition de fonctions
Plasticité intrinsèque

Modification durable de l'excitabilité d'un neurone par sa propre dynamique interne (seuil adaptatif, accommodation), sans changement des poids synaptiques. Une forme d'apprentissage qui ne réside pas dans les connexions mais dans l'état du neurone.

Voir aussi : Neurone à état
Plus proches voisins

Problème consistant à trouver, parmi un ensemble de points, les k points les plus proches d'une requête selon une mesure de distance ou de similarité. En recherche vectorielle, k plus proches voisins (k-NN) désigne les k documents dont l'embedding est le plus proche de celui de la requête.

Voir aussi : Distance euclidienne , Similarité cosinus , Recherche exhaustive
Potentiel de membrane

Variable interne d'un neurone à état qui mesure sa charge électrique accumulée. Il monte quand des entrées arrivent, fuit lentement vers son repos en l'absence d'entrée, et déclenche une impulsion quand il atteint un seuil, après quoi il se réinitialise.

Voir aussi : Neurone à état , Integrate-and-fire (intègre-et-décharge) , Réseau de neurones impulsionnel
Potentiel de repos

Différence de tension stable que la membrane d'un neurone maintient entre l'intérieur et l'extérieur de la cellule quand elle ne reçoit rien, de l'ordre de -65 millivolts. C'est la valeur vers laquelle le potentiel de membrane revient en l'absence d'entrée.

Source : Gerstner et al., 2014

Voir aussi : Potentiel de membrane , Canal ionique
Pouvoir expressif

Étendue des fonctions qu'un modèle peut représenter en faisant varier ses paramètres. Un perceptron simple n'exprime que des séparations linéaires ; ajouter des couches cachées élargit le pouvoir expressif jusqu'à pouvoir approcher n'importe quelle fonction continue.

Source : Goodfellow, Bengio & Courville, 2016

Voir aussi : Théorème d'approximation universelle , Perceptron multicouches , Couche cachée
Prédicat

Énoncé contenant une ou plusieurs variables libres, dont la valeur de vérité dépend de ce que l'on substitue à ces variables. « x > 3 » est un prédicat : il n'est ni vrai ni faux tant que x n'est pas fixé ou quantifié. Une fois toutes ses variables fixées ou liées par un quantificateur, un prédicat devient une proposition.

Voir aussi : Proposition , Quantificateur universel , Quantificateur existentiel
Problème des deux généraux

Résultat classique d'informatique théorique : sur un canal de communication non fiable, où chaque message peut se perdre, aucun protocole à nombre fini de messages ne permet à deux parties d'être certaines, ensemble, d'un même accord. Appliqué au messaging, il prouve que la livraison exactly-once est impossible, car l'acquittement lui-même peut se perdre : l'émetteur doit choisir entre risquer la perte ou risquer le doublon.

Source : Akkoyunlu et al., 1975

Voir aussi : Livraison au plus une fois , Livraison au moins une fois , Livraison effectivement une fois
Produit cartésien

Opération qui fabrique un ensemble de couples à partir de deux ensembles, notée ×. A × B est l'ensemble de tous les couples ordonnés (a, b) où a ∈ A et b ∈ B. L'ordre compte : (a, b) n'est pas (b, a). Si A a m éléments et B en a n, alors A × B en a m × n. C'est la brique de départ des relations et des fonctions.

Voir aussi : Ensemble , Appartenance
Produit scalaire

Opération qui prend deux vecteurs de même dimension et retourne un seul nombre, calculé comme la somme des produits coordonnée par coordonnée. C'est exactement le calcul effectué par un neurone entre ses entrées et ses poids.

Voir aussi : Vecteur , Somme pondérée
Proposition

Énoncé mathématique dont on peut dire sans ambiguïté s'il est vrai ou s'il est faux, sans troisième possibilité. Ce principe, appelé bivalence, est le point de départ de toute la logique propositionnelle.

Voir aussi : Connecteur logique , Table de vérité
Quantificateur existentiel

Le symbole ∃, qui se lit « il existe ». L'énoncé ∃x, P(x) est vrai dès qu'au moins un élément du domaine de discours rend le prédicat P vrai. Cet élément s'appelle un témoin. L'existence n'exige pas l'unicité : un ou plusieurs témoins suffisent.

Voir aussi : Prédicat , Quantificateur universel , Domaine de discours
Quantificateur universel

Le symbole ∀, qui se lit « pour tout » ou « quel que soit ». L'énoncé ∀x, P(x) est vrai lorsque le prédicat P est vrai pour chaque élément du domaine de discours, sans exception. Pour le mettre en défaut, il suffit d'un seul contre-exemple.

Voir aussi : Prédicat , Quantificateur existentiel , Domaine de discours , Contre-exemple
Quantification produit

Product Quantization (PQ). Technique de compression des vecteurs : on découpe chaque vecteur en plusieurs tranches, et dans chaque tranche on remplace le sous-vecteur par l'indice du centroïde le plus proche d'un petit dictionnaire appris (un codebook). Un vecteur devient ainsi une poignée de codes, souvent un octet chacun, au lieu de centaines de réels. La quantification produit gagne énormément de mémoire, au prix d'un rappel réduit, car les distances ne sont plus qu'estimées.

Voir aussi : Recherche approchée , Distance euclidienne , Rappel@k
Rappel@k

Mesure de la qualité d'une recherche approchée : la fraction des k vrais plus proches voisins (calculés par recherche exhaustive) que la méthode approchée retrouve dans ses k premiers résultats. Un rappel@k de 1 signifie qu'aucun voisin exact n'a été manqué ; un rappel@k de 0,8 signifie qu'un voisin exact sur cinq a échappé à la recherche.

Voir aussi : Plus proches voisins , Recherche exhaustive
Recherche approchée

Famille de méthodes (ANN, pour Approximate Nearest Neighbor) qui acceptent de manquer parfois le vrai plus proche voisin pour répondre beaucoup plus vite, ou avec beaucoup moins de mémoire. On échange un peu d'exactitude, mesurée par le rappel, contre de la vitesse ou de l'espace. Elle s'oppose à la recherche exhaustive, exacte mais coûteuse. HNSW, IVF et la quantification produit en sont les grandes familles.

Voir aussi : Recherche exhaustive , Rappel@k , HNSW
Recherche exhaustive

Stratégie qui compare la requête à tous les vecteurs de la base, un par un, pour en extraire les plus proches. Aussi appelée balayage linéaire ou index Flat. Elle est exacte par construction (elle ne peut rien manquer) mais son coût croît linéairement avec le nombre de vecteurs et leur dimension, en O(n x d). Elle sert d'oracle de référence pour juger les méthodes approchées.

Voir aussi : Plus proches voisins , Rappel@k
Recherche gloutonne

Stratégie de déplacement dans un graphe de proximité : à chaque pas, on saute vers le voisin le plus proche de la requête, et on s'arrête dès qu'aucun voisin n'est plus proche que le noeud courant. Rapide et myope, elle prend le meilleur coup local sans planifier, ce qui ne garantit pas d'atteindre le vrai plus proche voisin : elle peut rester coincée dans un minimum local.

Voir aussi : Graphe de proximite , Minimum local , Plus proches voisins
Réclamation de ligne

Verrou qui permet à un relais de prendre une ligne de la table outbox sans qu'un relais concurrent ne prenne la même. En SQL, la clause FOR UPDATE SKIP LOCKED : chaque relais réclame des lignes encore libres et saute celles déjà verrouillées par un autre. Sans ce verrou, plusieurs relais publieraient le même message, un double-dispatch.

Source : PostgreSQL, Documentation (SELECT FOR UPDATE SKIP LOCKED)

Voir aussi : Relais d'outbox , Outbox transactionnel
Règle d'apprentissage

Procédure qui met à jour les paramètres (poids, biais) d'un modèle à partir d'exemples observés. Pour le perceptron, la règle est $w \leftarrow w + \eta \cdot y \cdot x$ et $b \leftarrow b + \eta \cdot y$ appliquée seulement quand un exemple est mal classé.

Source : Rosenblatt, 1958

Voir aussi : Taux d'apprentissage , Perceptron , Descente de gradient
Règle de la chaîne

Règle de dérivation d'une composition de fonctions : la dérivée de f(g(x)) est f'(g(x)) multiplié par g'(x). On multiplie les dérivées locales le long du chemin. C'est le coeur mécanique de la rétropropagation.

Voir aussi : Dérivée , Composition de fonctions , Backpropagation
Régression

Tâche d'apprentissage supervisé consistant à prédire une valeur continue (un prix, une température, une probabilité). Utilise typiquement l'identité comme activation de sortie et MSE comme fonction de coût.

Voir aussi : Fonction de coût , Fonction d'activation
Relais d'outbox

Processus qui lit la table outbox, publie vers le broker les messages en attente, puis les marque comme envoyés. Il tourne séparément du service métier. Comme il peut publier un message puis tomber avant de le marquer envoyé, il le republiera : sa livraison est au moins une fois, et les doublons sont absorbés en aval par un consommateur idempotent.

Source : Richardson, Microservices Patterns

Voir aussi : Outbox transactionnel , Livraison au moins une fois , Réclamation de ligne
ReLU

Fonction d'activation définie par ReLU(x) = max(0, x). Linéaire pour les valeurs positives, nulle pour les négatives. Simple, rapide à calculer, et résout en grande partie le problème du gradient qui disparaît. Standard de fait dans les couches cachées des réseaux profonds depuis 2012.

Source : Nair et Hinton, 2010

Voir aussi : Fonction d'activation , Sigmoïde
Requête-réponse

Schéma d'échange où l'émetteur envoie une requête puis attend, sur un canal de retour, la réponse correspondante. C'est le motif naturel de la requête : « Quel est le solde ? » appelle « 240 points ». Pour relier chaque réponse à sa requête quand plusieurs circulent, on attache souvent un identifiant de corrélation. Décrit par Hohpe & Woolf sous le nom Request-Reply.

Source : Hohpe & Woolf, 2003

Voir aussi : Message de requête , Séparation commande-requête
Réseau de neurones impulsionnel

Famille de réseaux de neurones qui communiquent par impulsions discrètes dans le temps (spikes), plus proches du fonctionnement biologique que les réseaux classiques continus. Domaine de recherche actif, peu utilisé en pratique industrielle pour l'instant.

Voir aussi : Calcul neuromorphique
Réseau petit monde

Réseau qui combine beaucoup de liens locaux (vers des voisins proches) et quelques rares liens longue portée (vers des régions éloignées). Ces raccourcis effondrent la longueur des chemins : pour traverser le réseau, le nombre de sauts croît comme le logarithme du nombre de noeuds plutôt que comme leur nombre. C'est le principe des six degrés de séparation, et le coeur de l'efficacité de HNSW.

Voir aussi : Graphe de proximite , HNSW
Saturation

Phénomène par lequel une fonction d'activation atteint une valeur quasi-constante (et donc une dérivée quasi-nulle) sur de larges régions de son domaine. La sigmoïde sature pour les valeurs très négatives ou très positives, ce qui provoque le vanishing gradient.

Voir aussi : Sigmoïde , Vanishing gradient
Séparation commande-requête

Principe de conception selon lequel une opération doit soit changer l'état du système sans rien renvoyer d'utile (une commande), soit renvoyer une donnée sans rien changer (une requête), jamais les deux à la fois. Énoncé par Bertrand Meyer (Command-Query Separation, CQS), il rend chaque message lisible : on sait au premier coup d'oeil s'il écrit ou s'il lit. C'est la ligne qui sépare proprement la commande de la requête.

Source : Meyer, 1988

Voir aussi : Message de commande , Message de requête
Séparation de domaines

Technique consistant à dériver des clés ou des contextes distincts pour chaque rôle ou usage, de sorte qu'un chiffré valide dans un domaine ne puisse pas être rejoué dans un autre. Elle s'implémente typiquement via des données associées spécifiques au rôle, des préfixes de dérivation de clé ou des octets de version. Elle est essentielle pour prévenir les attaques par confusion de contexte.

Voir aussi : Données associées (AAD) , Nonce , Crypto-agilité
Sigmoïde

Fonction d'activation en forme de S qui prend n'importe quel nombre réel et le compresse dans l'intervalle ]0, 1[. Sa formule est σ(x) = 1 / (1 + e⁻ˣ). Historiquement la plus utilisée, elle est aujourd'hui souvent remplacée par ReLU dans les couches cachées.

Voir aussi : Fonction d'activation , ReLU
Signal d'erreur

Sensibilité de la perte à la pré-activation d'un neurone, notée delta = dL/dz. Elle mesure de combien la note changerait si l'entrée nette du neurone variait d'un cheveu. La rétropropagation calcule ce signal pour chaque neurone, de la sortie vers l'entrée, puis en déduit le gradient de chaque poids par la règle dL/dw = delta multiplié par l'activation amont.

Voir aussi : Backpropagation , Gradient , Dérivée partielle
Similarité cosinus

Mesure de proximité entre deux vecteurs, définie comme cos(θ) = (x · w) / (‖x‖ ‖w‖), valeur dans [-1, 1]. Égale à 1 quand les vecteurs sont alignés, 0 quand orthogonaux, -1 opposés. Outil standard pour comparer des embeddings (mots, phrases, images).

Voir aussi : Produit scalaire , Norme , Inégalité de Cauchy-Schwarz
Softmax

Fonction qui prend un vecteur de réels et le transforme en distribution de probabilités. Pour un vecteur z, softmax(z)_i = exp(z_i) / somme(exp(z_j)). Utilisée comme activation de sortie pour la classification multi-classe.

Voir aussi : Sigmoïde , Fonction d'activation
Somme pondérée

Addition de plusieurs valeurs, chacune multipliée par un coefficient appelé poids. Formule générale Σ wᵢ xᵢ. C'est le cœur du calcul du neurone artificiel, avant l'ajout du biais et l'application de la fonction d'activation.

Voir aussi : Biais , Fonction d'activation
Surface de coût

Graphe du coût vu comme une fonction des poids du réseau, les données étant fixées. Chaque jeu de poids est un point, et son altitude est le coût correspondant. Apprendre revient à descendre vers un creux de ce relief, ce que feront les chapitres sur le gradient.

Source : Goodfellow, Bengio & Courville, 2016

Voir aussi : Fonction de coût , Descente de gradient
Table de vérité

Tableau qui donne la valeur de vérité d'une formule logique pour chacune des combinaisons possibles des valeurs de ses variables. Pour n variables, elle comporte 2ⁿ lignes.

Voir aussi : Proposition , Connecteur logique
Tag d'authentification

Valeur courte (typiquement 128 bits) produite par un algorithme AEAD ou un MAC, et vérifiée lors du déchiffrement. Toute modification du chiffré, des données associées ou du nonce invalide le tag et fait échouer l'ouverture. Il garantit à la fois l'intégrité et l'authenticité du message.

Voir aussi : Chiffrement authentifié (AEAD) , Données associées (AAD) , Malléabilité
Tanh

Tangente hyperbolique, fonction d'activation similaire à la sigmoïde mais compressant les valeurs dans ]-1, 1[ au lieu de ]0, 1[. Souvent utilisée quand on veut une sortie centrée sur zéro. Sa formule est tanh(x) = (eˣ - e⁻ˣ) / (eˣ + e⁻ˣ).

Voir aussi : Fonction d'activation , Sigmoïde
Tautologie

Proposition qui est vraie quelles que soient les valeurs de vérité de ses composantes. Exemple : P ∨ ¬P (principe du tiers exclu). Son opposée est la contradiction, toujours fausse.

Voir aussi : Proposition , Table de vérité
Taux d'apprentissage

Scalaire positif qui contrôle la taille du pas effectué par la descente de gradient à chaque itération. Trop petit, l'apprentissage est lent ; trop grand, il oscille ou diverge. Souvent noté η (eta) ou α (alpha). C'est le premier hyperparamètre à régler dans tout entraînement.

Voir aussi : Descente de gradient
Temps constant

Propriété d'une implémentation dont la durée d'exécution ne dépend pas des valeurs secrètes traitées, éliminant les canaux auxiliaires temporels. Elle est indispensable pour la comparaison de tags d'authentification et pour les opérations cryptographiques sensibles. ChaCha20-Poly1305 est naturellement en temps constant en logiciel, tandis qu'AES nécessite des instructions matérielles (AES-NI) pour atteindre cette propriété.

Voir aussi : Tag d'authentification , Oracle de padding , Chiffrement authentifié (AEAD)
Test métamorphique

Technique de test qui vérifie une RELATION attendue entre plusieurs exécutions plutôt qu'une valeur de sortie exacte, utile quand la bonne réponse est inconnue ou trop coûteuse à calculer (le problème de l'oracle). Exemple : permuter l'ordre des entrées ne doit pas changer le résultat, ou doubler une entrée doit doubler la sortie. L'oracle différentiel en est un cas particulier, où la relation vérifiée est l'égalité à une référence exacte.

Voir aussi : Oracle différentiel , Recherche approchée
Théorème d'approximation universelle

Résultat (Cybenko 1989, Hornik 1989) établissant qu'un réseau à une seule couche cachée, avec assez de neurones et une activation non polynomiale, peut approcher d'aussi près qu'on veut n'importe quelle fonction continue sur un domaine borné. Il garantit l'existence d'un tel réseau, pas qu'on sache l'apprendre.

Source : Cybenko, 1989 ; Hornik, 1989

Voir aussi : Perceptron multicouches , Pouvoir expressif , Couche cachée
Théorème de Novikoff

Si un jeu de données est linéairement séparable avec marge géométrique $\gamma > 0$ et rayon $R = \max_i \|x_i\|$, alors l'algorithme du perceptron initialisé à zéro converge en au plus $T \leq (R / \gamma)^2$ corrections, quelle que soit la valeur du taux d'apprentissage.

Source : Novikoff, 1962

Voir aussi : Perceptron , Linéairement séparable , Marge géométrique , Inégalité de Cauchy-Schwarz
Transformer

Architecture de réseau de neurones introduite en 2017 par Vaswani et al. dans l'article "Attention is all you need". Basée sur le mécanisme d'attention, elle domine aujourd'hui le traitement du langage et s'étend à la vision et au son. C'est la fondation des modèles comme GPT, Claude, Gemini.

Source : Vaswani et al., 2017

Voir aussi : llm-mcp
Union

Opération qui réunit deux ensembles, notée ∪. A ∪ B est l'ensemble des objets qui appartiennent à A ou à B (ou aux deux). Sa condition d'appartenance est une disjonction : x ∈ A ∪ B équivaut à « x ∈ A ou x ∈ B ». L'union est au « ou » logique ce que l'objet est au connecteur.

Voir aussi : Intersection , Complémentaire , Connecteur logique
Vanishing gradient

Disparition du gradient dans les couches profondes d'un réseau. Quand la dérivée maximale d'une fonction d'activation est inférieure à 1, le gradient se multiplie à chaque couche traversée et s'écrase exponentiellement. Identifié par Glorot et Bengio (2010), c'est l'une des raisons du passage à ReLU.

Source : Glorot et Bengio, 2010

Voir aussi : Sigmoïde , ReLU , Saturation
Vecteur

Objet mathématique représenté comme une liste ordonnée de nombres. Un vecteur de dimension n encode n valeurs. En machine learning, les entrées d'un neurone et ses poids sont chacun un vecteur de même dimension.

Voir aussi : Produit scalaire
Vecteur normal

Vecteur $w$ qui définit la direction perpendiculaire à un hyperplan d'équation $w \cdot x + b = 0$. Sa direction indique de quel côté de l'hyperplan se trouve un point ; sa norme fixe l'échelle de la distance signée.

Source : Bishop, PRML, ch. 4

Voir aussi : Hyperplan , Produit scalaire , Norme
XOR (ou exclusif)

Opération logique qui vaut 1 quand exactement une de ses deux entrées vaut 1, et 0 sinon. Ses cas positifs sont en diagonale dans le plan 2D, ce qui les rend non séparables par une seule droite. Cela rend XOR impossible à apprendre pour un perceptron unique.

Source : Minsky et Papert, 1969

Voir aussi : Perceptron

Glossaire

Acquittement

Appartenance

Backpropagation

Biais

Calcul neuromorphique

Canal ionique

Chiffrement authentifié (AEAD)

Classification

Clé de déduplication

Clé de partition

Codage temporel

Combinaison affine

Combinaison linéaire

Communication asynchrone

Complémentaire

Composition de fonctions

Concentration des distances

Connecteur logique

Consommateur idempotent

Constante de temps

Contre-exemple

Couche cachée

Couplage temporel

Courtier de messages

Crypto-agilité

Demi-espace

Dérivée

Dérivée partielle

Descente de gradient

Détection de coïncidence

Distance euclidienne

Distance signée

Domaine de discours

Données associées (AAD)

Double écriture

Dying ReLU

Embedding (plongement)

Ensemble

Ensemble des parties

Entropie croisée

Équivalence logique

Erreur quadratique moyenne

Espace vectoriel

Few-shot learning

Fonction d'activation

Fonction de coût

Fonction seuil

Forward pass

Frontière de décision

GELU

Gradient

Gradient de substitution

Graphe de calcul

Graphe de proximite

Groupe de consommateurs

Hallucination

Hiver de l'IA

HNSW

Hyperplan

Hypothèse distributionnelle

Idempotence

Implication

Inclusion

Inégalité de Cauchy-Schwarz

Integrate-and-fire (intègre-et-décharge)

Intersection

IVF (fichier inversé)

Journal de messages

Leaky ReLU

Linéairement séparable

Livraison au moins une fois

Livraison au plus une fois

Livraison effectivement une fois

Malédiction de la dimension

Malléabilité

Marge fonctionnelle

Marge géométrique

Mark I Perceptron

Matrice