Glossaire
Définitions courtes des termes techniques utilisés dans les cours interactifs. Chaque mot souligné en pointillés dans un cours renvoie vers son entrée ici.
-
Acquittement
Signal par lequel un consommateur confirme qu'un message a été pris en charge, autorisant le courtier à l'effacer. Son instant est décisif : acquitter avant de traiter expose à la perte (au plus une fois), acquitter après un traitement réussi expose au doublon en cas de redélivraison (au moins une fois). Tant qu'aucun acquittement n'arrive, le courtier peut redélivrer le message.
Source : RabbitMQ, Consumer Acknowledgements
Voir aussi : Livraison au plus une fois , Livraison au moins une fois , Courtier de messages
-
Appartenance
Relation fondamentale entre un objet et un ensemble, notée ∈. « x ∈ A » se lit « x appartient à A » et signifie que x est l'un des éléments de A. Sa négation se note ∉. L'appartenance est le prédicat de base de la théorie des ensembles : tout le reste, inclusion et opérations, se définit à partir d'elle.
-
Backpropagation
Algorithme permettant de calculer le gradient de la fonction de coût par rapport à chaque poids d'un réseau de neurones. Il propage l'erreur de la sortie vers les couches précédentes en appliquant la règle de la chaîne. C'est le cœur de l'apprentissage des réseaux multi-couches.
Source : Rumelhart, Hinton et Williams, 1986
Voir aussi : Fonction d'activation
-
Biais
Terme constant ajouté à la somme pondérée d'un neurone, indépendant des entrées. Géométriquement, il translate la frontière de décision dans l'espace des entrées. Sans biais, cette frontière passerait obligatoirement par l'origine.
Voir aussi : Somme pondérée
-
Calcul neuromorphique
Branche de l'informatique qui conçoit des circuits matériels imitant le fonctionnement du cerveau biologique (neurones impulsionnels, mémoire locale, calcul asynchrone). Domaine de recherche actif chez Intel (Loihi), IBM (TrueNorth) et plusieurs laboratoires académiques.
Voir aussi : Réseau de neurones impulsionnel
-
Canal ionique
Pore traversant la membrane d'un neurone qui laisse passer certains ions chargés. Les canaux toujours ouverts font fuir un courant constant, ce qui se modélise comme une résistance. D'autres canaux s'ouvrent et se ferment selon la tension elle-même et engendrent activement l'impulsion (modèle de Hodgkin et Huxley).
Source : Hodgkin & Huxley, 1952
Voir aussi : Potentiel de repos , Potentiel de membrane
-
Chiffrement authentifié (AEAD)
Primitive cryptographique qui garantit simultanément la confidentialité et l'intégrité d'un message. Elle produit un tag d'authentification joint au chiffré, et toute altération des données rend le déchiffrement impossible. AEAD (Authenticated Encryption with Associated Data) étend ce mécanisme en protégeant également des données associées non chiffrées, liées au contexte d'utilisation.
Source : NIST SP 800-38D
Voir aussi : Tag d'authentification , Données associées (AAD) , Nonce , Malléabilité
-
Classification
Tâche d'apprentissage supervisé consistant à prédire une classe parmi un ensemble fini. Binaire si deux classes (chat ou non), multi-classe au-delà (espèce d'oiseau parmi 200). Utilise typiquement sigmoïde ou softmax en sortie.
Voir aussi : Sigmoïde , Softmax , Fonction de coût
-
Clé de déduplication
Identifiant qu'un consommateur utilise pour reconnaître un message qu'il a déjà traité. C'est souvent l'identifiant de message stable fourni par le courtier, parfois une clé métier (un numéro de commande). Elle est rangée dans une table de réception (inbox) : un message redélivré dont la clé y figure déjà est écarté. Elle répond à la question : est-ce le même message ?
Source : Kleppmann, 2017
Voir aussi : Consommateur idempotent , Idempotence , Acquittement
-
Clé de partition
Valeur qui sert à router un message vers une partition, en général par hachage. Deux messages portant la même clé de partition tombent toujours sur la même partition, donc restent ordonnés entre eux ; des messages de clés différentes se répartissent sur plusieurs partitions et se traitent en parallèle. Bien la choisir (par exemple l'identifiant de commande) achète l'ordre par clé sans sacrifier le débit. Elle répond à la question : quels messages doivent rester ordonnés ensemble ?
Source : Apache Kafka, Documentation
Voir aussi : Partition , Ordre partiel , Groupe de consommateurs
-
Codage temporel
Manière de représenter une information dans l'instant précis où une impulsion est émise, et non dans le nombre d'impulsions par seconde. L'instant de décharge porte alors le message, ce qui permet à un réseau impulsionnel de calculer avec très peu d'impulsions. S'oppose au codage par fréquence.
Voir aussi : Réseau de neurones impulsionnel , Détection de coïncidence
-
Combinaison affine
Combinaison linéaire à laquelle on ajoute un terme constant (biais). La somme pondérée d'un neurone avec son biais est une combinaison affine de ses entrées. Composer plusieurs combinaisons affines sans non-linéarité donne une seule combinaison affine équivalente.
Voir aussi : Combinaison linéaire , Non-linéarité , Biais
-
Combinaison linéaire
Expression de la forme a₁ v₁ + a₂ v₂ + ... + aₙ vₙ où les aᵢ sont des scalaires et les vᵢ des vecteurs. La somme pondérée d'un neurone est une combinaison linéaire des entrées avec les poids comme coefficients.
Voir aussi : Somme pondérée , Produit scalaire
-
Communication asynchrone
Mode d'échange où l'émetteur dépose un message et poursuit son travail sans attendre que le destinataire l'ait traité. Le message patiente dans une file ou un journal jusqu'à ce qu'un consommateur le prenne. S'oppose à la communication synchrone, où l'appelant reste bloqué jusqu'à la réponse.
Voir aussi : Couplage temporel , Message de commande
-
Complémentaire
Opération qui retourne ce qui n'est pas dans un ensemble, relativement à un univers de référence. Le complémentaire de A, noté Aᶜ (ou A barre), est l'ensemble des objets de l'univers qui n'appartiennent pas à A. Sa condition d'appartenance est une négation : x ∈ Aᶜ équivaut à « non (x ∈ A) ». Le complémentaire dépend de l'univers choisi : sans univers fixé, il n'a pas de sens.
Voir aussi : Union , Intersection , Domaine de discours
-
Composition de fonctions
Opération consistant à appliquer une fonction au résultat d'une autre, notée f rond g. Un réseau multi-couches est une composition, où la sortie d'une couche devient l'entrée de la suivante, et c'est cet emboîtement, alterné avec des activations non linéaires, qui crée la non-linéarité globale.
Voir aussi : Perceptron multicouches , Non-linéarité , Couche cachée
-
Concentration des distances
Phénomène par lequel, en grande dimension, les distances entre points tirés au hasard se resserrent autour d'une valeur commune. Le contraste relatif (distance maximale moins minimale, rapporté à la minimale) tend vers zéro comme l'inverse de la racine de la dimension. Conséquence : la notion de plus proche voisin perd de son sens quand toutes les distances se ressemblent.
Voir aussi : Malédiction de la dimension , Distance euclidienne
-
Connecteur logique
Symbole qui combine une ou deux propositions pour en former une nouvelle. Les cinq connecteurs de base sont la négation (¬), la conjonction (∧), la disjonction (∨), l'implication (⇒) et l'équivalence (⇔).
Voir aussi : Proposition , Implication , Table de vérité
-
Consommateur idempotent
Consommateur dont le traitement produit le même résultat qu'un message soit reçu une fois ou plusieurs fois. Il garde la trace de chaque message déjà traité par sa clé de déduplication et, dans la même transaction que l'effet, marque cette clé comme vue : à la redélivraison d'un doublon, il reconnaît la clé et saute l'effet. L'atomicité entre appliquer l'effet et marquer la clé est essentielle, sinon une panne entre les deux rouvre le problème des deux généraux dans sa propre base.
Source : Hohpe & Woolf, Enterprise Integration Patterns
Voir aussi : Idempotence , Clé de déduplication , Livraison au moins une fois
-
Constante de temps
Durée caractéristique de la fuite d'une membrane, notée τ et égale au produit de la résistance par la capacité, τ = R · C. Au bout d'une constante de temps, le potentiel a perdu environ 63 % de sa charge (il en reste 37 %, soit 1/e). Elle fixe le facteur de rétention discret λ = e^(-Δt/τ).
Source : Gerstner et al., 2014
Voir aussi : Potentiel de membrane , Integrate-and-fire (intègre-et-décharge)
-
Contre-exemple
Un élément du domaine qui rend faux un énoncé universel. Pour réfuter « ∀x, P(x) », il suffit d'exhiber un seul x tel que P(x) est faux : c'est la traduction directe de l'équivalence ¬(∀x, P(x)) ≡ ∃x, ¬P(x). Un contre-exemple démolit une conjecture sans qu'il soit besoin d'en dire plus.
Voir aussi : Quantificateur universel , Quantificateur existentiel , Implication
-
Couche cachée
Couche intermédiaire d'un réseau de neurones, située entre la couche d'entrée et la couche de sortie. Ses neurones ne reçoivent ni les données brutes ni ne produisent la prédiction finale, ils calculent des représentations intermédiaires. Un réseau « profond » a plusieurs couches cachées.
Voir aussi : Fonction d'activation , Perceptron multicouches , Pouvoir expressif
-
Couplage temporel
Dépendance qui force deux services à être disponibles au même instant pour qu'un échange réussisse. Un appel synchrone direct couple temporellement l'appelant et l'appelé : si l'appelé est en panne ou lent, l'appelant attend ou échoue. Le message asynchrone supprime ce couplage en intercalant une file qui accepte la demande même quand le destinataire est absent.
Voir aussi : Communication asynchrone , Message d'événement
-
Courtier de messages
Intermédiaire qui reçoit les messages, les range dans des files et remet chacun à un consommateur, puis l'efface une fois qu'il a été acquitté. L'archetype est RabbitMQ : un message livré et acquitté disparaît, il n'est pas conservé pour être relu. L'état de progression (ce qui reste à distribuer) vit dans le courtier, pas chez le lecteur.
Source : Hohpe & Woolf, 2003
Voir aussi : Journal de messages , Groupe de consommateurs , Médiateur
-
Crypto-agilité
Capacité d'un format ou d'un protocole à migrer vers de nouveaux primitifs cryptographiques sans casser les données existantes. Elle s'implémente typiquement par un octet de version en tête du chiffré, permettant de décoder les anciens enregistrements et de chiffrer les nouveaux avec l'algorithme courant. Elle est essentielle pour préparer une migration post-quantique.
Voir aussi : Chiffrement authentifié (AEAD) , Séparation de domaines
-
Demi-espace
Une des deux régions dans lesquelles un hyperplan partitionne Rⁿ. Algébriquement, l'ensemble des points x tels que w · x + b > 0 (resp. < 0). Un neurone à seuil sépare l'espace en exactement deux demi-espaces : actif et inactif.
Voir aussi : Hyperplan , Fonction seuil
-
Dérivée
Pente d'une fonction en un point. Formellement, la limite du taux de variation (f(x+h) - f(x)) / h quand h tend vers zéro. Elle dit de combien et dans quel sens la sortie change quand on bouge l'entrée d'un cheveu.
Voir aussi : Règle de la chaîne , Gradient
-
Dérivée partielle
Dérivée d'une fonction de plusieurs variables par rapport à une seule d'entre elles, les autres étant gardées constantes. Elle mesure la pente selon un axe. Empilées, les dérivées partielles forment le gradient.
-
Descente de gradient
Algorithme d'optimisation qui ajuste itérativement les paramètres d'un modèle pour minimiser une fonction de coût. À chaque étape, il déplace les paramètres dans la direction opposée au gradient, d'une distance proportionnelle au taux d'apprentissage. Méthode dominante pour entraîner les réseaux de neurones.
Source : Cauchy, 1847
Voir aussi : Gradient , Taux d'apprentissage , Fonction de coût
-
Détection de coïncidence
Capacité d'un neurone à état à décharger seulement quand deux entrées arrivent à un court intervalle l'une de l'autre. Sa fenêtre d'intégration interne rend ce calcul possible, là où un neurone sans mémoire en est incapable. Illustrée par le modèle de Jeffress (1948) pour la localisation sonore.
Source : Jeffress (1948)
Voir aussi : Neurone à état
-
Distance euclidienne
Distance entre deux vecteurs u et v dans Rⁿ, définie comme la norme de leur différence : d(u, v) = ‖u - v‖. C'est la généralisation à n dimensions de la distance entre deux points du plan. Sert à mesurer la similarité entre deux représentations vectorielles.
-
Distance signée
Distance perpendiculaire d'un point à un hyperplan, affectée d'un signe selon le côté où se trouve le point. Pour l'hyperplan $w \cdot x + b = 0$, elle vaut $d(x) = (w \cdot x + b) / \|w\|$ : positive d'un côté, négative de l'autre, nulle sur l'hyperplan lui-même.
Source : Hastie, Tibshirani, Friedman, ESL, ch. 4
Voir aussi : Hyperplan , Vecteur normal , Distance euclidienne
-
Domaine de discours
L'ensemble des objets sur lesquels portent les variables d'un prédicat quantifié. La vérité d'un énoncé quantifié en dépend entièrement : « ∃x, x² = 2 » est faux sur les entiers mais vrai sur les réels. Préciser le domaine n'est donc pas un détail, c'est une partie de l'énoncé.
Voir aussi : Prédicat , Quantificateur universel , Quantificateur existentiel
-
Données associées (AAD)
Données authentifiées par un algorithme AEAD mais non chiffrées, typiquement des métadonnées comme un en-tête, un identifiant ou un contexte d'utilisation. Elles lient le chiffré à son contexte : toute discordance entre les données associées attendues et celles fournies au déchiffrement invalide le tag et fait échouer l'opération.
Voir aussi : Chiffrement authentifié (AEAD) , Tag d'authentification , Séparation de domaines
-
Double écriture
Situation où un service doit modifier deux systèmes distincts pour une seule action, typiquement sa propre base de données et un broker de messages. Comme aucune transaction ne couvre les deux à la fois, une panne entre les deux écritures laisse une incohérence : la base est à jour mais le message n'est jamais parti, ou le message est parti mais la base a été annulée. C'est le problème que l'outbox transactionnel résout.
Source : Richardson, Microservices Patterns
Voir aussi : Outbox transactionnel , Relais d'outbox
-
Dying ReLU
Phénomène par lequel un neurone à activation ReLU dont l'entrée reste constamment négative voit sa sortie et son gradient à zéro. Le neurone se fige, ne se met plus à jour, et reste mort jusqu'à la fin de l'entraînement. Contourné par les variantes Leaky ReLU, ELU, GELU.
Voir aussi : ReLU , Leaky ReLU
-
Embedding (plongement)
Représentation d'un objet (mot, phrase, image) par un vecteur de nombres réels, apprise par un réseau de neurones de sorte que la proximité géométrique reflète la proximité de sens. Deux textes au sens voisin reçoivent des vecteurs voisins. Les dimensions usuelles vont de quelques centaines à quelques milliers (par exemple 768 ou 1536).
Source : Mikolov et al., 2013
Voir aussi : Vecteur , Espace vectoriel , Similarité cosinus
-
Ensemble
Collection d'objets, appelés ses éléments, considérée comme un tout. Un ensemble est entièrement déterminé par ses éléments : deux ensembles ayant exactement les mêmes éléments sont égaux. On le décrit en extension, en listant ses éléments entre accolades comme {1, 2, 3}, ou en compréhension, en donnant la propriété que ses éléments vérifient, comme {x | x > 3}.
Voir aussi : Appartenance , Inclusion , Ensemble des parties
-
Ensemble des parties
Ensemble de tous les sous-ensembles d'un ensemble E, noté P(E). Ses éléments sont eux-mêmes des ensembles : l'ensemble vide et E lui-même en font toujours partie. Si E a n éléments, alors P(E) en a 2 puissance n, car chaque élément de E est soit pris, soit laissé dans un sous-ensemble. Par exemple P({a, b}) = {∅, {a}, {b}, {a, b}}.
Voir aussi : Ensemble , Inclusion , Appartenance
-
Entropie croisée
Fonction de coût pour la classification qui mesure l'écart entre la distribution prédite et la distribution cible. Elle vaut moins le logarithme de la probabilité attribuée à la bonne classe, donc elle explose quand le modèle est confiant et se trompe. Couplée à la fonction softmax, c'est le coût standard du multi-classe.
Source : Bishop, 2006
Voir aussi : Fonction de coût , Softmax , Classification
-
Équivalence logique
Relation entre deux propositions qui ont la même valeur de vérité dans tous les cas possibles. Le connecteur associé, noté ⇔, se lit « si et seulement si » et équivaut à une double implication.
Voir aussi : Implication , Table de vérité
-
Erreur quadratique moyenne
Fonction de coût qui moyenne le carré de l'écart entre la prédiction et la cible. Le carré pénalise fortement les grands écarts et rend le coût dérivable partout. Notée MSE (mean squared error), elle est le choix naturel pour la régression.
Source : Goodfellow, Bengio & Courville, 2016
Voir aussi : Fonction de coût , Régression
-
Espace vectoriel
Ensemble dont les éléments, les vecteurs, peuvent s'additionner entre eux et se multiplier par un nombre, en respectant des règles de cohérence. Concrètement pour ce cours : l'ensemble des listes de n nombres réels, où chaque embedding est un point. La dimension n est le nombre de coordonnées.
Voir aussi : Vecteur , Embedding (plongement)
-
Few-shot learning
Capacité d'un modèle à apprendre une nouvelle tâche à partir de très peu d'exemples (typiquement entre 1 et 10). C'est un défi ouvert pour les réseaux classiques qui demandent des milliers d'exemples, mais progresse vite avec les grands modèles de fondation.
Voir aussi : Modèle de fondation
-
Fonction d'activation
Fonction non-linéaire appliquée à la sortie de la somme pondérée d'un neurone. Sans elle, un réseau de neurones se réduirait à une simple combinaison linéaire, peu importe sa profondeur. Les classiques sont sigmoïde, ReLU, tanh.
-
Fonction de coût
Mesure de l'erreur entre la prédiction d'un réseau et la vérité attendue. Aussi appelée fonction de perte ou loss. Plus elle est élevée, plus le réseau se trompe. L'apprentissage cherche à la minimiser. Exemples courants : MSE pour la régression, cross-entropy pour la classification.
Voir aussi : Descente de gradient , Gradient
-
Fonction seuil
Fonction d'activation binaire H(z) qui vaut 1 si z >= 0 et 0 sinon. Aussi appelée fonction de Heaviside. C'est l'activation originale de McCulloch-Pitts (1943) et du perceptron de Rosenblatt (1958), abandonnée plus tard parce qu'elle n'est pas dérivable.
Voir aussi : Fonction d'activation , Perceptron
-
Forward pass
Propagation avant. Phase de calcul où une donnée d'entrée traverse le réseau couche par couche, des entrées vers la sortie, en appliquant à chaque neurone sa somme pondérée et sa fonction d'activation. Produit la prédiction finale.
Voir aussi : Somme pondérée , Fonction d'activation , Backpropagation
-
Frontière de décision
Lieu des points de l'espace d'entrée où le modèle bascule d'une classe à l'autre, c'est-à-dire où sa sortie change. Pour un neurone seul c'est un hyperplan ; pour un réseau multi-couches elle peut devenir polygonale, puis courbe.
Source : Bishop, 2006
Voir aussi : Hyperplan , Linéairement séparable , Perceptron multicouches
-
GELU
Gaussian Error Linear Unit, variante moderne de ReLU définie comme GELU(x) = x · Φ(x) où Φ est la fonction de répartition gaussienne. Plus douce que ReLU autour de zéro, dominante dans les transformers (GPT, BERT, Claude).
Source : Hendrycks et Gimpel, 2016
Voir aussi : ReLU , Transformer
-
Gradient
Vecteur de toutes les dérivées partielles d'une fonction. Il indique la direction de plus forte augmentation de la fonction au point considéré, et sa norme mesure la pente. En apprentissage, on suit l'opposé du gradient pour faire baisser la fonction de coût.
Voir aussi : Descente de gradient , Backpropagation
-
Gradient de substitution
Astuce d'entraînement des réseaux à impulsions. La décharge binaire n'étant pas dérivable, on remplace sa dérivée par une approximation douce lors de la rétropropagation, tout en gardant la dynamique à impulsions en passe avant. Formalisé par Neftci, Mostafa et Zenke (2019).
Source : Neftci, Mostafa & Zenke (2019)
Voir aussi : Réseau de neurones impulsionnel , Calcul neuromorphique
-
Graphe de calcul
Représentation d'un calcul comme un graphe orienté dont les noeuds sont des opérations et les arêtes les valeurs qui circulent. Lire un réseau comme un graphe de calcul rend la rétropropagation systématique : on multiplie les dérivées locales le long des arêtes, en remontant des sorties vers les entrées.
Voir aussi : Règle de la chaîne , Backpropagation , Forward pass
-
Graphe de proximite
Structure où chaque vecteur (un noeud) est relié par des arêtes à une poignée de ses voisins les plus proches. Au lieu d'un sac de vecteurs sans relations, qui force à tout comparer, on obtient un réseau dans lequel on peut se déplacer de proche en proche pour approcher une requête sans visiter tous les points. C'est la fondation des index à base de graphe comme HNSW.
Voir aussi : Plus proches voisins , HNSW , Réseau petit monde
-
Groupe de consommateurs
Ensemble de consommateurs qui partagent un même offset pour se répartir la lecture d'un journal : au sein du groupe, chaque message n'est traité qu'une fois. Plusieurs groupes distincts lisent le même journal indépendamment, chacun avec son propre offset, si bien qu'un message est relu autant de fois qu'il y a de groupes. C'est l'équivalent côté journal des consommateurs concurrents d'un courtier.
Source : Kleppmann, 2017
Voir aussi : Journal de messages , Offset , Courtier de messages
-
Hallucination
Production par un modèle de langage d'une affirmation fausse, énoncée avec aplomb. Défaut structurel issu de l'entraînement par maximisation de vraisemblance, qui pousse le modèle à toujours produire une réponse plausible même quand il devrait dire ne pas savoir.
Voir aussi : Modèle de fondation , Transformer
-
Hiver de l'IA
Période de désintérêt et de coupure de financement de la recherche en intelligence artificielle. Le premier hiver, années 1970 et début des années 1980, suit la critique du perceptron par Minsky et Papert (1969). Le second, fin des années 1980 et années 1990, suit les déceptions liées aux systèmes experts. Chaque hiver précède un regain : la rétropropagation pour le premier, l'apprentissage profond moderne pour le second.
Source : Russell & Norvig, *AIMA*, ch. 1
Voir aussi : Minsky & Papert , Perceptron , Backpropagation
-
HNSW
Hierarchical Navigable Small World : graphe hiérarchique navigable à petit monde. Index de recherche approchée qui empile des graphes de proximité en couches, rares et grossières en haut, denses et fines en bas. Une navigation gloutonne descend de couche en couche pour trouver les plus proches voisins en de l'ordre de log n sauts. Deux réglages : M (voisins par noeud, payé en mémoire) et ef (largeur de faisceau, payée en temps).
Voir aussi : Graphe de proximite , Réseau petit monde , Recherche gloutonne , Rappel@k
-
Hyperplan
Sous-ensemble de Rⁿ défini par une équation linéaire w · x + b = 0. En dimension 2 c'est une droite, en dimension 3 un plan. C'est exactement la frontière de décision tracée par un neurone unique.
Voir aussi : Vecteur , Produit scalaire , Perceptron
-
Hypothèse distributionnelle
Idée fondatrice de la sémantique vectorielle : un mot se caractérise par les contextes dans lesquels il apparaît, donc des mots qui partagent des contextes ont des sens voisins. Résumée par la formule de Firth, on connaît un mot par la compagnie qu'il tient. C'est ce principe qui justifie d'apprendre des embeddings où la proximité géométrique encode la proximité de sens.
Source : Firth, 1957
Voir aussi : Embedding (plongement) , Espace vectoriel
-
Idempotence
Propriété d'un traitement dont l'exécution répétée produit le même résultat qu'une exécution unique. Appliquée au messaging, elle rend les doublons inoffensifs : un message déjà traité est reconnu et son effet n'est pas refait. C'est le mécanisme qui transforme une livraison au moins une fois en livraison effectivement une fois. La façon concrète de fabriquer un consommateur idempotent (clé de déduplication, atomicité) fait l'objet du chapitre suivant.
Source : Hohpe & Woolf, 2003
Voir aussi : Livraison au moins une fois , Livraison effectivement une fois , Acquittement
-
Implication
Connecteur « si... alors... », noté ⇒. La proposition P ⇒ Q est fausse dans un seul cas : quand P est vraie et Q est fausse. En particulier, une implication dont la prémisse est fausse est toujours vraie.
Voir aussi : Connecteur logique , Équivalence logique
-
Inclusion
Relation entre deux ensembles, notée ⊆. « A ⊆ B » se lit « A est inclus dans B » ou « A est un sous-ensemble de B », et signifie que tout élément de A est aussi élément de B. Sa définition est un énoncé quantifié : A ⊆ B équivaut à « pour tout x, x ∈ A implique x ∈ B ». Deux ensembles sont égaux exactement quand chacun est inclus dans l'autre (double inclusion).
Voir aussi : Appartenance , Implication , Quantificateur universel
-
Inégalité de Cauchy-Schwarz
Pour deux vecteurs x et w de Rⁿ, |x · w| ≤ ‖x‖ · ‖w‖. L'égalité n'a lieu que si les deux vecteurs sont colinéaires. C'est l'inégalité fondamentale de l'algèbre linéaire, elle garantit la cohérence entre la formulation algébrique et géométrique du produit scalaire.
Source : Cauchy 1821, Schwarz 1888
Voir aussi : Produit scalaire , Norme
-
Integrate-and-fire (intègre-et-décharge)
Modèle de neurone qui accumule le courant entrant dans un potentiel de membrane avec une fuite (constante de temps tau) et émet une impulsion quand un seuil est franchi. Première variable d'état d'un neurone, introduite par Lapicque en 1907.
Source : Lapicque (1907)
Voir aussi : Neurone à état , Réseau de neurones impulsionnel
-
Intersection
Opération qui ne garde que ce que deux ensembles ont en commun, notée ∩. A ∩ B est l'ensemble des objets qui appartiennent à la fois à A et à B. Sa condition d'appartenance est une conjonction : x ∈ A ∩ B équivaut à « x ∈ A et x ∈ B ». Quand A ∩ B est vide, on dit que A et B sont disjoints.
Voir aussi : Union , Complémentaire , Connecteur logique
-
IVF (fichier inversé)
Inverted File. Index qui partitionne l'espace en cellules, calculées par un k-means, et range chaque vecteur dans la cellule de son centroïde le plus proche. À la recherche, on ne scanne que les nprobe cellules les plus proches de la requête, pas toute la base. IVF gagne de la latence sans réduire la mémoire, car les vecteurs restent stockés en clair. Le nombre nprobe règle le compromis entre vitesse et rappel.
Voir aussi : Recherche approchée , Plus proches voisins , Rappel@k
-
Journal de messages
Suite ordonnée et append-only de messages que l'on conserve au lieu de les effacer après lecture. L'archetype est Kafka : chaque message reçoit une position fixe, et plusieurs lecteurs peuvent le relire indépendamment, chacun à son rythme. À l'inverse du courtier, l'état de lecture ne vit pas dans le journal mais chez le consommateur, sous la forme d'un offset.
Source : Kleppmann, 2017
Voir aussi : Courtier de messages , Offset , Groupe de consommateurs
-
Leaky ReLU
Variante de ReLU qui laisse passer une petite pente alpha (typiquement 0.01) sur la partie négative au lieu d'être strictement nulle. Formule : LeakyReLU(x) = x si x > 0, alpha x sinon. Évite le problème du dying ReLU.
Source : Maas, Hannun et Ng, 2013
Voir aussi : ReLU , Dying ReLU
-
Linéairement séparable
Un jeu de données étiquetées est dit linéairement séparable s'il existe un hyperplan qui sépare correctement les points de label 1 des points de label 0. XOR est l'exemple historique d'un problème non linéairement séparable.
Voir aussi : Hyperplan , XOR (ou exclusif) , Perceptron
-
Livraison au moins une fois
Garantie selon laquelle un message est traité une fois ou plus, jamais zéro (en anglais at-least-once). On l'obtient en acquittant seulement après un traitement réussi et en redélivrant tant qu'aucun acquittement n'arrive : une panne survenant après le traitement mais avant l'acquittement provoque une redélivraison, donc un doublon. On ne perd jamais, mais on peut dupliquer ; c'est pourquoi le traitement doit être idempotent.
Source : Kleppmann, 2017
Voir aussi : Acquittement , Livraison au plus une fois , Livraison effectivement une fois , Idempotence
-
Livraison au plus une fois
Garantie selon laquelle un message est traité zéro ou une fois, jamais davantage (en anglais at-most-once). On l'obtient en acquittant le message dès sa réception, avant de le traiter : une panne survenant entre l'acquittement et la fin du traitement perd le message, car il a déjà été effacé. On ne duplique jamais, mais on peut perdre. Adaptée aux flux où la perte occasionnelle est sans conséquence.
Source : Kleppmann, 2017
Voir aussi : Acquittement , Livraison au moins une fois , Livraison effectivement une fois
-
Livraison effectivement une fois
Combinaison d'une livraison au moins une fois et d'un traitement idempotent, qui rend l'effet observable identique à un traitement unique (en anglais effectively-once). On ne supprime pas les doublons de livraison, on les neutralise : un message déjà traité est reconnu et son effet n'est pas refait. C'est l'approximation réaliste du exactly-once, impossible au niveau de la livraison à cause du problème des deux généraux.
Source : Kleppmann, 2017
Voir aussi : Livraison au moins une fois , Idempotence , Problème des deux généraux
-
Malédiction de la dimension
Ensemble de phénomènes contre-intuitifs qui surgissent quand le nombre de dimensions devient grand. En recherche vectorielle, deux effets dominent : les distances entre points tirés au hasard se concentrent (le plus proche et le plus lointain deviennent presque indiscernables), et deux vecteurs aléatoires sont presque toujours quasi perpendiculaires. C'est ce qui rend la recherche du plus proche voisin difficile en grande dimension.
Voir aussi : Concentration des distances , Orthogonalité
-
Malléabilité
Propriété d'un schéma de chiffrement où une modification du chiffré produit un changement prédicible et exploitable du clair correspondant. Les modes de chiffrement sans authentification (flux, CTR, CBC sans MAC) sont malléables. L'utilisation d'un algorithme AEAD supprime cette propriété en faisant échouer tout déchiffrement d'un chiffré altéré.
Voir aussi : Chiffrement authentifié (AEAD) , Tag d'authentification , Oracle de padding
-
Marge fonctionnelle
Pour un exemple $(x, y)$ avec $y \in \{-1, +1\}$, la marge fonctionnelle est la quantité $\hat\gamma = y (w \cdot x + b)$. Elle est strictement positive si et seulement si l'exemple est bien classé. Elle dépend de l'échelle des poids et n'est pas une distance géométrique.
Source : Bishop, PRML, ch. 7
Voir aussi : Marge géométrique , Linéairement séparable , Perceptron
-
Marge géométrique
Distance perpendiculaire minimale entre un hyperplan séparateur et les points du jeu de données. Définie par $\gamma = \min_i y_i (w \cdot x_i + b) / \|w\|$ avec $y_i \in \{-1, +1\}$. Joue un rôle central dans le théorème de Novikoff et dans la formulation des machines à vecteurs de support.
Source : Novikoff, 1962
Voir aussi : Marge fonctionnelle , Linéairement séparable , Théorème de Novikoff
-
Mark I Perceptron
Machine physique construite par Frank Rosenblatt entre 1958 et 1960 au Cornell Aeronautical Laboratory. Capable de reconnaître des formes simples grâce à 400 photorécepteurs connectés à des poids ajustables via potentiomètres motorisés. Première implémentation matérielle d'un algorithme d'apprentissage automatique, distincte du modèle théorique publié en 1958.
Source : Rosenblatt, 1958, 1960
Voir aussi : Perceptron
-
Matrice
Tableau rectangulaire de nombres organisés en lignes et colonnes. Une matrice de taille m×n possède m lignes et n colonnes. Dans un réseau de neurones, une couche de m neurones avec n entrées chacun se résume à une matrice de poids m×n.
Voir aussi : Vecteur , Produit scalaire
-
Médiateur
Objet qui centralise l'acheminement des messages à l'intérieur d'un même processus, en mémoire. Au lieu que l'émetteur référence directement le bon gestionnaire, il remet le message au médiateur, qui sait à quel handler le router : un seul pour une commande ou une requête, zéro à plusieurs abonnés pour un événement. Il se distingue du bus ou broker, qui rend le même service mais à travers le réseau, entre processus.
Source : Gamma et al., 1994
Voir aussi : Message de commande , Message de requête , Message d'événement
-
Message d'événement
Message qui annonce un fait déjà survenu (par exemple « Commande payée »). Il est nommé au passé, diffusé à qui veut l'écouter, et l'émetteur ignore qui le consomme, voire si quelqu'un le consomme. Plusieurs abonnés peuvent réagir au même événement. À distinguer du message de commande, qui demande une action future à un destinataire unique.
Voir aussi : Message de commande , Couplage temporel
-
Message de commande
Message qui exprime une intention, un ordre adressé à un destinataire précis pour qu'il fasse quelque chose (par exemple « Prélève le paiement »). Il est nommé à l'impératif, possède en principe un seul gestionnaire, et l'émetteur attend qu'un effet se produise. À distinguer du message d'événement, qui constate un fait déjà arrivé.
Voir aussi : Message d'événement , Communication asynchrone
-
Message de requête
Message qui demande une information à un destinataire précis sans rien changer à l'état du système (par exemple « Quel est le solde de fidélité de ce client ? »). Il se formule comme une question, vise un seul gestionnaire, et l'émetteur attend toujours une donnée en retour. C'est la troisième famille de messages, à côté de la commande qui ordonne et de l'événement qui constate.
Source : Hohpe & Woolf, 2003
Voir aussi : Message de commande , Message d'événement , Séparation commande-requête , Requête-réponse
-
Minimum local
Noeud d'un graphe dont tous les voisins immédiats sont plus loin de la requête que lui, alors qu'un point bien meilleur existe ailleurs dans le graphe, hors de portée directe. Une recherche gloutonne s'y arrête à tort, croyant avoir trouvé le plus proche voisin. Élargir la largeur de faisceau (garder plusieurs candidats) permet de s'en extraire.
Voir aussi : Recherche gloutonne , Graphe de proximite , Rappel@k
-
Minsky & Papert
Marvin Minsky et Seymour Papert, auteurs du livre *Perceptrons* (MIT Press, 1969) qui démontre formellement les limites d'un perceptron simple, notamment l'impossibilité de réaliser la fonction XOR. Leur analyse a contribué au déclin du financement public de la recherche en réseaux de neurones jusqu'au milieu des années 1980.
Source : Minsky & Papert, *Perceptrons*, MIT Press, 1969
Voir aussi : Perceptron , XOR (ou exclusif) , Hiver de l'IA
-
Modèle de fondation
Réseau de neurones de très grande taille entraîné sur une quantité massive de données généralistes, qui peut ensuite être adapté à de nombreuses tâches spécifiques. Le terme a été popularisé par Bommasani et al. en 2021. Exemples typiques en 2026 : GPT-4, Claude, Gemini.
Source : Bommasani et al., 2021
Voir aussi : Transformer , llm-mcp
-
Neurone à état
Neurone dont la sortie dépend d'une variable interne qui évolue dans le temps (potentiel de membrane, seuil adaptatif), et donc de son histoire récente. Par opposition au neurone sans état, dont la sortie ne dépend que de l'entrée instantanée.
Voir aussi : Integrate-and-fire (intègre-et-décharge) , Réseau de neurones impulsionnel
-
Non-linéarité
Propriété d'une fonction qui n'est pas affine. Une fonction d'activation non-linéaire est obligatoire dans un réseau profond, sans quoi la composition de plusieurs couches se réduit à une seule couche affine équivalente, et la profondeur perd tout intérêt.
Voir aussi : Fonction d'activation , Couche cachée
-
Nonce
Valeur utilisée une seule fois avec une clé donnée. C'est l'unicité qui importe, non le secret : réutiliser un nonce avec la même clé brise complètement le schéma. Un nonce aléatoire de 192 bits (XChaCha20) offre une probabilité de collision négligeable, tandis qu'un compteur de 96 bits (AES-GCM, ChaCha20-Poly1305) exige une gestion rigoureuse pour ne jamais dépasser 2^32 messages par clé.
Source : RFC 8439
Voir aussi : Chiffrement authentifié (AEAD) , Séparation de domaines
-
Normalisation
Opération qui ramène un vecteur à une longueur de 1 en le divisant par sa norme, sans changer sa direction. Sur des vecteurs ainsi normalisés, la similarité cosinus se réduit au produit scalaire, et le classement par cosinus coïncide avec le classement par distance euclidienne. C'est pourquoi beaucoup de bases vectorielles normalisent les embeddings à l'entrée.
Voir aussi : Norme , Similarité cosinus , Distance euclidienne
-
Norme
Longueur d'un vecteur, mesurée par la racine carrée de la somme de ses carrés. Pour un vecteur x = (x₁, ..., xₙ), la norme ‖x‖ = √(x₁² + ... + xₙ²). C'est la généralisation du théorème de Pythagore à n dimensions.
Voir aussi : Vecteur , Produit scalaire
-
Offset
Position de lecture d'un consommateur dans un journal de messages : le numéro du prochain message qu'il lira. C'est le consommateur qui détient et fait avancer son offset, pas le journal. Deux lecteurs du même journal ont donc des offsets indépendants, et rembobiner un offset à une position antérieure suffit pour relire l'historique.
Source : Kleppmann, 2017
Voir aussi : Journal de messages , Groupe de consommateurs , Courtier de messages
-
Oracle de padding
Attaque exploitant tout signal (message d'erreur, temps de réponse, comportement observable) qui révèle si le rembourrage d'un bloc chiffré est valide. En itérant les modifications du chiffré et en observant les réponses, un attaquant peut déchiffrer le message sans connaître la clé. C'est l'une des raisons historiques majeures pour lesquelles le chiffrement seul sans authentification est dangereux.
Voir aussi : Malléabilité , Chiffrement authentifié (AEAD) , Temps constant
-
Oracle différentiel
Méthode de test qui valide un code rapide-mais-approché (ou optimisé) en comparant sa sortie à celle d'une référence lente-mais-exacte, sur la métrique qui compte vraiment. Au lieu de vérifier des propriétés locales (le résultat est bien formé), on mesure l'écart de qualité à la vérité-terrain produite par l'implémentation naïve. Indispensable quand un algorithme peut être structurellement correct mais globalement faux : recherche approchée, cache, heuristique.
Voir aussi : Recherche approchée , Rappel@k , Recherche exhaustive
-
Ordre partiel
Garantie selon laquelle les messages ne sont ordonnés qu'à l'intérieur de chaque partition, pas sur l'ensemble du journal. Un journal offre un ordre partiel, pas un ordre total : deux messages d'une même partition gardent leur ordre relatif, mais deux messages de partitions différentes n'ont aucun ordre défini entre eux. C'est pourquoi il faut une clé qui regroupe les messages causalement liés dans une même partition.
Source : Kleppmann, 2017
Voir aussi : Partition , Clé de partition , Offset
-
Orthogonalité
Deux vecteurs sont orthogonaux quand leur produit scalaire est nul. Géométriquement, cela correspond à un angle de 90 degrés entre eux. En machine learning, des entrées orthogonales contribuent indépendamment au calcul du neurone.
Voir aussi : Produit scalaire , Vecteur
-
Outbox transactionnel
Motif qui supprime le problème de la double écriture en n'écrivant qu'un seul système de façon atomique. Le service inscrit l'état métier ET une ligne décrivant le message à envoyer dans la même transaction de sa base de données. Un relais lit ensuite cette table outbox et publie les messages vers le broker. Une écriture distribuée impossible devient une écriture locale atomique suivie d'un relais.
Source : Richardson, Microservices Patterns
Voir aussi : Double écriture , Relais d'outbox , Réclamation de ligne
-
Partition
Sous-flux d'un journal de messages qui contient un sous-ensemble ordonné des messages. On découpe un journal en plusieurs partitions pour que des consommateurs les lisent en parallèle. L'ordre n'est garanti qu'à l'intérieur d'une même partition, jamais entre partitions. Chaque message est affecté à une partition selon sa clé de partition.
Source : Kleppmann, 2017
Voir aussi : Clé de partition , Ordre partiel , Journal de messages
-
Passe arrière
Phase de la rétropropagation où le signal d'erreur se propage de la sortie vers l'entrée, en sens inverse du forward pass, pour assembler le gradient de chaque poids. Elle réutilise les activations mémorisées pendant la passe avant au lieu de les recalculer.
Voir aussi : Forward pass , Backpropagation , Signal d'erreur
-
Perceptron
Premier neurone artificiel capable d'apprendre, inventé par Frank Rosenblatt en 1958. Il combine une somme pondérée des entrées avec une fonction seuil pour produire une décision binaire 0 ou 1.
Source : Rosenblatt, 1958
Voir aussi : Somme pondérée , Biais
-
Perceptron multicouches
Réseau de neurones organisé en couches successives (entrée, une ou plusieurs couches cachées, sortie), où chaque neurone applique une combinaison affine suivie d'une fonction d'activation. En empilant des neurones, il dépasse la limite du perceptron simple et réalise des fonctions non linéairement séparables comme XOR.
Source : Rumelhart, Hinton & Williams, 1986
Voir aussi : Couche cachée , Perceptron , XOR (ou exclusif) , Composition de fonctions
-
Plasticité intrinsèque
Modification durable de l'excitabilité d'un neurone par sa propre dynamique interne (seuil adaptatif, accommodation), sans changement des poids synaptiques. Une forme d'apprentissage qui ne réside pas dans les connexions mais dans l'état du neurone.
Voir aussi : Neurone à état
-
Plus proches voisins
Problème consistant à trouver, parmi un ensemble de points, les k points les plus proches d'une requête selon une mesure de distance ou de similarité. En recherche vectorielle, k plus proches voisins (k-NN) désigne les k documents dont l'embedding est le plus proche de celui de la requête.
Voir aussi : Distance euclidienne , Similarité cosinus , Recherche exhaustive
-
Potentiel de membrane
Variable interne d'un neurone à état qui mesure sa charge électrique accumulée. Il monte quand des entrées arrivent, fuit lentement vers son repos en l'absence d'entrée, et déclenche une impulsion quand il atteint un seuil, après quoi il se réinitialise.
Voir aussi : Neurone à état , Integrate-and-fire (intègre-et-décharge) , Réseau de neurones impulsionnel
-
Potentiel de repos
Différence de tension stable que la membrane d'un neurone maintient entre l'intérieur et l'extérieur de la cellule quand elle ne reçoit rien, de l'ordre de -65 millivolts. C'est la valeur vers laquelle le potentiel de membrane revient en l'absence d'entrée.
Source : Gerstner et al., 2014
Voir aussi : Potentiel de membrane , Canal ionique
-
Pouvoir expressif
Étendue des fonctions qu'un modèle peut représenter en faisant varier ses paramètres. Un perceptron simple n'exprime que des séparations linéaires ; ajouter des couches cachées élargit le pouvoir expressif jusqu'à pouvoir approcher n'importe quelle fonction continue.
Source : Goodfellow, Bengio & Courville, 2016
Voir aussi : Théorème d'approximation universelle , Perceptron multicouches , Couche cachée
-
Prédicat
Énoncé contenant une ou plusieurs variables libres, dont la valeur de vérité dépend de ce que l'on substitue à ces variables. « x > 3 » est un prédicat : il n'est ni vrai ni faux tant que x n'est pas fixé ou quantifié. Une fois toutes ses variables fixées ou liées par un quantificateur, un prédicat devient une proposition.
Voir aussi : Proposition , Quantificateur universel , Quantificateur existentiel
-
Problème des deux généraux
Résultat classique d'informatique théorique : sur un canal de communication non fiable, où chaque message peut se perdre, aucun protocole à nombre fini de messages ne permet à deux parties d'être certaines, ensemble, d'un même accord. Appliqué au messaging, il prouve que la livraison exactly-once est impossible, car l'acquittement lui-même peut se perdre : l'émetteur doit choisir entre risquer la perte ou risquer le doublon.
Source : Akkoyunlu et al., 1975
Voir aussi : Livraison au plus une fois , Livraison au moins une fois , Livraison effectivement une fois
-
Produit cartésien
Opération qui fabrique un ensemble de couples à partir de deux ensembles, notée ×. A × B est l'ensemble de tous les couples ordonnés (a, b) où a ∈ A et b ∈ B. L'ordre compte : (a, b) n'est pas (b, a). Si A a m éléments et B en a n, alors A × B en a m × n. C'est la brique de départ des relations et des fonctions.
Voir aussi : Ensemble , Appartenance
-
Produit scalaire
Opération qui prend deux vecteurs de même dimension et retourne un seul nombre, calculé comme la somme des produits coordonnée par coordonnée. C'est exactement le calcul effectué par un neurone entre ses entrées et ses poids.
Voir aussi : Vecteur , Somme pondérée
-
Proposition
Énoncé mathématique dont on peut dire sans ambiguïté s'il est vrai ou s'il est faux, sans troisième possibilité. Ce principe, appelé bivalence, est le point de départ de toute la logique propositionnelle.
Voir aussi : Connecteur logique , Table de vérité
-
Quantificateur existentiel
Le symbole ∃, qui se lit « il existe ». L'énoncé ∃x, P(x) est vrai dès qu'au moins un élément du domaine de discours rend le prédicat P vrai. Cet élément s'appelle un témoin. L'existence n'exige pas l'unicité : un ou plusieurs témoins suffisent.
Voir aussi : Prédicat , Quantificateur universel , Domaine de discours
-
Quantificateur universel
Le symbole ∀, qui se lit « pour tout » ou « quel que soit ». L'énoncé ∀x, P(x) est vrai lorsque le prédicat P est vrai pour chaque élément du domaine de discours, sans exception. Pour le mettre en défaut, il suffit d'un seul contre-exemple.
Voir aussi : Prédicat , Quantificateur existentiel , Domaine de discours , Contre-exemple
-
Quantification produit
Product Quantization (PQ). Technique de compression des vecteurs : on découpe chaque vecteur en plusieurs tranches, et dans chaque tranche on remplace le sous-vecteur par l'indice du centroïde le plus proche d'un petit dictionnaire appris (un codebook). Un vecteur devient ainsi une poignée de codes, souvent un octet chacun, au lieu de centaines de réels. La quantification produit gagne énormément de mémoire, au prix d'un rappel réduit, car les distances ne sont plus qu'estimées.
Voir aussi : Recherche approchée , Distance euclidienne , Rappel@k
-
Rappel@k
Mesure de la qualité d'une recherche approchée : la fraction des k vrais plus proches voisins (calculés par recherche exhaustive) que la méthode approchée retrouve dans ses k premiers résultats. Un rappel@k de 1 signifie qu'aucun voisin exact n'a été manqué ; un rappel@k de 0,8 signifie qu'un voisin exact sur cinq a échappé à la recherche.
Voir aussi : Plus proches voisins , Recherche exhaustive
-
Recherche approchée
Famille de méthodes (ANN, pour Approximate Nearest Neighbor) qui acceptent de manquer parfois le vrai plus proche voisin pour répondre beaucoup plus vite, ou avec beaucoup moins de mémoire. On échange un peu d'exactitude, mesurée par le rappel, contre de la vitesse ou de l'espace. Elle s'oppose à la recherche exhaustive, exacte mais coûteuse. HNSW, IVF et la quantification produit en sont les grandes familles.
Voir aussi : Recherche exhaustive , Rappel@k , HNSW
-
Recherche exhaustive
Stratégie qui compare la requête à tous les vecteurs de la base, un par un, pour en extraire les plus proches. Aussi appelée balayage linéaire ou index Flat. Elle est exacte par construction (elle ne peut rien manquer) mais son coût croît linéairement avec le nombre de vecteurs et leur dimension, en O(n x d). Elle sert d'oracle de référence pour juger les méthodes approchées.
Voir aussi : Plus proches voisins , Rappel@k
-
Recherche gloutonne
Stratégie de déplacement dans un graphe de proximité : à chaque pas, on saute vers le voisin le plus proche de la requête, et on s'arrête dès qu'aucun voisin n'est plus proche que le noeud courant. Rapide et myope, elle prend le meilleur coup local sans planifier, ce qui ne garantit pas d'atteindre le vrai plus proche voisin : elle peut rester coincée dans un minimum local.
Voir aussi : Graphe de proximite , Minimum local , Plus proches voisins
-
Réclamation de ligne
Verrou qui permet à un relais de prendre une ligne de la table outbox sans qu'un relais concurrent ne prenne la même. En SQL, la clause FOR UPDATE SKIP LOCKED : chaque relais réclame des lignes encore libres et saute celles déjà verrouillées par un autre. Sans ce verrou, plusieurs relais publieraient le même message, un double-dispatch.
Source : PostgreSQL, Documentation (SELECT FOR UPDATE SKIP LOCKED)
Voir aussi : Relais d'outbox , Outbox transactionnel
-
Règle d'apprentissage
Procédure qui met à jour les paramètres (poids, biais) d'un modèle à partir d'exemples observés. Pour le perceptron, la règle est $w \leftarrow w + \eta \cdot y \cdot x$ et $b \leftarrow b + \eta \cdot y$ appliquée seulement quand un exemple est mal classé.
Source : Rosenblatt, 1958
Voir aussi : Taux d'apprentissage , Perceptron , Descente de gradient
-
Règle de la chaîne
Règle de dérivation d'une composition de fonctions : la dérivée de f(g(x)) est f'(g(x)) multiplié par g'(x). On multiplie les dérivées locales le long du chemin. C'est le coeur mécanique de la rétropropagation.
Voir aussi : Dérivée , Composition de fonctions , Backpropagation
-
Régression
Tâche d'apprentissage supervisé consistant à prédire une valeur continue (un prix, une température, une probabilité). Utilise typiquement l'identité comme activation de sortie et MSE comme fonction de coût.
Voir aussi : Fonction de coût , Fonction d'activation
-
Relais d'outbox
Processus qui lit la table outbox, publie vers le broker les messages en attente, puis les marque comme envoyés. Il tourne séparément du service métier. Comme il peut publier un message puis tomber avant de le marquer envoyé, il le republiera : sa livraison est au moins une fois, et les doublons sont absorbés en aval par un consommateur idempotent.
Source : Richardson, Microservices Patterns
Voir aussi : Outbox transactionnel , Livraison au moins une fois , Réclamation de ligne
-
ReLU
Fonction d'activation définie par ReLU(x) = max(0, x). Linéaire pour les valeurs positives, nulle pour les négatives. Simple, rapide à calculer, et résout en grande partie le problème du gradient qui disparaît. Standard de fait dans les couches cachées des réseaux profonds depuis 2012.
Source : Nair et Hinton, 2010
Voir aussi : Fonction d'activation , Sigmoïde
-
Requête-réponse
Schéma d'échange où l'émetteur envoie une requête puis attend, sur un canal de retour, la réponse correspondante. C'est le motif naturel de la requête : « Quel est le solde ? » appelle « 240 points ». Pour relier chaque réponse à sa requête quand plusieurs circulent, on attache souvent un identifiant de corrélation. Décrit par Hohpe & Woolf sous le nom Request-Reply.
Source : Hohpe & Woolf, 2003
Voir aussi : Message de requête , Séparation commande-requête
-
Réseau de neurones impulsionnel
Famille de réseaux de neurones qui communiquent par impulsions discrètes dans le temps (spikes), plus proches du fonctionnement biologique que les réseaux classiques continus. Domaine de recherche actif, peu utilisé en pratique industrielle pour l'instant.
Voir aussi : Calcul neuromorphique
-
Réseau petit monde
Réseau qui combine beaucoup de liens locaux (vers des voisins proches) et quelques rares liens longue portée (vers des régions éloignées). Ces raccourcis effondrent la longueur des chemins : pour traverser le réseau, le nombre de sauts croît comme le logarithme du nombre de noeuds plutôt que comme leur nombre. C'est le principe des six degrés de séparation, et le coeur de l'efficacité de HNSW.
Voir aussi : Graphe de proximite , HNSW
-
Saturation
Phénomène par lequel une fonction d'activation atteint une valeur quasi-constante (et donc une dérivée quasi-nulle) sur de larges régions de son domaine. La sigmoïde sature pour les valeurs très négatives ou très positives, ce qui provoque le vanishing gradient.
Voir aussi : Sigmoïde , Vanishing gradient
-
Séparation commande-requête
Principe de conception selon lequel une opération doit soit changer l'état du système sans rien renvoyer d'utile (une commande), soit renvoyer une donnée sans rien changer (une requête), jamais les deux à la fois. Énoncé par Bertrand Meyer (Command-Query Separation, CQS), il rend chaque message lisible : on sait au premier coup d'oeil s'il écrit ou s'il lit. C'est la ligne qui sépare proprement la commande de la requête.
Source : Meyer, 1988
Voir aussi : Message de commande , Message de requête
-
Séparation de domaines
Technique consistant à dériver des clés ou des contextes distincts pour chaque rôle ou usage, de sorte qu'un chiffré valide dans un domaine ne puisse pas être rejoué dans un autre. Elle s'implémente typiquement via des données associées spécifiques au rôle, des préfixes de dérivation de clé ou des octets de version. Elle est essentielle pour prévenir les attaques par confusion de contexte.
Voir aussi : Données associées (AAD) , Nonce , Crypto-agilité
-
Sigmoïde
Fonction d'activation en forme de S qui prend n'importe quel nombre réel et le compresse dans l'intervalle ]0, 1[. Sa formule est σ(x) = 1 / (1 + e⁻ˣ). Historiquement la plus utilisée, elle est aujourd'hui souvent remplacée par ReLU dans les couches cachées.
Voir aussi : Fonction d'activation , ReLU
-
Signal d'erreur
Sensibilité de la perte à la pré-activation d'un neurone, notée delta = dL/dz. Elle mesure de combien la note changerait si l'entrée nette du neurone variait d'un cheveu. La rétropropagation calcule ce signal pour chaque neurone, de la sortie vers l'entrée, puis en déduit le gradient de chaque poids par la règle dL/dw = delta multiplié par l'activation amont.
Voir aussi : Backpropagation , Gradient , Dérivée partielle
-
Similarité cosinus
Mesure de proximité entre deux vecteurs, définie comme cos(θ) = (x · w) / (‖x‖ ‖w‖), valeur dans [-1, 1]. Égale à 1 quand les vecteurs sont alignés, 0 quand orthogonaux, -1 opposés. Outil standard pour comparer des embeddings (mots, phrases, images).
Voir aussi : Produit scalaire , Norme , Inégalité de Cauchy-Schwarz
-
Softmax
Fonction qui prend un vecteur de réels et le transforme en distribution de probabilités. Pour un vecteur z, softmax(z)_i = exp(z_i) / somme(exp(z_j)). Utilisée comme activation de sortie pour la classification multi-classe.
Voir aussi : Sigmoïde , Fonction d'activation
-
Somme pondérée
Addition de plusieurs valeurs, chacune multipliée par un coefficient appelé poids. Formule générale Σ wᵢ xᵢ. C'est le cœur du calcul du neurone artificiel, avant l'ajout du biais et l'application de la fonction d'activation.
Voir aussi : Biais , Fonction d'activation
-
Surface de coût
Graphe du coût vu comme une fonction des poids du réseau, les données étant fixées. Chaque jeu de poids est un point, et son altitude est le coût correspondant. Apprendre revient à descendre vers un creux de ce relief, ce que feront les chapitres sur le gradient.
Source : Goodfellow, Bengio & Courville, 2016
Voir aussi : Fonction de coût , Descente de gradient
-
Table de vérité
Tableau qui donne la valeur de vérité d'une formule logique pour chacune des combinaisons possibles des valeurs de ses variables. Pour n variables, elle comporte 2ⁿ lignes.
Voir aussi : Proposition , Connecteur logique
-
Tag d'authentification
Valeur courte (typiquement 128 bits) produite par un algorithme AEAD ou un MAC, et vérifiée lors du déchiffrement. Toute modification du chiffré, des données associées ou du nonce invalide le tag et fait échouer l'ouverture. Il garantit à la fois l'intégrité et l'authenticité du message.
Voir aussi : Chiffrement authentifié (AEAD) , Données associées (AAD) , Malléabilité
-
Tanh
Tangente hyperbolique, fonction d'activation similaire à la sigmoïde mais compressant les valeurs dans ]-1, 1[ au lieu de ]0, 1[. Souvent utilisée quand on veut une sortie centrée sur zéro. Sa formule est tanh(x) = (eˣ - e⁻ˣ) / (eˣ + e⁻ˣ).
Voir aussi : Fonction d'activation , Sigmoïde
-
Tautologie
Proposition qui est vraie quelles que soient les valeurs de vérité de ses composantes. Exemple : P ∨ ¬P (principe du tiers exclu). Son opposée est la contradiction, toujours fausse.
Voir aussi : Proposition , Table de vérité
-
Taux d'apprentissage
Scalaire positif qui contrôle la taille du pas effectué par la descente de gradient à chaque itération. Trop petit, l'apprentissage est lent ; trop grand, il oscille ou diverge. Souvent noté η (eta) ou α (alpha). C'est le premier hyperparamètre à régler dans tout entraînement.
Voir aussi : Descente de gradient
-
Temps constant
Propriété d'une implémentation dont la durée d'exécution ne dépend pas des valeurs secrètes traitées, éliminant les canaux auxiliaires temporels. Elle est indispensable pour la comparaison de tags d'authentification et pour les opérations cryptographiques sensibles. ChaCha20-Poly1305 est naturellement en temps constant en logiciel, tandis qu'AES nécessite des instructions matérielles (AES-NI) pour atteindre cette propriété.
Voir aussi : Tag d'authentification , Oracle de padding , Chiffrement authentifié (AEAD)
-
Test métamorphique
Technique de test qui vérifie une RELATION attendue entre plusieurs exécutions plutôt qu'une valeur de sortie exacte, utile quand la bonne réponse est inconnue ou trop coûteuse à calculer (le problème de l'oracle). Exemple : permuter l'ordre des entrées ne doit pas changer le résultat, ou doubler une entrée doit doubler la sortie. L'oracle différentiel en est un cas particulier, où la relation vérifiée est l'égalité à une référence exacte.
Voir aussi : Oracle différentiel , Recherche approchée
-
Théorème d'approximation universelle
Résultat (Cybenko 1989, Hornik 1989) établissant qu'un réseau à une seule couche cachée, avec assez de neurones et une activation non polynomiale, peut approcher d'aussi près qu'on veut n'importe quelle fonction continue sur un domaine borné. Il garantit l'existence d'un tel réseau, pas qu'on sache l'apprendre.
Source : Cybenko, 1989 ; Hornik, 1989
Voir aussi : Perceptron multicouches , Pouvoir expressif , Couche cachée
-
Théorème de Novikoff
Si un jeu de données est linéairement séparable avec marge géométrique $\gamma > 0$ et rayon $R = \max_i \|x_i\|$, alors l'algorithme du perceptron initialisé à zéro converge en au plus $T \leq (R / \gamma)^2$ corrections, quelle que soit la valeur du taux d'apprentissage.
Source : Novikoff, 1962
Voir aussi : Perceptron , Linéairement séparable , Marge géométrique , Inégalité de Cauchy-Schwarz
-
Transformer
Architecture de réseau de neurones introduite en 2017 par Vaswani et al. dans l'article "Attention is all you need". Basée sur le mécanisme d'attention, elle domine aujourd'hui le traitement du langage et s'étend à la vision et au son. C'est la fondation des modèles comme GPT, Claude, Gemini.
Source : Vaswani et al., 2017
Voir aussi : llm-mcp
-
Union
Opération qui réunit deux ensembles, notée ∪. A ∪ B est l'ensemble des objets qui appartiennent à A ou à B (ou aux deux). Sa condition d'appartenance est une disjonction : x ∈ A ∪ B équivaut à « x ∈ A ou x ∈ B ». L'union est au « ou » logique ce que l'objet est au connecteur.
Voir aussi : Intersection , Complémentaire , Connecteur logique
-
Vanishing gradient
Disparition du gradient dans les couches profondes d'un réseau. Quand la dérivée maximale d'une fonction d'activation est inférieure à 1, le gradient se multiplie à chaque couche traversée et s'écrase exponentiellement. Identifié par Glorot et Bengio (2010), c'est l'une des raisons du passage à ReLU.
Source : Glorot et Bengio, 2010
Voir aussi : Sigmoïde , ReLU , Saturation
-
Vecteur
Objet mathématique représenté comme une liste ordonnée de nombres. Un vecteur de dimension n encode n valeurs. En machine learning, les entrées d'un neurone et ses poids sont chacun un vecteur de même dimension.
Voir aussi : Produit scalaire
-
Vecteur normal
Vecteur $w$ qui définit la direction perpendiculaire à un hyperplan d'équation $w \cdot x + b = 0$. Sa direction indique de quel côté de l'hyperplan se trouve un point ; sa norme fixe l'échelle de la distance signée.
Source : Bishop, PRML, ch. 4
Voir aussi : Hyperplan , Produit scalaire , Norme
-
XOR (ou exclusif)
Opération logique qui vaut 1 quand exactement une de ses deux entrées vaut 1, et 0 sinon. Ses cas positifs sont en diagonale dans le plan 2D, ce qui les rend non séparables par une seule droite. Cela rend XOR impossible à apprendre pour un perceptron unique.
Source : Minsky et Papert, 1969
Voir aussi : Perceptron