Réseaux de neurones : fondations et mathématiques · 02 / 09

Algèbre linéaire essentielle

Vecteurs, produits scalaires et matrices, exactement ce qu'il faut pour parler aux réseaux de neurones dans leur langue.

Tu viens de voir au chapitre précédent que la formule du neurone s’écrit en notation vectorielle $y = f(\mathbf{w} \cdot \mathbf{x} + b)$ . Ce chapitre installe les briques mathématiques cachées derrière cette notation. L’objectif : que tu lises $\mathbf{w} \cdot \mathbf{x}$ sans buter, et que tu comprennes ce que ça raconte géométriquement.

Le vecteur, une liste ordonnée de nombres

Définition

Un vecteur de dimension $n$ est une liste ordonnée de $n$ nombres réels. On le note typiquement avec une lettre en gras et entre parenthèses ou crochets :

\mathbf{x} = (x_1, x_2, \dots, x_n) \in \mathbb{R}^n

Le symbole $\mathbb{R}^n$ se lit « R puissance n » et désigne l’ensemble de toutes les listes ordonnées de $n$ nombres réels. Chaque $x_i$ est appelée la $i$ -ième coordonnée ou composante du vecteur.

Pourquoi des vecteurs en machine learning

Tout ce que tu peux décrire par une liste de nombres est un vecteur. Quelques exemples :

L’image d’un chiffre manuscrit de 28×28 pixels en niveau de gris : un vecteur de dimension $784$ (chaque pixel donne une valeur entre 0 et 1).
Un patient médical caractérisé par âge, tension, glycémie, cholestérol : un vecteur de dimension 4.
Les entrées d’un neurone $x_1, x_2, x_3$ que tu as vues au chapitre 1 : un vecteur de dimension 3.

Les poids d’un neurone forment eux aussi un vecteur, de la même dimension que les entrées. C’est cette correspondance qui rend le produit scalaire possible.

Le produit scalaire

Définition

Le produit scalaire de deux vecteurs $\mathbf{x}, \mathbf{w} \in \mathbb{R}^n$ est le nombre réel :

\mathbf{x} \cdot \mathbf{w} = \sum_{i=1}^{n} x_i w_i = x_1 w_1 + x_2 w_2 + \dots + x_n w_n

C’est une opération qui prend deux vecteurs et retourne un seul nombre. On la lit « x point w » ou « produit scalaire de x et w ».

Exemple chiffré

Reprenons l’exemple de l’arbitre de foot. C’est exactement la même somme pondérée que dans le chapitre 1, écrite cette fois avec la notation vectorielle :

\mathbf{x} = (1, 0, 1), \quad \mathbf{w} = (0{,}8,\ 0{,}5,\ 0{,}9)

Le produit scalaire vaut :

\mathbf{x} \cdot \mathbf{w} = 1 \times 0{,}8 + 0 \times 0{,}5 + 1 \times 0{,}9 = 1{,}7

C’est la somme pondérée du neurone, sans le biais. En ajoutant $b = -0{,}5$ , on obtient bien $z = 1{,}7 - 0{,}5 = 1{,}2$ comme au chapitre précédent.

Voir deux vecteurs interagir

Le composant ci-dessous dessine deux vecteurs $\mathbf{x}$ et $\mathbf{w}$ dans le plan. Bouge les curseurs et observe trois choses simultanément : le produit scalaire change, mais aussi la norme et l’angle entre eux. Quand l’angle approche $90°$ , le produit scalaire tombe à zéro : les vecteurs deviennent orthogonaux .

x₁ = 1.20x₂ = 0.60

w₁ = 0.60w₂ = 1.20

Produit scalaire x·w = 1.44

Norme ‖x‖ = 1.34 ‖w‖ = 1.34

Angle θ = 36.9°

Joue avec les coordonnées. Quand les flèches pointent dans la même direction, le produit scalaire est maximal. Quand elles sont perpendiculaires, il vaut zéro.

Figure : deux vecteurs et leur produit scalaire (interactif)

Plan 2D qui dessine deux vecteurs x=(1,2 ; 0,6) et w=(0,6 ; 1,2) depuis l'origine. Les curseurs bougent les pointes des deux vecteurs et affichent simultanément trois quantités : le produit scalaire x·w, les normes ‖x‖ et ‖w‖, et l'angle entre eux. Quand l'angle approche 90°, le produit scalaire tombe à zéro : les vecteurs sont orthogonaux.

Trois expériences à tenter :

Aligne les deux vecteurs sur la même direction (par exemple $\mathbf{x} = \mathbf{w}$ ). Le produit scalaire devient maximal, et égal à $\|\mathbf{x}\| \cdot \|\mathbf{w}\|$ .
Place-les perpendiculairement (par exemple $\mathbf{x} = (1, 0)$ et $\mathbf{w} = (0, 1)$ ). Le produit scalaire est exactement zéro.
Inverse la direction de $\mathbf{w}$ (mets $w_1$ et $w_2$ négatifs). Le produit scalaire devient négatif, car les flèches pointent dans des directions opposées.

Pour aller plus loin et démontrer que la formulation géométrique du produit scalaire n’est pas une définition tombée du ciel mais bien une conséquence de la définition algébrique, il nous faut d’abord deux outils : la norme d’un vecteur et une identité de calcul sur les normes. On les installe maintenant, puis on les utilisera dans la section sur l’inégalité de Cauchy-Schwarz.

Norme et distance

La norme (ou longueur) d’un vecteur $\mathbf{x} \in \mathbb{R}^n$ est définie par le produit scalaire avec lui-même :

\|\mathbf{x}\| = \sqrt{\mathbf{x} \cdot \mathbf{x}} = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}

C’est la généralisation du théorème de Pythagore en $n$ dimensions. En 2D, $\|(x_1, x_2)\| = \sqrt{x_1^2 + x_2^2}$ , soit la longueur de l’hypoténuse d’un triangle rectangle.

La distance entre deux vecteurs $\mathbf{u}$ et $\mathbf{v}$ est la norme de leur différence : $\|\mathbf{u} - \mathbf{v}\|$ . C’est ce qui te permet de mesurer « à quel point deux images se ressemblent » quand chaque image est représentée comme un vecteur.

Démonstration utile : l’identité du carré scalaire

Une propriété revient sans cesse en machine learning. On l’établit ici une fois pour toutes, à partir des définitions :

\|\mathbf{x} + \mathbf{w}\|^2 = \|\mathbf{x}\|^2 + 2\,\mathbf{x} \cdot \mathbf{w} + \|\mathbf{w}\|^2

Cette identité, c’est exactement le théorème de Pythagore généralisé. Conséquence immédiate : si $\mathbf{x}$ et $\mathbf{w}$ sont orthogonaux ( $\mathbf{x} \cdot \mathbf{w} = 0$ ), alors $\|\mathbf{x} + \mathbf{w}\|^2 = \|\mathbf{x}\|^2 + \|\mathbf{w}\|^2$ . Pythagore dans toute sa splendeur, sans triangle ni angle droit explicite.

Cauchy-Schwarz, ou pourquoi la formule géométrique est légitime

Beaucoup de cours présentent la formule $\mathbf{x} \cdot \mathbf{w} = \|\mathbf{x}\| \, \|\mathbf{w}\| \cos(\theta)$ comme une seconde définition du produit scalaire, tombée du ciel. Ce n’est pas honnête. La bonne lecture est inverse : on définit le produit scalaire algébriquement (somme des produits coordonnée par coordonnée), on démontre une inégalité fondamentale, et c’est cette inégalité qui rend la formule géométrique légitime.

L’inégalité de Cauchy-Schwarz énonce que pour tous vecteurs $\mathbf{x}, \mathbf{w} \in \mathbb{R}^n$ :

|\mathbf{x} \cdot \mathbf{w}| \leq \|\mathbf{x}\| \cdot \|\mathbf{w}\|

L’égalité a lieu si et seulement si les deux vecteurs sont colinéaires (l’un est un multiple scalaire de l’autre).

Démonstration : Cauchy-Schwarz par le discriminant

Si $\mathbf{w} = \mathbf{0}$ , l’inégalité est triviale (les deux membres valent $0$ ). On suppose donc $\mathbf{w} \neq \mathbf{0}$ .

Étape 1. On introduit le polynôme du second degré en $t \in \mathbb{R}$ :

P(t) = \|\mathbf{x} + t\mathbf{w}\|^2

Une norme au carré est toujours positive ou nulle, donc $P(t) \geq 0$ pour tout $t$ .

Étape 2. On développe $P(t)$ grâce à l’identité du carré scalaire prouvée juste au-dessus :

P(t) = \|\mathbf{x}\|^2 + 2 t \, (\mathbf{x} \cdot \mathbf{w}) + t^2 \|\mathbf{w}\|^2

C’est un polynôme du second degré en $t$ , de coefficient dominant $\|\mathbf{w}\|^2 > 0$ .

Étape 3. Un polynôme du second degré à coefficient dominant strictement positif est toujours positif ou nul si et seulement si son discriminant est négatif ou nul (sinon il aurait deux racines réelles distinctes et prendrait des valeurs strictement négatives entre les deux).

Le discriminant vaut :

\Delta = (2 \, \mathbf{x} \cdot \mathbf{w})^2 - 4 \, \|\mathbf{x}\|^2 \, \|\mathbf{w}\|^2 = 4 \left[ (\mathbf{x} \cdot \mathbf{w})^2 - \|\mathbf{x}\|^2 \, \|\mathbf{w}\|^2 \right]

Étape 4. La condition $\Delta \leq 0$ s’écrit donc :

(\mathbf{x} \cdot \mathbf{w})^2 \leq \|\mathbf{x}\|^2 \, \|\mathbf{w}\|^2

En prenant la racine carrée (les deux membres sont positifs) :

|\mathbf{x} \cdot \mathbf{w}| \leq \|\mathbf{x}\| \, \|\mathbf{w}\|

Résultat. L’inégalité de Cauchy-Schwarz est démontrée. L’égalité a lieu si et seulement si $\Delta = 0$ , c’est-à-dire si $P$ admet une racine double $t_0$ , c’est-à-dire si $\mathbf{x} + t_0 \mathbf{w} = \mathbf{0}$ , autrement dit si $\mathbf{x}$ et $\mathbf{w}$ sont colinéaires. ∎

Maintenant qu’on a la borne $|\mathbf{x} \cdot \mathbf{w}| \leq \|\mathbf{x}\| \, \|\mathbf{w}\|$ , on peut diviser sans risque. Pour $\mathbf{x}, \mathbf{w}$ non nuls, on définit :

\cos\theta \;:=\; \dfrac{\mathbf{x} \cdot \mathbf{w}}{\|\mathbf{x}\| \, \|\mathbf{w}\|}

Cette quantité est bien dans $[-1, 1]$ grâce à Cauchy-Schwarz. On peut donc l’identifier au cosinus d’un unique angle $\theta \in [0, \pi]$ . En réarrangeant, on récupère exactement la formule géométrique :

\mathbf{x} \cdot \mathbf{w} = \|\mathbf{x}\| \, \|\mathbf{w}\| \cos(\theta)

Mais elle n’est plus un postulat mystérieux : c’est une conséquence directe de la définition algébrique et de Cauchy-Schwarz.

Pourquoi cette définition coïncide avec l'angle euclidien en 2D

On a défini $\cos\theta$ par une formule purement algébrique. Il reste à vérifier qu’en dimension 2, ce $\theta$ coïncide bien avec l’angle géométrique entre les deux vecteurs.

Étape 1. Quitte à tourner le repère (ce qui ne change ni les longueurs ni les angles), on peut choisir des axes tels que $\mathbf{x}$ pointe selon le premier axe :

\mathbf{x} = (\|\mathbf{x}\|,\ 0)

Étape 2. Soit $\alpha \in [0, \pi]$ l’angle géométrique entre $\mathbf{x}$ et $\mathbf{w}$ . Par définition des coordonnées polaires, $\mathbf{w}$ s’écrit :

\mathbf{w} = \big( \, \|\mathbf{w}\| \cos\alpha, \ \|\mathbf{w}\| \sin\alpha \, \big)

Étape 3. On calcule le produit scalaire directement :

\mathbf{x} \cdot \mathbf{w} = \|\mathbf{x}\| \cdot \|\mathbf{w}\| \cos\alpha + 0 \cdot \|\mathbf{w}\| \sin\alpha = \|\mathbf{x}\| \, \|\mathbf{w}\| \cos\alpha

Étape 4. On substitue dans la définition algébrique de $\cos\theta$ :

\cos\theta = \dfrac{\|\mathbf{x}\| \, \|\mathbf{w}\| \cos\alpha}{\|\mathbf{x}\| \, \|\mathbf{w}\|} = \cos\alpha

Résultat. Comme $\theta$ et $\alpha$ appartiennent tous deux à $[0, \pi]$ , et que $\cos$ est injectif sur cet intervalle, on conclut $\theta = \alpha$ . La définition algébrique de $\cos\theta$ reproduit exactement l’angle géométrique euclidien. ∎

Les conséquences usuelles de la formule géométrique se lisent immédiatement sur la fonction cosinus :

Si $\theta = 0$ (vecteurs alignés dans le même sens), $\cos(\theta) = 1$ : produit scalaire maximal.
Si $\theta = 90°$ (vecteurs perpendiculaires), $\cos(\theta) = 0$ : produit scalaire nul.
Si $\theta = 180°$ (vecteurs opposés), $\cos(\theta) = -1$ : produit scalaire minimal.

Géométriquement, le produit scalaire mesure à quel point deux vecteurs pointent dans la même direction, pondéré par leurs longueurs. C’est exactement ce que veut savoir un neurone : « mes entrées ressemblent-elles à mes poids ? »

En machine learning, l’inégalité de Cauchy-Schwarz garantit aussi que tu peux toujours normaliser un produit scalaire par les longueurs pour obtenir une mesure dans $[-1, 1]$ , appelée similarité cosinus. C’est l’outil de base pour comparer deux représentations vectorielles, par exemple deux embeddings de mots ou de phrases.

Transposée et produit matriciel

Avant d’empiler les neurones pour former une couche, il manque deux opérations matricielles qui reviendront partout dans les réseaux profonds : transposer une matrice et multiplier deux matrices entre elles. Ces deux opérations sont la suite directe du produit scalaire vu plus haut.

La transposée

La transposée d’une matrice $A \in \mathbb{R}^{m \times n}$ , notée $A^T$ , est la matrice obtenue en échangeant ses lignes et ses colonnes. Formellement :

A^T \in \mathbb{R}^{n \times m} \quad \text{avec} \quad (A^T)_{ij} = A_{ji}

Exemple concret avec une matrice $2 \times 3$ qui devient $3 \times 2$ :

A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} \quad \Longrightarrow \quad A^T = \begin{pmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{pmatrix}

La première ligne de $A$ devient la première colonne de $A^T$ , et ainsi de suite.

Le produit matrice-matrice

Le produit matriciel généralise le produit matrice-vecteur. Pour $A \in \mathbb{R}^{m \times n}$ et $B \in \mathbb{R}^{n \times p}$ , leur produit $AB$ appartient à $\mathbb{R}^{m \times p}$ et a pour coefficients :

(AB)_{ij} = \sum_{k=1}^{n} A_{ik} \, B_{kj}

Condition de compatibilité : le nombre de colonnes de $A$ doit être égal au nombre de lignes de $B$ (ici $n$ dans les deux cas). Sinon, le produit n’est pas défini.

Mini-exemple chiffré en dimensions $2 \times 2$ :

\begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} \begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix} = \begin{pmatrix} 1 \cdot 0 + 2 \cdot 1 & 1 \cdot 1 + 2 \cdot 1 \\ 3 \cdot 0 + 4 \cdot 1 & 3 \cdot 1 + 4 \cdot 1 \end{pmatrix} = \begin{pmatrix} 2 & 3 \\ 4 & 7 \end{pmatrix}

Propriété $(AB)^T = B^T A^T$

Une règle qui revient sans cesse en machine learning : la transposée d’un produit est égale au produit des transposées dans l’ordre inverse.

(AB)^T = B^T A^T

C’est une démonstration courte par comparaison directe des coefficients.

Étape 1. On compare les coefficients $(i, j)$ des deux matrices. Par définition de la transposée :

\big( (AB)^T \big)_{ij} = (AB)_{ji}

Étape 2. Par définition du produit matriciel :

(AB)_{ji} = \sum_{k=1}^{n} A_{jk} \, B_{ki}

Étape 3. Dans cette somme, on reconnaît des coefficients transposés : $A_{jk} = (A^T)_{kj}$ et $B_{ki} = (B^T)_{ik}$ . On réécrit :

\sum_{k=1}^{n} A_{jk} \, B_{ki} = \sum_{k=1}^{n} (B^T)_{ik} \, (A^T)_{kj}

Noter l’inversion de l’ordre : $B^T$ vient avant $A^T$ et leurs indices s’enchaînent correctement (ce sont eux qui partagent l’indice de sommation $k$ ).

Étape 4. Cette somme est exactement le coefficient $(i, j)$ du produit $B^T A^T$ :

\sum_{k=1}^{n} (B^T)_{ik} \, (A^T)_{kj} = (B^T A^T)_{ij}

Résultat. Pour tous $i, j$ , $\big( (AB)^T \big)_{ij} = (B^T A^T)_{ij}$ , donc les deux matrices sont égales : $(AB)^T = B^T A^T$ . ∎

Maintenant qu’on a la transposée et le produit matrice-matrice, on peut enfin empiler les neurones d’une couche dans une seule matrice et écrire la sortie complète d’un coup.

Empiler les neurones

Qu’est-ce qu’une matrice

Une matrice de taille $m \times n$ est un tableau rectangulaire de nombres rangés en $m$ lignes et $n$ colonnes :

W = \begin{pmatrix} w_{11} & w_{12} & \cdots & w_{1n} \\ w_{21} & w_{22} & \cdots & w_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ w_{m1} & w_{m2} & \cdots & w_{mn} \end{pmatrix} \in \mathbb{R}^{m \times n}

L’élément $w_{ji}$ se lit « ligne $j$ , colonne $i$ ». Chaque ligne, prise comme un vecteur de dimension $n$ , est elle-même un vecteur de $\mathbb{R}^n$ .

Du vecteur à la couche entière

Une seule couche de $m$ neurones, chacun ayant $n$ entrées, peut s’écrire en utilisant une matrice de poids $W \in \mathbb{R}^{m \times n}$ . Chaque ligne $\mathbf{w}_j$ de $W$ contient les poids du $j$ -ième neurone.

Pour calculer toutes les sorties de la couche d’un coup, on utilise la multiplication matrice-vecteur :

W \mathbf{x} = \begin{pmatrix} \mathbf{w}_1 \cdot \mathbf{x} \\ \mathbf{w}_2 \cdot \mathbf{x} \\ \vdots \\ \mathbf{w}_m \cdot \mathbf{x} \end{pmatrix}

C’est une opération qui prend un vecteur et en retourne un autre, où chaque coordonnée du résultat est un produit scalaire. On en reparlera en détail au chapitre 5 quand on construira un réseau multi-couches.

En une phrase

Un vecteur est une liste ordonnée de $n$ nombres. Le produit scalaire de deux vecteurs est la somme de leurs produits coordonnée par coordonnée. Et un neurone calcule exactement ce produit scalaire entre ses entrées et ses poids, avec un biais ajouté.

Vers le chapitre 3

Le neurone ne s’arrête pas au produit scalaire : il applique ensuite une fonction d’activation $f$ pour transformer le résultat brut en valeur interprétable. Au chapitre 1 on l’a survolée, au chapitre 2 on a posé les briques mathématiques autour. Le chapitre 3 t’apporte enfin la pièce qui manque.

Tu vas y voir, démonstration matricielle à l’appui, que l’absence de non-linéarité fait s’effondrer un empilement de matrices en une seule. Concrètement, si une première couche calcule $\mathbf{h} = W_1 \mathbf{x}$ et une seconde $\mathbf{y} = W_2 \mathbf{h}$ , alors :

\mathbf{y} = W_2 (W_1 \mathbf{x}) = (W_2 W_1) \, \mathbf{x}

Grâce au produit matrice-matrice que tu viens d’apprendre, $W_2 W_1$ est une seule matrice. Deux couches sans activation se réduisent donc à une seule. C’est le théorème central du chapitre 3, et il justifie à lui seul l’existence des fonctions d’activation non linéaires (sigmoïde, ReLU, tanh) que tu apprendras à comparer et à choisir.

Exercices

Exercice 1 : calculer un produit scalaire

Soit $\mathbf{x} = (2, -1, 3)$ et $\mathbf{w} = (1, 4, -2)$ . Calculer $\mathbf{x} \cdot \mathbf{w}$ .

Exercice 2 : norme d’un vecteur

Calculer la norme du vecteur $\mathbf{u} = (3, 4)$ en utilisant la définition.

Exercice 3 : produit scalaire et orthogonalité

Trouver une valeur de $a$ telle que les vecteurs $\mathbf{x} = (a, 1)$ et $\mathbf{w} = (2, 1)$ soient orthogonaux (produit scalaire nul).

Exercice 4 : démontrer $(AB)^T = B^T A^T$ sur du concret

Soit $A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}$ et $B = \begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix}$ .

(a) Calculer $AB$ .

(b) Calculer $(AB)^T$ .

(d) Calculer $B^T A^T$ .

(e) Vérifier que $(AB)^T = B^T A^T$ .

Corrigé de l'exercice 1 : calculer un produit scalaire

On a $\mathbf{x} = (2, -1, 3)$ et $\mathbf{w} = (1, 4, -2)$ .

Étape 1. On écrit la formule générale du produit scalaire en dimension 3 :

\mathbf{x} \cdot \mathbf{w} = x_1 w_1 + x_2 w_2 + x_3 w_3

Étape 2. On substitue les coordonnées :

\mathbf{x} \cdot \mathbf{w} = 2 \times 1 + (-1) \times 4 + 3 \times (-2)

Étape 3. On calcule chaque produit séparément :

2 \times 1 = 2

(-1) \times 4 = -4

3 \times (-2) = -6

Étape 4. On additionne les trois résultats :

\mathbf{x} \cdot \mathbf{w} = 2 + (-4) + (-6) = 2 - 4 - 6 = -8

Résultat. $\mathbf{x} \cdot \mathbf{w} = -8$ .

Corrigé de l'exercice 3 : produit scalaire et orthogonalité

On a $\mathbf{x} = (a, 1)$ et $\mathbf{w} = (2, 1)$ . On cherche $a$ tel que $\mathbf{x} \cdot \mathbf{w} = 0$ .

Étape 1. On écrit le produit scalaire en fonction de $a$ :

\mathbf{x} \cdot \mathbf{w} = a \times 2 + 1 \times 1 = 2a + 1

Étape 2. On pose l’équation d’orthogonalité :

2a + 1 = 0

Étape 3. On résout pour $a$ :

2a = -1

a = -\dfrac{1}{2}

Étape 4. Vérification avec $\mathbf{x} = (-\tfrac{1}{2}, 1)$ et $\mathbf{w} = (2, 1)$ :

\mathbf{x} \cdot \mathbf{w} = \left(-\dfrac{1}{2}\right) \times 2 + 1 \times 1 = -1 + 1 = 0

Résultat. $a = -\dfrac{1}{2}$ . Les deux vecteurs sont alors orthogonaux. ✓

Corrigé de l'exercice 4 : démontrer $(AB)^T = B^T A^T$ sur du concret

Données : $A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}$ , $B = \begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix}$ .

Étape 1. Calcul de $AB$ . Chaque coefficient est un produit scalaire de la ligne de $A$ par la colonne de $B$ .

(AB)_{11} = 1 \times 0 + 2 \times 1 = 2

(AB)_{12} = 1 \times 1 + 2 \times 1 = 3

(AB)_{21} = 3 \times 0 + 4 \times 1 = 4

(AB)_{22} = 3 \times 1 + 4 \times 1 = 7

Donc :

AB = \begin{pmatrix} 2 & 3 \\ 4 & 7 \end{pmatrix}

Étape 2. Calcul de $(AB)^T$ en échangeant lignes et colonnes :

(AB)^T = \begin{pmatrix} 2 & 4 \\ 3 & 7 \end{pmatrix}

Étape 3. Calcul de $A^T$ et $B^T$ :

A^T = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix}, \qquad B^T = \begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix}

Noter que $B$ est symétrique : $B^T = B$ .

Étape 4. Calcul de $B^T A^T$ coefficient par coefficient :

(B^T A^T)_{11} = 0 \times 1 + 1 \times 2 = 2

(B^T A^T)_{12} = 0 \times 3 + 1 \times 4 = 4

(B^T A^T)_{21} = 1 \times 1 + 1 \times 2 = 3

(B^T A^T)_{22} = 1 \times 3 + 1 \times 4 = 7

Donc :

B^T A^T = \begin{pmatrix} 2 & 4 \\ 3 & 7 \end{pmatrix}

Étape 5. Comparaison.

(AB)^T = \begin{pmatrix} 2 & 4 \\ 3 & 7 \end{pmatrix} = B^T A^T

Résultat. L’égalité $(AB)^T = B^T A^T$ est vérifiée sur ce cas concret. ✓ Noter que si l’on avait calculé $A^T B^T$ (mauvais ordre), on aurait obtenu une autre matrice : c’est l’ordre inversé qui est crucial.

Sources

Anton, H. & Rorres, C. (2010). Elementary Linear Algebra, 10e édition. Wiley. Chapitres 1 à 3 pour la base.
Strang, G. (2016). Introduction to Linear Algebra, 5e édition. Wellesley-Cambridge Press. Cours en ligne MIT OCW gratuit et excellent.

Pour aller plus loin

Strang, G. (cours en ligne MIT 18.06 Linear Algebra). Vidéos accessibles à tout niveau, le standard de l’enseignement de l’algèbre linéaire dans les grandes écoles. ocw.mit.edu
3Blue1Brown, série Essence of Linear Algebra. Visualisations remarquables des concepts clés, francophone via les sous-titres. youtube.com/playlist
Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep Learning. MIT Press. Chapitre 2 sur l’algèbre linéaire spécifique au ML. deeplearningbook.org
Lay, D. C., Lay, S. R. & McDonald, J. J. (2021). Linear Algebra and Its Applications, 6e édition. Pearson. Référence classique pour l’algèbre linéaire appliquée, équilibrée entre théorie et exercices.
Axler, S. (2024). Linear Algebra Done Right, 4e édition. Springer. Approche conceptuelle qui évite les déterminants jusqu’au plus tard possible et insiste sur la structure des espaces vectoriels. PDF gratuit en open access

Quiz

1. Que représente le produit scalaire de deux vecteurs ?
2. Si deux vecteurs sont orthogonaux, leur produit scalaire vaut :
3. La norme d'un vecteur x = (x₁, x₂, ..., xₙ) est :
4. Pourquoi les poids d'un neurone ont-ils la même dimension que ses entrées ?
5. Que calcule l'opération matrice-vecteur W·x où W est de taille m×n et x de dimension n ?
6. Si A est une matrice 3×4 et B une matrice 4×2, quelle est la dimension du produit AB ?

Le vecteur, une liste ordonnée de nombres

Définition

Pourquoi des vecteurs en machine learning

Le produit scalaire

Définition

Exemple chiffré

Voir deux vecteurs interagir

Norme et distance

Démonstration utile : l’identité du carré scalaire

Cauchy-Schwarz, ou pourquoi la formule géométrique est légitime

Transposée et produit matriciel

La transposée

Le produit matrice-matrice

Propriété (AB)T=BTAT(AB)^T = B^T A^T(AB)T=BTAT

Empiler les neurones

Qu’est-ce qu’une matrice

Du vecteur à la couche entière

En une phrase

Vers le chapitre 3

Exercices

Exercice 1 : calculer un produit scalaire

Exercice 2 : norme d’un vecteur

Exercice 3 : produit scalaire et orthogonalité

Exercice 4 : démontrer (AB)T=BTAT(AB)^T = B^T A^T(AB)T=BTAT sur du concret

Sources

Pour aller plus loin

Propriété $(AB)^T = B^T A^T$

Exercice 4 : démontrer $(AB)^T = B^T A^T$ sur du concret