Le laboratoire d'un LLMUn Transformer de type GPT, étape par étape
Visualisation pédagogique autonome

Entrez dans le moteur d’un modèle de langage.

Suivez le trajet d’une phrase : découpage en jetons, vecteurs, attention, blocs Transformer, probabilités, puis choix du mot suivant. Cette application ne simule pas une IA générative réelle ; elle rend visible la logique fondamentale de l’inférence.

9 étapesdu texte au prochain jeton
1 contextechaque jeton regarde les précédents
Plusieurs têtesdes relations différentes en parallèle
1 choixtiré d’une distribution de probabilités
4 évolutionsraisonnement, multimodal, MoE, agents

Votre phrase d’essai

Modifiez le texte, observez son découpage et testez l’effet conceptuel de la température sur le choix du prochain jeton.

simulation locale
Les jetons sont une approximation pédagogique, pas une segmentation BPE exacte.
Paramètres d’exploration
0,8

À température faible, les probabilités favorisent davantage l’option dominante. À température élevée, elles s’aplatissent.

Le trajet dans le Transformer

étape 1 / 9
Lecture autoregressive : pas de regard vers le futurRésidu : préserver et enrichirRéglages : inspectables ici

Étape 1

Découpage en jetons

1. Jetons et représentations

Le texte devient une suite d’identifiants, puis chaque identifiant pointe vers une ligne d’une table de vecteurs.

Vecteur du jeton sélectionné

Position0 / 0
Dimension8 valeurs visibles
dans cette maquette

2. Carte d’attention

Une ligne montre ce que regarde un jeton. Le masque causal interdit les positions suivantes.

requête : dernier jeton
faibleforte

3. Des scores à un prochain jeton

Le modèle produit un score par candidat. Softmax les transforme en probabilités ; une stratégie de décodage sélectionne ensuite le prochain jeton.

température 0,8

La sélection affichée est une simulation déterministe : elle illustre une distribution, elle ne constitue pas une prédiction d’un modèle réel.

Attention à plusieurs têtes

Plusieurs angles sur le même contexte

Chaque tête apprend d’autres relations : accord grammatical, proximité, sujet, thème ou structure. Leurs sorties sont concaténées puis réinjectées dans le flux.

Q = XWq   K = XWk   V = XWv
Attention(Q, K, V) = softmax(QKᵀ / √d) V
Connexions résiduelles

Ne pas effacer ce qui est déjà utile

Le signal d’entrée est additionné à la sortie du sous-bloc. Cette voie courte facilite l’apprentissage et permet aux couches de transformer plutôt que de remplacer entièrement la représentation.

Y = X + Attention(LayerNorm(X))
Z = Y + MLP(LayerNorm(Y))
MLP / réseau feed-forward

Traiter chaque position individuellement

Après le mélange d’informations entre positions effectué par l’attention, un petit réseau non linéaire enrichit la représentation de chaque jeton.

MLP(x) = W₂ · GELU(W₁x + b₁) + b₂

Pourquoi traduire token par « jeton » ?

Un choix précis, mais pas exclusif : « token » reste très employé dans la pratique.

En français technique, jeton désigne déjà une petite unité discrète porteuse de valeur : un jeton de jeu, un bon d’accès, ou, en analyse lexicale, un jeton lexical. C’est donc une bonne image pour l’unité que le tokenizer attribue au modèle avant tout calcul.

Nuance utile. Un jeton n’est ni nécessairement un mot, ni nécessairement une lettre. C’est un élément d’un vocabulaire appris. « Tokenisation » et « jeton » rendent le mécanisme lisible, tandis que token est souvent conservé dans les outils et la documentation.
Approximation d’une phrase7 unités visibles

Ces découpages sont illustratifs. Le résultat exact dépend du vocabulaire, de la langue et du tokenizer du modèle.

Ce qui évolue dans les LLM récents

Le Transformer reste central, mais l’inférence devient plus délibérative, multimodale et outillée.

tendances 2025–2026

Quantification : faire tenir le modèle dans moins de mémoire

Une approximation numérique contrôlée qui remplace des poids très précis par des représentations plus compactes.

16 bits
Poids d’un modèle de 7 milliards de paramètres≈ 14,0 Go
Lecture pédagogique de l’impactréférence proche FP16

À retenir : passer de 16 à 8 bits réduit approximativement par deux la mémoire des poids. La mémoire réelle inclut aussi le contexte, les caches KV, des métadonnées et parfois des échelles de quantification.

« Couche de censure » : un raccourci à déconstruire

Dans un service réel, le comportement résulte rarement d’un seul filtre placé au-dessus du modèle.

sûreté ≠ un bouton

Repères documentaires pour les évolutions récentes

Liens externes uniquement : l’application demeure entièrement utilisable hors connexion.

mise à jour : juin 2026

Les fonctions et dénominations commerciales évoluent vite. Les éléments ci-dessus illustrent des directions techniques, non un palmarès de modèles.

Question 1 / 5

Origine et limites de cette adaptation

Cette application autonome synthétise et explique en français les idées centrales de la visualisation « LLM Visualization » de Brendan Bycroft : une architecture GPT inspectable, le parcours de l’inférence et l’usage d’un petit exemple de modèle. Les textes, l’interface et les micro-simulations de cette page ont été réécrits pour un usage pédagogique et ne reproduisent ni son code ni ses visuels. Cette version ajoute des repères sur la tokenisation, les architectures et usages récents, la quantification et les dispositifs d’alignement. Pour l’exploration exhaustive et la visualisation 3D originale, consultez la ressource de référence.

Voir la ressource ↗

Glossaire essentiel