Votre phrase d’essai
Modifiez le texte, observez son découpage et testez l’effet conceptuel de la température sur le choix du prochain jeton.
À température faible, les probabilités favorisent davantage l’option dominante. À température élevée, elles s’aplatissent.
Le trajet dans le Transformer
étape 1 / 9Étape 1
Découpage en jetons
1. Jetons et représentations
Le texte devient une suite d’identifiants, puis chaque identifiant pointe vers une ligne d’une table de vecteurs.
Dimension8 valeurs visibles
dans cette maquette
2. Carte d’attention
Une ligne montre ce que regarde un jeton. Le masque causal interdit les positions suivantes.
3. Des scores à un prochain jeton
Le modèle produit un score par candidat. Softmax les transforme en probabilités ; une stratégie de décodage sélectionne ensuite le prochain jeton.
La sélection affichée est une simulation déterministe : elle illustre une distribution, elle ne constitue pas une prédiction d’un modèle réel.
Plusieurs angles sur le même contexte
Chaque tête apprend d’autres relations : accord grammatical, proximité, sujet, thème ou structure. Leurs sorties sont concaténées puis réinjectées dans le flux.
Attention(Q, K, V) = softmax(QKᵀ / √d) V
Ne pas effacer ce qui est déjà utile
Le signal d’entrée est additionné à la sortie du sous-bloc. Cette voie courte facilite l’apprentissage et permet aux couches de transformer plutôt que de remplacer entièrement la représentation.
Z = Y + MLP(LayerNorm(Y))
Traiter chaque position individuellement
Après le mélange d’informations entre positions effectué par l’attention, un petit réseau non linéaire enrichit la représentation de chaque jeton.
Pourquoi traduire token par « jeton » ?
Un choix précis, mais pas exclusif : « token » reste très employé dans la pratique.
En français technique, jeton désigne déjà une petite unité discrète porteuse de valeur : un jeton de jeu, un bon d’accès, ou, en analyse lexicale, un jeton lexical. C’est donc une bonne image pour l’unité que le tokenizer attribue au modèle avant tout calcul.
Ces découpages sont illustratifs. Le résultat exact dépend du vocabulaire, de la langue et du tokenizer du modèle.
Ce qui évolue dans les LLM récents
Le Transformer reste central, mais l’inférence devient plus délibérative, multimodale et outillée.
Quantification : faire tenir le modèle dans moins de mémoire
Une approximation numérique contrôlée qui remplace des poids très précis par des représentations plus compactes.
À retenir : passer de 16 à 8 bits réduit approximativement par deux la mémoire des poids. La mémoire réelle inclut aussi le contexte, les caches KV, des métadonnées et parfois des échelles de quantification.
« Couche de censure » : un raccourci à déconstruire
Dans un service réel, le comportement résulte rarement d’un seul filtre placé au-dessus du modèle.
Repères documentaires pour les évolutions récentes
Liens externes uniquement : l’application demeure entièrement utilisable hors connexion.
Les fonctions et dénominations commerciales évoluent vite. Les éléments ci-dessus illustrent des directions techniques, non un palmarès de modèles.
Question 1 / 5
Origine et limites de cette adaptation
Cette application autonome synthétise et explique en français les idées centrales de la visualisation « LLM Visualization » de Brendan Bycroft : une architecture GPT inspectable, le parcours de l’inférence et l’usage d’un petit exemple de modèle. Les textes, l’interface et les micro-simulations de cette page ont été réécrits pour un usage pédagogique et ne reproduisent ni son code ni ses visuels. Cette version ajoute des repères sur la tokenisation, les architectures et usages récents, la quantification et les dispositifs d’alignement. Pour l’exploration exhaustive et la visualisation 3D originale, consultez la ressource de référence.