
En quelques années, les modèles transformer sont devenus l’architecture centrale du traitement automatique du langage. Traduction, résumé, moteurs de recherche, assistants conversationnels : une grande partie des progrès récents en NLP repose sur cette idée simple en apparence, mais puissante en pratique, apprendre à repérer les relations entre les mots d’un texte, même lorsqu’ils sont éloignés.
Le modèle transformer apparaît en 2017 dans l’article scientifique “Attention Is All You Need”, publié par des chercheurs de Google. À l’époque, les systèmes de traitement du langage naturel reposent largement sur des réseaux récurrents, conçus pour lire une phrase mot après mot. Cette approche fonctionne, mais elle devient coûteuse et limitée lorsque les textes sont longs.
Le transformer change la logique. Au lieu de traiter les mots uniquement dans l’ordre, il examine simultanément l’ensemble de la séquence. Son cœur technique, le mécanisme d’attention, lui permet d’évaluer quels mots sont importants les uns pour les autres. Dans la phrase “Le chat dort car il est fatigué”, le modèle doit comprendre que “il” renvoie probablement à “chat”. C’est précisément ce type de relation que l’attention aide à modéliser.
Un modèle transformer ne lit pas les mots comme un humain. Avant toute analyse, le texte est découpé en unités appelées tokens. Un token peut être un mot entier, une partie de mot, un signe de ponctuation ou parfois un caractère. Cette étape est essentielle, car elle transforme une phrase en une suite d’éléments que le modèle peut traiter.
La méthode varie selon les modèles. Certains utilisent des sous-mots, ce qui permet de gérer des formes rares ou inconnues. Par exemple, “internationalisation” peut être séparé en plusieurs fragments significatifs. Cette logique est détaillée dans les méthodes de découpage du texte en unités linguistiques, une étape souvent invisible pour l’utilisateur mais déterminante pour la qualité des résultats.
Une fois le texte découpé, chaque token est converti en représentation numérique. Ces représentations, appelées embeddings, placent les mots ou fragments de mots dans un espace mathématique où les proximités ont du sens. Ainsi, “roi” et “reine” peuvent être plus proches entre eux que “roi” et “voiture”.
Dans un transformer, ces vecteurs ne sont pas figés dans une seule signification. Le mot “banque”, par exemple, ne sera pas interprété de la même manière dans “banque de données” et “banque au bord du fleuve”. Les représentations vectorielles des mots servent donc de point de départ à une compréhension plus fine, enrichie par le contexte fourni par l’attention.
Le mécanisme d’attention calcule, pour chaque token, l’importance relative des autres tokens de la séquence. Il ne se contente pas de regarder les voisins immédiats. Il peut associer un sujet en début de phrase à un verbe situé plus loin, ou relier un pronom à son antécédent. C’est l’une des raisons pour lesquelles les transformers excellent dans les tâches nécessitant une compréhension globale.
Concrètement, le modèle produit des scores d’attention. Ces scores indiquent quelles parties du texte doivent peser davantage dans l’interprétation d’un token donné. Dans une phrase complexe comme “La chercheuse qui dirige le laboratoire publie ses résultats”, le modèle doit reconnaître que le verbe “publie” se rattache à “chercheuse”, malgré la proposition intermédiaire. Cette capacité se rapproche de certains objectifs de compréhension de la structure grammaticale, même si elle repose sur une approche statistique plutôt que sur des règles explicites.
Un seul regard sur une phrase ne suffit pas toujours. Le transformer utilise donc plusieurs “têtes” d’attention en parallèle. Chacune peut se spécialiser dans un type de relation : accord grammatical, dépendance sémantique, reprise pronominale, ordre des mots ou indices de ponctuation. Le modèle combine ensuite ces analyses pour produire une représentation plus riche.
Cette architecture explique une partie de sa robustesse. Dans un texte journalistique, par exemple, une tête peut suivre les noms de personnes, une autre les dates, une autre encore les liens entre événements. Le modèle n’est pas programmé manuellement pour le faire ; il apprend ces régularités pendant l’entraînement, à partir de très grandes quantités de textes.
Comme le transformer traite les tokens en parallèle, il doit recevoir une information sur leur position. Sans cela, les phrases “Le chien mord l’homme” et “L’homme mord le chien” pourraient être trop difficiles à distinguer. Les modèles ajoutent donc des encodages positionnels aux embeddings, afin d’indiquer l’ordre des tokens dans la séquence.
Ces encodages peuvent être calculés avec des fonctions mathématiques ou appris pendant l’entraînement. Leur rôle est discret mais crucial. Le sens d’une phrase dépend souvent de l’ordre des mots, surtout dans des langues comme le français où la syntaxe, les accords et la place des compléments influencent fortement l’interprétation.
Un transformer apprend grâce à de vastes corpus de textes. Selon l’objectif, il peut être entraîné à prédire un mot masqué, à anticiper le token suivant ou à associer une question à une réponse. Les modèles de type BERT sont connus pour l’apprentissage par mots masqués, tandis que les modèles génératifs, comme GPT, apprennent principalement à prédire la suite d’un texte.
Avant l’arrivée de ces grands modèles, de nombreuses chaînes NLP s’appuyaient sur des traitements séparés, comme la normalisation des mots. La réduction des formes fléchies à leur lemme reste utile dans certains contextes, mais les transformers peuvent souvent apprendre eux-mêmes que “manger”, “mangeons” et “mangé” partagent une relation linguistique forte.
Les transformers sont aujourd’hui utilisés pour la traduction automatique, la classification de documents, la recherche sémantique, la modération de contenus ou l’extraction d’informations. Ils peuvent repérer des noms de personnes, d’organisations ou de lieux dans un texte, une tâche proche de la détection d’entités dans les documents. Dans un service client, ils aident à identifier l’objet d’une demande ; dans un média, ils peuvent assister le résumé d’articles.
Leur puissance ne doit toutefois pas masquer leurs limites. Un transformer ne “comprend” pas le monde comme un humain : il apprend des régularités dans les données. Il peut produire des erreurs factuelles, amplifier des biais présents dans les corpus ou manquer de transparence dans ses décisions. Son fonctionnement demande aussi des ressources importantes, surtout lors de l’entraînement. Bien utilisé, il reste néanmoins l’un des outils les plus efficaces pour traiter le langage naturel à grande échelle, à condition d’associer performance technique, vérification humaine et cadre d’usage rigoureux.