
Quand un moteur de recherche comprend qu’un « médecin » est proche d’un « docteur », ou qu’un assistant vocal saisit le sens d’une phrase malgré une formulation inhabituelle, une notion discrète joue souvent un rôle central : l’embedding de mots. Derrière ce terme technique se cache une idée simple et puissante, devenue essentielle dans le traitement automatique du langage.
Un embedding de mots, ou plongement lexical en français, est une manière de représenter les mots sous forme de nombres. Plus précisément, chaque mot est transformé en vecteur, c’est-à-dire une suite de valeurs numériques, que les algorithmes peuvent manipuler. Cette représentation permet à une machine de traiter le langage non plus comme une simple suite de caractères, mais comme un ensemble de relations de sens.
L’intérêt est majeur : deux mots proches sur le plan sémantique auront des vecteurs proches dans cet espace numérique. Par exemple, « roi » et « reine » seront généralement plus proches l’un de l’autre que « roi » et « tournevis ». Cette proximité n’est pas définie à la main. Elle est apprise à partir de grands volumes de textes, grâce à des modèles statistiques ou neuronaux qui observent les contextes dans lesquels les mots apparaissent.
Les ordinateurs ne comprennent pas naturellement les mots comme les humains. Pour eux, un texte brut n’est qu’une succession de symboles. Afin d’effectuer une traduction, une recherche d’information ou une classification de documents, il faut convertir ce texte en données exploitables. L’embedding répond à ce besoin en donnant une forme mathématique aux unités du langage.
Avant l’apparition des embeddings modernes, les systèmes utilisaient souvent des méthodes plus simples, comme le comptage de mots. Ces approches indiquaient si un terme était présent dans un document, mais elles ignoraient largement le sens. Les mots « voiture » et « automobile » pouvaient être considérés comme totalement différents, alors qu’ils désignent presque la même chose. Les embeddings ont permis de franchir un cap en intégrant la notion de proximité sémantique.
Le principe repose sur une intuition connue en linguistique : un mot se comprend par les mots qui l’entourent. Si « café » apparaît souvent près de « tasse », « boire », « matin » ou « expresso », le modèle apprend progressivement que ces termes entretiennent des liens. À grande échelle, cette observation permet de construire une cartographie numérique du vocabulaire.
Des modèles comme Word2Vec, introduit par des chercheurs de Google en 2013, ou GloVe, développé à Stanford, ont popularisé cette approche. Ils analysent des millions, parfois des milliards de phrases, pour produire des vecteurs compacts. Chaque dimension du vecteur ne correspond pas nécessairement à une idée explicite, mais l’ensemble encode des régularités utiles. C’est ce qui rend possible des opérations étonnantes, souvent citées dans la littérature, comme « roi » moins « homme » plus « femme » qui rapproche le résultat de « reine ».
Les premiers embeddings attribuaient généralement un seul vecteur à chaque mot. Cela posait problème pour les mots ambigus. Le mot « avocat », par exemple, peut désigner un fruit ou une profession. Un vecteur unique mélangeait ces deux sens, ce qui limitait la précision des applications.
Les modèles plus récents, comme BERT, RoBERTa ou les grands modèles de langage, produisent des représentations contextuelles. Le vecteur d’un mot varie selon la phrase dans laquelle il se trouve. Dans « l’avocat plaide au tribunal » et « l’avocat mûrit sur la table », la machine peut générer deux représentations différentes. Cette évolution a considérablement amélioré la compréhension automatique des textes, notamment pour la recherche sémantique, les chatbots et les outils d’analyse documentaire.
Avant de créer un embedding, un système doit préparer le texte. L’une des premières étapes consiste à découper une phrase en unités plus petites, appelées tokens. Ces unités peuvent être des mots, des morceaux de mots ou des signes de ponctuation. Cette opération est fondamentale, car elle détermine ce que le modèle va réellement apprendre et représenter.
Dans les architectures modernes, un mot rare peut être divisé en sous-unités pour éviter qu’il soit inconnu du modèle. Par exemple, un terme technique ou un nom propre peut être fragmenté en éléments plus fréquents. Cette logique est détaillée dans les méthodes de découpage du texte en unités analysables, une étape clé du traitement automatique du langage naturel.
Les embeddings sont utilisés dans de nombreux services du quotidien. Dans les moteurs de recherche, ils aident à rapprocher une requête d’un document même lorsque les mots exacts ne correspondent pas. Une recherche sur « réparer un vélo crevé » peut ainsi faire ressortir un contenu parlant de « changer une chambre à air ». La correspondance repose davantage sur le sens que sur la simple répétition des termes.
Ils interviennent aussi dans la traduction automatique, la recommandation de contenus, la détection de spam, l’analyse d’avis clients ou les assistants conversationnels. Dans un système d’analyse de documents, les embeddings peuvent regrouper des textes similaires, repérer des thèmes récurrents ou soutenir des tâches plus spécialisées. L’identification automatique de noms de personnes, d’organisations ou de lieux s’appuie par exemple sur des représentations du contexte, comme l’explique l’usage de l’extraction d’entités dans les textes.
L’embedding ne remplace pas toutes les autres techniques de traitement du langage. Il complète un ensemble de méthodes qui éclairent le texte sous des angles différents. L’analyse syntaxique, par exemple, cherche à comprendre la structure grammaticale d’une phrase : qui fait l’action, quel mot dépend de quel autre, comment les groupes nominaux et verbaux s’organisent. Ces informations restent précieuses pour traiter des phrases complexes.
Dans certains projets, les embeddings sont combinés avec une lecture grammaticale des relations entre les mots afin d’améliorer la qualité des résultats. La lemmatisation poursuit un autre objectif : ramener un mot à sa forme de base. « Mangeons », « mangerai » et « mangé » peuvent ainsi être reliés au verbe « manger ». Cette normalisation, présentée à travers la réduction des mots à leur forme canonique, facilite certaines analyses statistiques et linguistiques.
Les embeddings ne sont pas neutres par nature. Comme ils sont appris à partir de textes existants, ils peuvent reproduire les biais présents dans ces données. Si un corpus associe fréquemment certains métiers à un genre, une origine ou un statut social, le modèle risque d’intégrer ces associations. Ce problème est documenté depuis plusieurs années dans la recherche en intelligence artificielle.
La qualité d’un embedding dépend aussi du corpus utilisé, de la langue, du domaine et de la période couverte. Un modèle entraîné sur des articles médicaux ne représentera pas les mots exactement comme un modèle entraîné sur des conversations de réseaux sociaux. Pour une entreprise ou une institution, il est donc important d’évaluer les performances sur des cas réels, de surveiller les erreurs et de mettre en place des garde-fous lorsque les décisions ont un impact humain.
L’embedding de mots a profondément changé la manière dont les systèmes d’intelligence artificielle traitent le langage. Il a permis de passer d’une approche fondée sur des règles rigides ou des comptages superficiels à une représentation plus souple, capable de saisir des ressemblances, des nuances et des contextes. C’est l’une des briques techniques qui ont préparé l’essor des grands modèles de langage.
Comprendre cette notion aide à mieux interpréter les outils actuels : moteurs de recherche sémantique, générateurs de texte, systèmes de veille, agents conversationnels ou logiciels d’analyse d’opinion. L’embedding ne donne pas une « compréhension » humaine aux machines, mais il leur fournit une représentation du langage suffisamment riche pour résoudre de nombreuses tâches. C’est précisément cette capacité à transformer les mots en relations numériques exploitables qui en fait un concept central de l’intelligence artificielle contemporaine.