
Invisible pour la plupart des utilisateurs, la tokenisation est pourtant l’une des premières opérations réalisées par un moteur de recherche, un correcteur automatique ou un modèle de langage. Avant de résumer un texte, de traduire une phrase ou de répondre à une question, un système doit d’abord transformer les mots en unités manipulables. C’est ce découpage, à la fois technique et stratégique, qui conditionne une partie importante des performances en traitement automatique du langage.
La tokenisation consiste à découper un texte en unités plus petites appelées tokens. Ces unités peuvent être des mots, des morceaux de mots, des signes de ponctuation, des nombres ou même des caractères isolés. Dans une phrase simple comme « Le chat dort. », un système peut produire quatre tokens : « Le », « chat », « dort » et « . ». Cette étape transforme une suite de caractères en éléments que les algorithmes peuvent compter, comparer et convertir en représentations numériques.
En traitement automatique du langage, ou TAL, la tokenisation intervient très tôt dans la chaîne de traitement. Elle sert de passerelle entre le langage humain, irrégulier et contextuel, et les modèles statistiques ou neuronaux qui exigent des entrées structurées. Sans tokenisation, un ordinateur ne sait pas naturellement où commence un mot, où finit une expression, ni comment interpréter une apostrophe, un trait d’union ou une abréviation.
La manière de découper une phrase influence directement les résultats d’un modèle. Une recherche d’information, par exemple, dépend de la capacité du système à reconnaître que « voitures », « voiture » et « automobile » peuvent relever d’un même champ lexical. La qualité du découpage joue donc sur la pertinence d’un moteur de recherche, d’un chatbot ou d’un outil d’analyse de sentiment.
Dans les premiers systèmes de TAL, la tokenisation servait surtout à compter les mots et à repérer leur fréquence. Ces méthodes restent utiles : dans un corpus journalistique, savoir qu’un terme apparaît 10 000 fois plutôt que 50 permet d’identifier des thèmes dominants. Mais avec les modèles contemporains, notamment les modèles de langage, les tokens deviennent aussi l’unité de calcul principale. Ils déterminent ce que le modèle “voit”, ce qu’il peut mémoriser dans un contexte donné et la façon dont il produit sa réponse.
La tokenisation la plus intuitive est la tokenisation par mots. Elle découpe le texte en séparant les éléments à partir des espaces et de la ponctuation. Cette approche fonctionne relativement bien en français ou en anglais pour des textes simples. Elle montre toutefois vite ses limites : « aujourd’hui », « prud’hommes » ou « arc-en-ciel » posent des questions de découpage qui ne se règlent pas toujours par une simple séparation sur les espaces.
Une autre approche consiste à découper le texte en caractères. Elle réduit le risque de tomber sur un mot inconnu, car tout mot est composé de lettres ou de symboles disponibles. En revanche, elle produit de longues séquences et perd une partie de l’information linguistique immédiate. Entre les deux, la tokenisation en sous-mots s’est imposée dans de nombreux modèles modernes. Elle découpe « internationalisation » en segments plus courts, par exemple « international » et « isation », afin de mieux gérer les mots rares, les néologismes et les fautes de frappe.
Les grands modèles de langage utilisent souvent des méthodes statistiques apprises sur de vastes corpus. Parmi les plus connues figurent Byte Pair Encoding, ou BPE, WordPiece et Unigram. Leur principe général est de repérer les séquences de caractères qui reviennent fréquemment, puis de les intégrer progressivement dans un vocabulaire. Un modèle peut ainsi apprendre que « tion » ou « ment » sont des terminaisons fréquentes en français, tandis que certains mots très courants restent des tokens entiers.
Ce vocabulaire peut compter quelques dizaines de milliers à plusieurs centaines de milliers d’entrées selon les modèles et les langues couvertes. L’objectif est de trouver un compromis entre précision et efficacité. Un vocabulaire trop petit oblige à découper les mots en trop nombreux fragments. Un vocabulaire trop grand augmente la mémoire nécessaire et rend l’apprentissage plus coûteux. Dans les architectures de type Transformer, les tokens sont ensuite convertis en vecteurs numériques, appelés embeddings, qui permettent au modèle de calculer des relations de sens et de contexte.
Le français illustre bien les défis de la tokenisation. Une phrase comme « L’entreprise n’a pas répondu aux e-mails envoyés hier. » contient des apostrophes, une négation, un mot anglais francisé et une ponctuation finale. Selon le tokenizer utilisé, « L’entreprise » peut être séparé en « L’ » et « entreprise », tandis que « e-mails » peut rester entier ou être divisé en plusieurs éléments. Ces choix ne sont pas anodins : ils peuvent influencer la reconnaissance des entités nommées ou l’analyse grammaticale.
Les difficultés sont encore plus visibles dans d’autres systèmes d’écriture. En chinois ou en japonais, les mots ne sont pas séparés par des espaces, ce qui rend la segmentation du texte plus complexe. En arabe, les préfixes, suffixes et variations morphologiques peuvent concentrer beaucoup d’informations dans un seul mot graphique. Les langues agglutinantes, comme le turc ou le finnois, construisent des mots longs en ajoutant plusieurs éléments grammaticaux. Pour ces langues, la tokenisation en sous-mots offre souvent une solution plus robuste qu’un découpage mot à mot.
Dans les outils d’IA générative, les tokens ont aussi une conséquence pratique : ils servent souvent d’unité de facturation et de limite technique. Lorsqu’un service indique qu’un modèle accepte une fenêtre de contexte de 32 000 tokens, cela signifie que l’ensemble de la consigne, des documents fournis et de la réponse générée doit tenir dans cette enveloppe. En français, un token ne correspond pas exactement à un mot. À titre indicatif, on estime souvent qu’un token représente environ trois à quatre caractères en anglais, mais ce ratio varie selon la langue et le contenu.
Cette réalité explique pourquoi deux textes de longueur visuelle comparable peuvent ne pas peser le même nombre de tokens. Un document rempli de chiffres, de code informatique, d’URL ou de termes rares sera parfois plus coûteux à traiter qu’un texte courant. Pour les entreprises qui automatisent le support client, l’analyse documentaire ou la génération de comptes rendus, la gestion du nombre de tokens devient donc un enjeu budgétaire et opérationnel. Réduire les formulations inutiles ou structurer les documents peut améliorer la vitesse, les coûts et la qualité des réponses.
La tokenisation n’est pas une opération neutre. Elle peut introduire des effets de bord, notamment pour les mots rares, les noms propres ou les langues moins représentées dans les données d’entraînement. Un prénom, un terme régional ou un mot issu d’une langue peu dotée en ressources numériques peut être découpé en nombreux fragments. Cela peut rendre son traitement moins stable. Les chercheurs ont montré que les performances des modèles varient souvent selon les langues, en partie à cause de la représentation inégale des tokens dans les corpus.
La sécurité constitue un autre enjeu. Des attaques peuvent exploiter des caractères invisibles, des homoglyphes ou des espacements inhabituels pour tromper un filtre automatique. Par exemple, remplacer une lettre latine par un caractère visuellement proche issu d’un autre alphabet peut perturber un système de modération. Les outils robustes doivent donc prévoir une normalisation du texte, détecter les caractères suspects et éviter de se fier uniquement à un découpage superficiel. La normalisation Unicode joue ici un rôle important, bien qu’elle soit rarement visible pour l’utilisateur final.
Pour les développeurs, linguistes computationnels et équipes data, le choix d’un tokenizer doit dépendre du cas d’usage. Un moteur de recherche interne, un système d’extraction d’informations médicales et un assistant conversationnel multilingue n’ont pas les mêmes contraintes. Il est recommandé de tester la tokenisation sur des exemples réels, incluant abréviations, chiffres, noms propres, fautes courantes et formulations métier. Une analyse qualitative de quelques centaines de phrases peut révéler des erreurs que les seules métriques globales ne montrent pas.
Les évolutions récentes vont vers des systèmes plus multilingues, plus efficaces et mieux adaptés aux textes hétérogènes. Certains modèles travaillent au niveau des octets afin de réduire les problèmes de caractères inconnus. D’autres optimisent leur vocabulaire pour limiter les inégalités entre langues. Malgré ces progrès, la tokenisation en TAL reste un compromis entre fidélité linguistique, coût de calcul et simplicité d’usage. Elle demeure une étape discrète, mais essentielle : avant qu’une machine puisse interpréter le langage, elle doit d’abord apprendre à le découper correctement.