Token
Un token désigne la plus petite unité linguistique et statistique dans laquelle un texte est décomposé de manière numérique par un modèle de langage avant d’être traité par ses algorithmes d’apprentissage profond. Selon la méthodologie de segmentation choisie, il peut représenter un mot entier, une syllabe, un groupe de caractères ou un simple signe de ponctuation. Le processus de tokenisation transforme les phrases en langage naturel en une suite d’identifiants mathématiques rigoureux que les réseaux de neurones peuvent analyser et manipuler au sein de leur espace vectoriel. La gestion de la fenêtre de contexte d’un modèle se mesure directement en nombre maximal de tokens, une variable technique cruciale qui dicte la capacité de mémoire et de traitement des architectures logicielles contemporaines de l’IA.
← Tous les termes du glossaire