Token
Unité de base utilisée par les modèles de langage (LLM) pour découper et traiter le texte, correspondant à un morceau de mot.
Définition
Un token est l’unité fondamentale de traitement du texte par les LLM (modèles de langage). Lors de la tokenisation, le texte est découpé en morceaux appelés tokens, qui peuvent correspondre à un mot entier, une partie de mot, un caractère ou un signe de ponctuation. En moyenne, un token représente environ 4 caractères en anglais et 2 à 3 caractères en français.
Comprendre le fonctionnement des tokens est essentiel pour maîtriser les coûts d’utilisation des API IA et optimiser l’efficacité de ses prompts.
Comment ça fonctionne
- Tokenisation : Avant tout traitement, le texte est transformé en une séquence de tokens par un tokenizer. Par exemple, “e-commerce” peut être découpé en [“e”, ”-”, “commerce”] ou [“e-”, “commerce”] selon le tokenizer utilisé.
- Vocabulaire : Chaque modèle possède un vocabulaire fixe de tokens (50 000 à 100 000 pour les modèles courants). Les mots fréquents sont des tokens à part entière, tandis que les mots rares sont décomposés en sous-tokens.
- Fenêtre de contexte : C’est le nombre maximum de tokens qu’un modèle peut traiter en une seule requête. GPT-4 offre jusqu’à 128 000 tokens, Claude jusqu’à 200 000 tokens. Cette fenêtre inclut le prompt (entrée) et la réponse (sortie).
- Calcul du coût : Les fournisseurs d’API facturent à l’usage en tokens. On distingue les tokens d’entrée (prompt) et les tokens de sortie (réponse), ces derniers étant généralement plus chers.
Exemples concrets de tokenisation
| Texte | Nombre approximatif de tokens |
|---|---|
| Un mot courant (“bonjour”) | 1 à 2 tokens |
| Une phrase simple | 10 à 20 tokens |
| Une fiche produit (300 mots) | 400 à 500 tokens |
| Un article de blog (1 000 mots) | 1 300 à 1 600 tokens |
| Un catalogue de 100 fiches produits | 40 000 à 50 000 tokens |
Applications en e-commerce
- Optimisation des coûts API : En rédigeant des prompts concis et structurés grâce au prompt engineering, vous réduisez le nombre de tokens consommés et donc la facture d’utilisation des API.
- Dimensionnement des projets : Calculer le nombre de tokens nécessaires pour traiter votre catalogue (fiches produits, descriptions, avis) permet d’estimer précisément le budget d’un projet d’IA générative.
- Choix du modèle : La taille de la fenêtre de contexte détermine si vous pouvez envoyer un catalogue entier ou si vous devez utiliser le RAG pour ne fournir que les informations pertinentes.
- Génération de contenu à grande échelle : Comprendre la tokenisation en français (qui consomme plus de tokens que l’anglais) est crucial pour planifier la génération de milliers de fiches produits.
- Limitation des réponses : Paramétrer un maximum de tokens en sortie permet de contrôler la longueur des contenus générés (descriptions courtes vs. articles longs).
Avantages / Limites
| Avantages | Limites |
|---|---|
| Système flexible qui gère toutes les langues et tous les formats | Le français consomme ~30 % de tokens en plus que l’anglais |
| Coûts d’API prévisibles grâce au comptage précis | La fenêtre de contexte limite la quantité d’information traitable |
| Possibilité d’optimiser les coûts avec des prompts bien conçus | Les mots techniques ou rares sont mal tokenisés (plus de tokens) |
| Transparence : la plupart des fournisseurs offrent des outils de comptage | Les prix varient fortement selon le modèle et le fournisseur |
Pour optimiser vos coûts d’API IA et dimensionner vos projets, découvrez notre service de conseil stratégique IA.