RIP ElevenLabs ? Voxstral fait la même chose pour (presque) rien

Mistral sort Voxstral TTS — clonage vocal quasi temps réel, qualité bluffante, 6 à 10 fois moins cher qu'ElevenLabs. Je teste et je compare face à InWorld.

L

Léo Lumina

Consultant IA & E-commerce

RIP ElevenLabs ? Voxstral fait la même chose pour (presque) rien

Voxstral TTS en 30 secondes

Mistral (la boîte française) vient de sortir Voxstral TTS — son modèle de text-to-speech avec clonage de voix. Alors que Lyria 3 Pro s’occupe de la musique générative, Voxstral vise la niche ElevenLabs : cloner ta voix, te lire un script, générer des voix off pour tes shorts et tes vidéos produit.

Le pitch est simple :

  • Clonage vocal quasi temps réel (latence minuscule).
  • Semi-open source : une version locale dispo sur Hugging Face (sans le clonage).
  • Prix 6 à 10 fois inférieur à ElevenLabs.
  • Préféré 7 fois sur 10 en test à l’aveugle contre ElevenLabs 2.5 Flash sur le clonage.

Pour un e-commerçant qui fait 2-3 shorts par semaine, 10 vidéos produit par mois et une voix off pour sa news hebdo, la facture ElevenLabs peut vite atteindre 100-300 €/mois. Si Voxstral tient la promesse à 16 $/M caractères, on parle d’une division par 10 du coût. Je teste.

Démo : ma voix clonée en direct

J’ai enregistré un petit sample de ma voix — 30 secondes suffisent — et je demande à Voxstral de me lire : “Bonjour YouTube, c’est ma voix mais ce n’est pas moi qui parle. Pensez à vous abonner.”

Résultat : la fidélité vocale est vraiment bonne. Timbre respecté, accent français préservé, pas d’artefact robotique. On sent que c’est du TTS (quelques transitions un peu lissées), mais si tu ne connais pas la source, tu y crois.

Je refais le même test avec InWorld TTS 1.1 Max (autre fermé, ~10 $/M caractères, actuellement n°1 sur les benchmarks ELO TTS). Le clonage d’InWorld est légèrement plus naturel dans la façon de parler (intonations, pauses), mais Voxstral a la meilleure qualité de timbre. Match serré — et Voxstral est un peu moins cher.

La version open source (Hugging Face)

Voxstral a une déclinaison open source téléchargeable sur Hugging Face (mistralai/Voxtral-4B-TTS-2603). La nuance :

  • Oui : tu peux l’héberger localement, faire du TTS classique, gérer l’inférence toi-même.
  • Non : le clonage vocal n’est pas disponible dans la version locale. C’est réservé à l’API payante.
  • Oui : elle tourne vite, elle est légère, et elle gère bien le français.
  • Non : pas d’usage commercial autorisé sur la version open source (uniquement personnel).

Pour un dev qui veut expérimenter ou intégrer du TTS gratuit dans un outil interne, c’est une belle option. Pour du commercial, il faut passer à l’API.

La latence (là où ça tue la concurrence)

Voxstral est pratiquement temps réel. Tu envoies ta phrase, l’audio sort quasi instantanément. C’est clé pour :

  • Les agents conversationnels (chatbot vocal pour ton e-commerce).
  • Le live podcasting / assistants vocaux.
  • Les workflows en batch où tu génères 200 voix off d’un coup.

ElevenLabs a aussi un mode Flash très rapide, mais pour un coût 6× plus élevé. InWorld est dans le même ordre de grandeur que Voxstral côté latence.

Comparatif prix (le vrai argument)

SolutionTarifUsage commercial
Voxstral (API)~16 $/M caractères (≈ plusieurs heures d’audio)Oui
Voxstral (open source)GratuitNon
InWorld TTS~10 $/M caractèresOui
ElevenLabs Starter5 $/mois = 10 min audioOui
ElevenLabs Pro22 $/mois = 30 minOui
ElevenLabs Scale330 $/mois = 2 000 minOui

Sur du volume (500+ minutes par mois), ElevenLabs grimpe vite à 3 000-4 000 € par an. Avec Voxstral, les mêmes 500 minutes te coûtent quelques dizaines d’euros. Il n’y a pas photo.

Gestion des émotions et du ton

ElevenLabs garde une vraie avance sur un point : les consignes d’émotion (joyeux, triste, urgent, chuchoté). Tu peux insérer des markers directement dans le texte. Voxstral et InWorld passent par la ponctuation pour ça :

  • Point d’exclamation → ton plus direct.
  • Question → inflexion montante.
  • Virgules et pauses → rythme.

Je teste avec “Pouvez-vous vous abonner ?” et l’inflexion question passe, mais pas très marquée. Si tu as besoin de styles vocaux très poussés (audiobook avec 5 personnages, pubs dramatisées), ElevenLabs reste devant. Pour du TTS “lis-moi ça proprement” ou du clonage simple, Voxstral suffit largement.

Benchmarks Mistral (à prendre avec des pincettes)

Sur les tests à l’aveugle publiés par Mistral :

  • Voix standard : Voxstral préféré 58 % du temps vs ElevenLabs 2.5 Flash.
  • Voix clonée : Voxstral préféré 7 fois sur 10 vs ElevenLabs sur du clonage custom.

Ce sont leurs chiffres, donc forcément favorables. Ça reste cohérent avec mes tests perso sur du français.

Cas d’usage e-commerce

Trois idées concrètes :

1. Voix off automatisée pour tes shorts YouTube

Script rédigé par GPT/Claude → Voxstral te génère la voix off en 3 secondes. Tu montes sur CapCut ou DaVinci, tu publies. Workflow complet en 15 minutes par short. J’en parle plus en détail dans Claude Code crée mes Shorts YouTube pendant que je dors.

2. News hebdo en audio (format podcast)

Tu écris ton texte, Voxstral te sort un MP3 de 5 minutes avec ta voix clonée. Tu push sur Spotify, Apple Podcasts, ton site. Volume : 20 min/mois = moins de 1 € de coût API.

3. Fiches produit audio

Pour des produits où le storytelling compte (cosmétique, food, luxe), proposer une version audio de la fiche produit devient trivial. Une API call, un upload S3, un bouton play sur ta fiche Shopify.

Verdict : lequel choisir ?

  • Tu es dev / tech, tu veux tout maîtriser → Voxstral open source sur Hugging Face.
  • Tu fais du volume (podcasts, shorts, voix off) → Voxstral API. C’est le meilleur ratio qualité/prix du marché.
  • Tu veux la qualité voix la plus propre sur du court → InWorld TTS reste très solide.
  • Tu as besoin d’émotions fines, de styles multiples, de clonage premium → ElevenLabs, mais prépare la CB.

Pour 95 % des e-commerçants qui veulent automatiser de la création audio, Voxstral est le nouveau défaut. ElevenLabs reste pertinent sur les projets éditoriaux avancés — pas sur le volume quotidien.


Dans la même veine sur le blog : Lyria 3 Pro : musique IA incluse dans Gemini · Claude Code crée mes Shorts YouTube pendant que je dors · Améliorer ses photos produits avec l’IA : Flux 2 vs NanoBanana.

Tu veux qu’on monte un workflow voix off automatisé pour ta boutique (shorts, news, fiches produits audio) ? Prenons rendez-vous pour en discuter — ou parcours le blog pour d’autres tests d’outils de création.

Partager : Lien copié !

Envie d'échanger sur votre projet IA ?

Discutons-en lors d'un appel découverte gratuit.

Prendre rendez-vous