GLM 5.1 : open source et gratuit — le test face à Opus

GLM 5.1 en 30 secondes

Z.ai (compagnie chinoise, déjà connue pour la série GLM) vient de sortir GLM 5.1, un modèle open source qui s’en sort très bien face à Opus sur plusieurs benchmarks. Et en ce moment, il est gratuit jusqu’au 30 avril sur modal.com. Pile au moment où Opus 4.6 est accusé d’être nerfé dans la communauté, c’est un timing parfait pour aller voir ailleurs.

Les benchmarks mis en avant :

12ᵉ sur 106 modèles testés en création de site web.
Très fort en animation et création de SVG — devant Gemini 3.1 Pro et Opus 4.6.
Proche d’Opus 4.6 en coding général (à 1 point près sur certains bench).
Excellent en browser use, bien au-dessus des modèles open source concurrents.

Attention quand même : les benchmarks chinois sont à prendre avec des pincettes, une partie de la communauté soupçonne du sur-entraînement sur les questions types des bench. Mais les retours utilisateurs depuis la sortie sont globalement positifs, donc j’ai voulu tester moi-même.

Le prix qui change tout

1 $ par million de tokens en entrée.
4 $ par million de tokens en sortie.

À comparer à Opus qui est à 15 $ en entrée et 75 $ en sortie. On parle de 15 à 20 fois moins cher pour des performances qui ne sont pas 15 à 20 fois inférieures. Si tu fais tourner des agents en continu (type OpenClaude ou scripts d’analyse en boucle), ça change littéralement la rentabilité.

Et pour le tester sans sortir la carte bleue : va sur modal.com, crée un token, c’est OpenAI-compatible. Tu peux le brancher dans n’importe quel client (moi j’utilise msty sur Mac pour avoir un chat local).

Test raisonnement : le piège du car wash

J’ai utilisé un prompt qui fait trébucher tous les modèles en ce moment :

“J’ai envie d’être en bonne santé et de faire plus d’efforts, mais je dois aussi laver ma voiture. Le carwash est à 50 mètres, j’y vais comment ?”

La bonne réponse évidente : tu prends la voiture (sinon comment tu laves la voiture ?). Le piège : l’IA s’accroche à l’idée d’effort physique et te propose d’y aller à pied.

Résultat GLM 5.1 : 2 minutes 4 de réflexion, puis il me propose une stratégie “park and walk” (se garer à 1 km du carwash pour marcher), une option “lavage à service” (te laver la voiture à la main toi-même), et mon préféré, l’option extrême : “poussez votre voiture sur 50 mètres, effort musculaire colossal pour les jambes et le dos”. Bref, il tombe dans le piège comme Opus 4.6.

C’est pas un benchmark sérieux, c’est une anecdote. Mais ça montre que GLM 5.1 reste dans la même famille de raisonnement qu’Opus — ni meilleur, ni pire sur les questions tordues.

Test coding : refacto de repo en live

J’ai lancé le même test que j’avais fait sur Claude Code précédemment : cloner un repo open source (un outil de speech-to-text en français), ajouter une page de stats à la sidebar (nombre de transcriptions, temps total d’enregistrement, nombre de mots, graphe 7 derniers jours).

Outil utilisé : OpenCode Go (5 € le premier mois, 10 €/mois ensuite) qui te laisse utiliser des modèles open source dans leur infrastructure avec des limites ultra généreuses (880 requêtes par tranche de 5h sur les modèles premium).

Résultat : en mode plan, GLM 5.1 me pose les bonnes questions (quelle métrique pour les 7 jours ? sidebar top-level ou sub ?), sort un plan en 12 étapes cohérent, puis je passe en mode build. Il clone le repo, installe les dépendances, ajoute la page, respecte le dark mode existant, intègre des données fictives pour le visuel, lance le serveur dev. La page stats s’affiche, interactive, avec graphique hebdo.

Au niveau consommation : 5 € dépensés, 19 % de mon quota utilisé sur la session. À ce tarif, tu peux te permettre de lancer des itérations de refacto toutes les semaines sans exploser ton budget.

Pour toi e-commerçant : si tu as une boutique custom qui demande des petits devs réguliers (nouvelle page, nouveau bloc, tweak CSS), GLM 5.1 + OpenCode Go te fait le job pour 10 € par mois au lieu d’un forfait Claude Code à 100-200 €.

Le coding plan Z.ai (si tu l’utilises vraiment intensif)

Z.ai propose aussi un abonnement direct : 3× l’usage de Claude Code Pro à 18 $, jusqu’à 15× plus en annuel. Les utilisateurs hardcore sur Twitter rapportent 275 millions de tokens/mois consommés sans pénalité, avec les quotas journaliers à 8-9 % d’utilisation. C’est colossal.

Bref, si tu es développeur/agence et que tu fais tourner un agent en continu, c’est probablement l’offre la moins chère du marché aujourd’hui.

Ce qui ne marche pas encore

Le raisonnement abstrait reste un cran en-dessous d’Opus. Sur des problèmes logiques complexes, Opus va creuser plus loin.
Latence variable via modal.com gratuit : parfois 30 secondes, parfois 2 minutes. Pas utilisable en production, uniquement en test.
Pas encore d’écosystème IDE aussi mature que celui d’Anthropic (hooks, skills, MCP…).

Verdict : l’alternative pragmatique

GLM 5.1 n’enterre pas Opus. Mais il te permet de construire des choses sérieuses pour 10 à 20 fois moins cher. Si Opus est ton couteau suisse premium, GLM 5.1 est ton outil de travail quotidien. Pour un e-commerçant qui veut automatiser sans exploser son budget (rédaction de fiches produit, scripts d’analyse, petits refactos), c’est la meilleure porte d’entrée open source du moment.

Pour tester :

GLM 5.1 gratuit : modal.com
OpenCode Go : opencode.ai/fr/go
msty (chat local) : msty.ai
Plan Z.ai : z.ai

Dans la même veine sur le blog : MiniMax M2.7, 50× moins cher qu’Opus · Qwen 3.6+ gratuit sur OpenRouter · Kimi K2.6 et 300 agents.

Tu veux qu’on mette en place un stack IA pas cher mais puissant sur ton e-commerce ? Prenons rendez-vous — ou parcours le blog pour d’autres benchmarks.

GLM 5.1 : gratuit, open source, et presque aussi bon qu'Opus ?

GLM 5.1 en 30 secondes

Le prix qui change tout

Test raisonnement : le piège du car wash

Test coding : refacto de repo en live

Le coding plan Z.ai (si tu l’utilises vraiment intensif)

Ce qui ne marche pas encore

Verdict : l’alternative pragmatique

Envie d'échanger sur votre projet IA ?

Articles similaires

Qwen 3.5 : ce que ce nouveau modèle IA change pour ton e-commerce

Test ChatGPT 5.4 : 17 min pour un Excel (vs Claude et Gemini)

Le plus gros leak IA de 2026 : Claude Mythos dévoilé par erreur