Veille IA 17 avril 2026

Claude Opus 4.7 plus nul que 4.6 ? Mon test honnête

Anthropic a sorti Opus 4.7 avec +10 pts en agentic coding, mais aussi des régressions. Benchmarks, vision, coding one-shot à 50K mots-clés, verdict sans filtre.

L

Léo Lumina

Consultant IA & E-commerce

Claude Opus 4.7 plus nul que 4.6 ? Mon test honnête

Opus 4.7 en 30 secondes

Anthropic a sorti Claude Opus 4.7 et la question qui revient partout dans ma communauté : est-ce une vraie évolution, un simple patch, ou carrément une régression ? Sur certains benchmarks, on sent une progression réelle. Sur d’autres, c’est l’inverse. J’ai regardé les chiffres, puis j’ai lancé un test coding live pour me faire mon propre avis, avec en tête la question qui compte pour toi : est-ce que tu dois migrer ton workflow ou rester sur 4.6 ?

Pour le contexte, c’est le troisième gros modèle que je teste cette semaine. Si tu as raté les précédents, va voir Kimi K2.6 et ses 300 agents en parallèle et MiniMax M2.7, 50× moins cher qu’Opus. Le paysage LLM bouge vite, et Anthropic doit répondre.

Ce qui s’améliore vraiment

Les benchmarks Anthropic montrent des bonds intéressants :

  • +10 à 11 points en agentic coding par rapport à 4.6 — c’est énorme sur un chantier déjà très bien noté.
  • +7 points en coding général, passage devant Gemini 3.1 Pro sur le terminal bench.
  • +11 points sur le benchmark 4 langages (on passe de 53 % à 64,3 % de réussite).
  • Finance agent : planification multi-étapes mieux gérée que GPT 5.4.
  • Vision nettement boostée : résolution jusqu’à 2576px (contre bien moins avant).

Le point vision, je l’ai testé avec une image “Où est Charlie”. Avec 4.6, Claude cherche vers le centre-droit et se plante complètement. Avec 4.7, il le trouve au bord gauche, pile au bon endroit. Pour un e-commerçant, ça veut dire : meilleure lecture de screenshots, de fiches produit scannées, de captures de concurrents. Tout ce qui tourne autour de computer use ou d’analyse visuelle devient plus fiable.

Ce qui régresse

Anthropic assume :

  • Browser use : -4 points par rapport à 4.6. Un comble alors que la vision s’améliore.
  • Cybersécurité : petite régression aussi.
  • Moins bon que Claude Mythos Preview — leur modèle interne encore non public. Ils le reconnaissent eux-mêmes.

L’autre changement subtil qui peut te piéger : l’instruction following est beaucoup plus strict. Si tu as des prompts enregistrés un peu flous dans ton n8n, ton Make ou ton Zapier, 4.7 peut les interpréter plus littéralement et te donner un résultat à côté. Passe tes automatisations en revue avant de switcher en prod.

Dernier détail technique : le tokenizer est passé de 100K à 200K. Ça uniformise avec les autres LLM du marché. Conséquence annoncée par Anthropic : +10 à 30 % de consommation de tokens par session. Donc soit la réflexion sera plus longue, soit tu consommes plus pour le même résultat. À surveiller sur ta facture si tu tournes en API.

Le test coding : un SaaS d’analyse SEMrush en one-shot

J’ai lancé 4.7 en mode “ignore permissions”, effort élevé, sur un projet concret : construire une web app qui ingère un CSV SEMrush (jusqu’à 50 000 lignes), fait du clustering sémantique (TF-IDF + K-means), détecte les quick wins et la cannibalisation, sort un dashboard visuel avec des graphiques et un export PDF.

C’est un projet sérieux. Il y a du Python, du JavaScript, du D3, un backend, un frontend — et surtout la capacité d’anticiper comment traiter des CSV dont on ne connaît pas le format exact.

Résultat : en 13 minutes, j’avais une web app fonctionnelle. Il a lui-même lancé Chrome pour faire des screenshots et vérifier que ses graphiques s’affichaient correctement. Je lui ai balancé un export Cdiscount de 50 000 mots-clés :

  • 150 millions de volume de recherche cumulé détectés.
  • 13 000 quick wins identifiés.
  • Clusters sémantiques créés (limités à 8 par défaut, j’ai relancé à 35, ça a tenu).
  • Graphique position vs volume propre.
  • Cannibalisations détectées (logiquement polluées par le nom de marque — à filtrer en post-traitement).

Seule erreur : l’export PDF a planté. Un classique qu’un prompt de correction résout en 30 secondes.

Pour toi e-commerçant : cet outil, si tu l’industrialises, c’est un consultant SEO à 3000 € remplacé par une app maison en 13 minutes de génération.

Nouvelle commande utile : /ultra-review

Anthropic a ajouté une commande /ultra-review qui fait une revue de code en profondeur, micro-optimisations comprises, comme un humain très attentionné. Ça consomme énormément de tokens (10 à 30 minutes de travail selon la taille du projet), donc pas à lancer toutes les heures. Mais en fin de journée, sur un gros chantier, c’est parfait pour vérifier que rien n’a dérivé.

Autre nouveauté : le mode automatique (l’ancien “accept edits” boosté) est désormais accessible aux forfaits Max, plus uniquement Teams. Claude itère jusqu’au bout sans te demander de confirmer. Combiné à Claude Cowork et aux projects/agents, tu construis vite un vrai pipeline autonome.

Ce qui ne marche pas encore

  • La conso de tokens grimpe. Sur ma session de test, j’étais à 110 000 tokens pour un projet que 4.6 aurait fait avec 80-90K. Reste à vérifier sur la durée.
  • Le browser use est clairement un cran en-dessous. Si tu fais tourner des agents qui naviguent sur le web (scraping concurrent, monitoring de prix), reste sur 4.6 ou passe à MiniMax M2.7 qui est étonnamment bon en browser use.
  • L’instruction following trop rigide : si ton prompt laisse de l’interprétation, 4.7 peut partir dans une direction bizarre.

Verdict : plus stable, pas révolutionnaire

Opus 4.7 n’est pas une révolution. C’est une version plus stable, plus robuste, plus rigoureuse que 4.6, avec de vrais gains en coding et en vision. Si tu utilises Claude Code au quotidien pour builder des trucs, la migration vaut le coup — surtout pour la commande /ultra-review et la vision boostée.

Si tu utilises Claude surtout pour du browser use (computer use, scraping, automatisation web), reste sur 4.6 pour l’instant. Ou mixe : 4.7 pour le code et la vision, 4.6 pour la nav.

Et concrètement pour ton e-commerce : si tu fais tourner des workflows type analyse SEO, rédaction de fiches produit ou scripts d’import/export, tu vas sentir la différence en positif. Si tu as un bot qui surveille tes concurrents sur le web, attends encore une mise à jour.

Pour tester :


Dans la même veine sur le blog : Kimi K2.6, 300 agents en parallèle · MiniMax M2.7, 50× moins cher qu’Opus · Économise 90 % de tes tokens Claude Code.

Tu veux qu’on audite ton workflow IA pour tirer le max d’Opus 4.7 (ou d’une alternative moins chère) sur ton e-commerce ? Prenons rendez-vous — ou parcours le blog pour d’autres tests de modèles.

Partager : Lien copié !

Envie d'échanger sur votre projet IA ?

Discutons-en lors d'un appel découverte gratuit.

Prendre rendez-vous