DeepSeek V4 : 1 million de contexte, open source, et il code non-stop
DeepSeek V4 vient de sortir : 1,6 trilliard de paramètres, contexte 1M, prix 10× inférieurs aux frontières. Je l'ai testé en agents, en one-shot, et face à Kimi K2.6.
Léo Lumina
Consultant IA & E-commerce
DeepSeek V4 en 30 secondes
DeepSeek vient de sortir sa V4, et cette fois la marque chinoise frappe très fort. Comme Kimi K2.6 et GLM 5.1, c’est encore un modèle open source qui vient titiller les frontières — mais avec un argument unique en stock.
Les trois points qui comptent :
- 1 million de tokens de contexte. C’est une première dans l’open source à ce niveau. Tu peux lui filer ton catalogue produit complet, ton historique de SAV de l’année, ton ticketing entier — et il garde tout en tête.
- 1,6 trilliard de paramètres en architecture MoE (mixture of experts). Deux versions : Pro (la grosse) et Flash (la rapide).
- Prix cassés : 0,15 $/M en entrée et 3,50 $/M en sortie. À comparer aux 15-75 $ des modèles frontières (Opus, GPT 5.5). On parle de 10 × moins cher que Claude Opus 4.7, pour des perfs souvent comparables sur le coding.
Concrètement pour un e-commerçant : à ce prix-là, tu peux lancer des batchs massifs (catalogue entier, génération de fiches en série, automatisations longues) sans que ton CFO ait des sueurs froides.
Le projet test : un dashboard de support ticket
Pour comparer DeepSeek V4 face à la concurrence, j’ai pris un projet réaliste : un dashboard de support client complet.
- CRUD sur les tickets
- Filtres (par statut, par date, par client)
- Notes internes
- Statuts personnalisés
- Interface propre, prête à brancher sur une API
Tu vois le genre — un projet qu’un freelance facturerait 1 500 € sur deux jours. Le but : voir si DeepSeek peut le sortir d’un bloc, et avec quelle qualité.
J’ai lancé 3 configurations en parallèle pour comparer.
Test 1 : DeepSeek V4 en mode multi-agents
Configuration “luxe” : un orchestrateur, un agent front-end, un agent back-end, un agent QA, un agent reviewer. Chacun bosse sur sa partie, l’orchestrateur compile.
Résultat : DeepSeek gère bien le mode multi-agents — chaque rôle est respecté, le code sort propre. La QA ajoute de vrais tests, le reviewer corrige des bugs avant le rendu final. Bref, du sérieux. Le résultat est plus robuste que les autres tests (plus de tests unitaires, plus de cas couverts).
Test 2 : DeepSeek V4 en one-shot
Même projet, même prompt, mais cette fois sans système d’agents. Un seul flux. C’est là que la magie du 1M de contexte se voit : le modèle ne perd jamais le fil.
Résultat : il code sans s’arrêter pendant des minutes. Le rendu est fonctionnel, l’interface marche. Quelques corrections mineures à apporter sur la fin, mais pour un one-shot, c’est bluffant. Endurance est le mot clé ici.
Test 3 : Kimi K2.6 en mode agent (référence)
Pour comparer, je relance le même projet avec Kimi K2.6 (le récent monstre des agents).
Résultat : Kimi termine en premier, et l’interface front-end est un peu plus jolie (animations, soin sur les détails UI). Mais sur la couverture fonctionnelle, c’est égal. Sur l’endurance brute, DeepSeek a un cran d’avance.
Ce qui ne marche pas (encore)
Soyons honnêtes :
- L’UI front générée par DeepSeek est correcte mais moins polished que Kimi ou Opus. Si l’esthétique est ton critère #1, prends un cycle de plus pour styliser.
- Sur les tâches courtes (un endpoint, un script), tu n’auras pas l’avantage du 1M de contexte — n’importe quel modèle fait l’affaire.
- L’écosystème d’outils (DeepSeek Code, intégrations IDE) est moins mature que Claude Code.
- Hugging Face a la version brute, mais self-host à 1,6T de params, c’est pas une partie de plaisir — sauf à passer par OpenRouter ou un provider cloud.
Comparatif consolidé
Sur les benchmarks publics (SWE Bench, code agentic, contexte long) :
| Modèle | Code | Contexte | Prix sortie / M tokens |
|---|---|---|---|
| Claude Opus 4.7 | excellent | 200K | ~75 $ |
| GPT 5.5 | très bon | 128K | ~50 $ |
| Gemini 3.1 Pro | très bon | 2M | ~15 $ |
| Kimi K2.6 | excellent | 162K | ~1,50 $ |
| DeepSeek V4 Pro | excellent | 1M | 3,50 $ |
Le sweet spot DeepSeek : 1M de contexte ET prix très bas. Aucun autre modèle ne combine les deux à ce niveau aujourd’hui.
Verdict : un game changer pour les workflows longs
DeepSeek V4 ne va pas remplacer ton choix #1 sur tout. Mais il y a des cas où il devient le meilleur outil :
- Refactor d’un gros codebase : balance lui tout le repo en contexte, demande un audit ou un refactor en une passe.
- Catalogue e-commerce massif : tu veux générer ou enrichir 5 000 fiches produit ? Le contexte 1M te permet de lui filer ton ton de marque + 100 exemples + le brief — et de boucler en série.
- Workflows agentiques longs (style OpenClow, Aider, agents endurants) : le 1M permet à un agent de tourner pendant des heures sans rejouer le contexte.
- Boucles de correction longues : analyse erreurs → fix → relance, sur des historiques très longs.
Tu garderais Claude Opus 4.7 pour les tâches critiques où l’élégance prime, Kimi K2.6 pour le multi-agents fluide, et DeepSeek V4 dès que la volumétrie ou le coût comptent.
Pour tester :
- Directement : chat.deepseek.com
- Via l’API : tarifs publiés sur api-docs.deepseek.com
- Sur Hugging Face si tu veux self-host : cherche DeepSeek V4 Pro
- Pour comparer côté coût Claude : comment économiser 90 % de tes tokens Claude Code
Dans la même veine sur le blog : Kimi K2.6 : 300 agents et plus fort qu’Opus · GLM 5.1 face à Opus · Qwen 3.6+ : le modèle gratuit qui rivalise avec Opus · MiniMax M2.7 : 50× moins cher qu’Opus.
Tu veux exploiter un modèle 1M de contexte sur ton catalogue ou ton SAV e-commerce ? Prenons rendez-vous pour qu’on cadre le workflow — ou parcours le blog pour d’autres tests de modèles.
Envie d'échanger sur votre projet IA ?
Discutons-en lors d'un appel découverte gratuit.
Prendre rendez-vous