Cet article contient des liens affiliés. En savoir plus.
Claude Opus 4.8 : Anthropic livre son modèle le plus fiable
En résumé
Anthropic a dévoilé Claude Opus 4.8 le 28 mai 2026, à peine 41 jours après Opus 4.7. Au menu : des gains nets en code agentique et en usage d'ordinateur, un modèle nettement plus honnête sur ses propres limites, un Fast Mode trois fois moins cher, et trois nouveautés produit (Dynamic Workflows, Effort Control, system entries dans la Messages API). Décryptage d'une montée en puissance « modeste mais tangible ».
Points forts
- Code agentique en hausse — 69,2 % sur SWE-bench Pro (vs 64,3 % pour Opus 4.7 et 58,6 % pour GPT-5.5)
- Honnêteté renforcée — ~4× moins susceptible de laisser passer un bug sans le signaler
- Meilleur modèle d'usage d'ordinateur — 84 % sur Online-Mind2Web, devant Opus 4.7 et GPT-5.5
- Fast Mode 3× moins cher — Opus 4.8 à 2,5× la vitesse pour un tiers du prix des générations précédentes
- Tarif API inchangé — 5 $ / 25 $ par million de tokens (entrée / sortie), comme Opus 4.7
- Trois nouveautés produit — Dynamic Workflows, Effort Control et system entries dans la Messages API
Points faibles
- Gain incrémental — Anthropic parle d'« amélioration modeste mais tangible », pas d'un saut de génération
- Coût de calcul — ~30 % de passes de calcul en plus que GPT-5.5 sur les tâches réelles
- Dynamic Workflows en preview — fonctionnalité encore en research preview, pas en GA
- Cadence soutenue — 41 jours après 4.7, le rythme de sortie complique la planification en entreprise
Claude Pro coche toutes les cases ? Lisez notre fiche complète.
| Outil | Prix | Note | Points forts | Points faibles | Verdict |
|---|---|---|---|---|---|
| 20 $/mois Pro · 5 $/25 $ API | 9.6/10 | Code agentique, honnêteté, usage d'ordinateur, Fast Mode 3× moins cher | 30 % de calcul en plus, Dynamic Workflows en preview | ||
| 20 $/mois Plus | 9.1/10 | Multimodal, écosystème vaste, plus économe en calcul | En retrait sur SWE-bench Pro et l'usage d'ordinateur | ||
Gemini 3.1 Ultra (Google)
|
Gemini Advanced | 9/10 | Contexte 2 M tokens, multimodal natif | Moins fort en code agentique pur | Imbattable sur le contexte long |
Opus 4.8 : 41 jours après Opus 4.7
Le 28 mai 2026, Anthropic a mis en ligne Claude Opus 4.8, son modèle phare, seulement 41 jours après Opus 4.7. Le modèle est disponible immédiatement sur claude.ai, via l'API (claude-opus-4-8), ainsi que sur Amazon Bedrock, Google Cloud Vertex AI et GitHub Copilot. La promesse d'Anthropic tient en une phrase : un Claude « au jugement plus affûté, plus honnête sur sa propre progression, et capable de travailler seul plus longtemps que ses prédécesseurs ».
La presse spécialisée a qualifié la mise à jour d'« amélioration modeste mais tangible » : pas de saut de génération spectaculaire, mais des gains nets là où ça compte pour un usage professionnel — le code, l'usage autonome d'un ordinateur, et surtout la fiabilité.
On recommande Claude Pro ★ 9.6/10
Offre Pro 20 $/mois — claude.ai
Les benchmarks : Opus 4.8 vs Opus 4.7 vs GPT-5.5
Sur le code agentique, le terrain où Anthropic est le plus attendu, les chiffres parlent :
- SWE-bench Pro (la version difficile) : 69,2 % pour Opus 4.8, contre 64,3 % pour Opus 4.7 et 58,6 % pour GPT-5.5.
- SWE-bench Verified : 88,6 % (vs 87,6 % pour Opus 4.7).
- Terminal-Bench 2.1 : 74,6 % (vs 66,1 %) — un bond important sur les tâches en ligne de commande.
- Online-Mind2Web (usage d'ordinateur / agent navigateur) : 84 %, le meilleur score du marché, devant Opus 4.7 et GPT-5.5.
Sur le raisonnement multidisciplinaire, Opus 4.8 obtient 49,8 % sans outils et 57,9 % avec outils sur Humanity's Last Exam — le meilleur résultat du secteur. Sur GDPval-AA, un benchmark de travail intellectuel « réel », le modèle atteint 1 890 points en effort « max » (contre 1 753 pour Opus 4.7 et 1 769 pour GPT-5.5), avec un taux de victoire en confrontation directe d'environ 67 % face à GPT-5.5.
La vraie nouveauté : l'honnêteté
Le point le plus intéressant n'est pas un score de benchmark, c'est un changement de comportement. Anthropic affirme qu'Opus 4.8 est environ quatre fois moins susceptible que son prédécesseur de laisser passer un défaut dans le code qu'il a écrit sans le signaler. Concrètement, le modèle dit plus souvent « attention, je ne suis pas sûr de cette partie » ou « ce test ne couvre pas le cas X », au lieu d'affirmer un succès qu'il n'a pas vérifié.
Pour quiconque utilise un agent IA en production, c'est un progrès majeur : le pire comportement d'un assistant de code n'est pas de se tromper, c'est de se tromper en prétendant avoir réussi. Anthropic relie cette amélioration à ses travaux d'alignement déjà visibles dans Claude Mythos, et plusieurs testeurs parlent d'un niveau d'alignement « proche de Mythos ».
Dynamic Workflows, Effort Control et Messages API
Trois nouveautés produit accompagnent le modèle :
- Dynamic Workflows (research preview, dans Claude Code) — Claude écrit un script d'orchestration pour une tâche trop grosse pour une seule conversation, puis l'exécute en lançant des centaines de sous-agents en parallèle. Idéal pour un audit de codebase complet, une migration sur des centaines de milliers de lignes, ou une question de recherche qui demande des recoupements.
- Effort Control (sur claude.ai et dans Cowork) — un curseur, à côté du sélecteur de modèle, pour décider à quel point Claude doit « se forcer » sur une réponse. Plus l'effort est élevé, plus le raisonnement est profond (et plus de tokens sont consommés).
- Messages API : system entries — l'API accepte désormais des entrées
systemdirectement dans le tableaumessages. On peut donc changer les instructions de Claude en cours de tâche sans casser le cache de prompt ni simuler un faux tour utilisateur. Un détail technique, mais qui change la vie des développeurs d'agents.
À noter aussi : un Legal Agent Benchmark sur lequel Opus 4.8 est le premier modèle à franchir la barre des 10 % en standard « all-pass » — symbolique, mais révélateur de l'ambition d'Anthropic sur les métiers du droit (voir aussi les nouveaux connecteurs juridiques détaillés dans notre analyse du changelog Claude de mai).
Prix : inchangé, et un Fast Mode 3× moins cher
Bonne surprise côté tarif : le prix de l'API ne bouge pas par rapport à Opus 4.7 — 5 $ par million de tokens en entrée, 25 $ en sortie. Mieux : le Fast Mode, qui fait tourner Opus 4.8 à 2,5× la vitesse normale, coûte désormais un tiers de ce qu'il coûtait sur les générations précédentes (10 $ / 50 $ par million de tokens). Pour les usages interactifs où la latence compte, c'est un argument fort.
Les limites à garder en tête
Tout n'est pas parfait. Malgré ses gains, Opus 4.8 nécessite encore environ 30 % de passes de calcul en plus que GPT-5.5 sur les tâches du monde réel : la qualité a un coût en compute. La fonctionnalité phare, Dynamic Workflows, reste en research preview et n'est pas encore en disponibilité générale. Et la cadence — 41 jours seulement après Opus 4.7 — est à double tranchant : excellente pour l'innovation, plus délicate pour les équipes qui doivent valider chaque modèle avant déploiement.
Verdict : la montée en gamme la plus utile de l'année
Opus 4.8 n'est pas une révolution, c'est une consolidation intelligente : meilleur en code, meilleur en usage d'ordinateur, nettement plus honnête, et moins cher en Fast Mode à prix API constant. Pour les développeurs et les équipes qui font déjà tourner des agents, la mise à jour est un quasi no-brainer. Pour les particuliers, les bénéfices arrivent automatiquement via Claude en Pro. Le vrai test grandeur nature sera Dynamic Workflows une fois sorti de preview — c'est là qu'Anthropic joue la carte de l'agent autonome à grande échelle.
À lire aussi : notre décryptage du changelog Claude de mai 2026, la riposte de Google avec Gemini 3.1 Ultra, et Mistral qui renomme Le Chat en Vibe.
