Passer au contenu principal
RM
Retour au blog

72.5% sur SWE-bench, compréhension multi-fichiers — Opus 4 change la donne pour les développeurs.

Radnoumane Mossabely9 min read
Claude Opus 4
Claude
Anthropic
Opus 4
Coding
LLM
0 vues

TL;DR

  • Claude Opus 4 (mai 2025) atteint 72.5% sur SWE-bench Verified, le meilleur score jamais obtenu par un modele de code.
  • Sa force : la comprehension multi-fichiers et la capacite a naviguer dans des codebases entieres.
  • Claude Code, le CLI officiel d'Anthropic, exploite directement ces capacites pour du pair programming reel.
  • Opus 4 n'est pas parfait : lent, cher, et il halluine encore sur les APIs peu connues.
  • Pour le coding, la combinaison Opus 4 (taches complexes) + Sonnet 4 (taches rapides) est la strategie optimale.

Le contexte : la course au meilleur modele de code

Depuis deux ans, la capacite des LLM a ecrire du code est le champ de bataille le plus intense de l'IA. GPT-4 a lance la course en mars 2023. Depuis, chaque release majeure est jugee sur ses benchmarks de code avant tout le reste.

SWE-bench Verified est devenu le benchmark de reference. Il presente au modele de vrais issues GitHub de projets open source (Django, Flask, scikit-learn, sympy...) et lui demande de produire un patch qui passe les tests. Pas du code jouet. Du vrai debug, dans de vraies codebases, avec de vrais tests de regression.

En un an, les scores ont explose :

ModeleDateSWE-bench Verified
GPT-4Mars 2023~15%
Claude 3.5 SonnetJuin 2024~49%
GPT-4oAout 2024~38%
Claude 3.5 Sonnet (new)Oct 2024~53%
GPT-4.1Avril 2025~55%
Claude Opus 4Mai 2025~72.5%

Le bond de 53% a 72.5% n'est pas incremental. C'est un saut qualitatif. A 72.5%, le modele resout presque trois quarts des vrais bugs de production qu'on lui presente.

Ce qu'Opus 4 fait concretement mieux

Les benchmarks sont une chose. L'utilisation quotidienne en est une autre. Apres plusieurs semaines d'utilisation intensive, voici ce qui distingue Opus 4 de ses predecesseurs et concurrents.

La comprehension multi-fichiers. C'est la ou Opus 4 creuse l'ecart. Les modeles precedents etaient bons pour corriger un bug dans un fichier isole. Opus 4 comprend les interactions entre fichiers. Tu lui donnes un bug qui se manifeste dans le controller mais dont la cause est dans le service qui appelle un repository qui a une mauvaise requete SQL, et il suit la chaine. Il lit le controller, comprend qu'il appelle le service, va lire le service, voit l'appel au repository, lit la requete, et identifie le probleme.

Le suivi d'instructions complexes. "Refactorise cette classe en suivant le pattern Strategy, mais garde la retrocompatibilite avec l'API existante, et assure-toi que les tests passent toujours." Ce genre d'instruction a multiples contraintes, les modeles precedents en rataient souvent une partie. Opus 4 est nettement plus fiable sur le respect simultane de plusieurs contraintes.

La generation de tests. Ce n'est pas nouveau, tous les LLM generent des tests. Mais Opus 4 genere des tests qui testent les bons edge cases. Il identifie les chemins d'execution critiques, les cas limites, les interactions entre composants. Les tests generes ne sont pas juste syntaxiquement corrects, ils sont utiles.

L'agentic coding. Opus 4 a ete concu pour fonctionner en mode agent : il peut lire des fichiers, executer des commandes, verifier les resultats, et iterer. C'est cette capacite qui alimente Claude Code et qui explique les scores SWE-bench : le modele ne se contente pas de generer un patch, il le teste et l'ajuste.

Claude Code : le pair programmer

Claude Code est le CLI officiel d'Anthropic. Tu l'installes, tu le lances dans ton terminal, et tu as un assistant qui a acces a ton systeme de fichiers, peut executer des commandes, et comprend le contexte de ton projet.

hljs bash
# Installation
npm install -g @anthropic-ai/claude-code

# Lancement dans ton projet
cd mon-projet
claude

# Exemples d'utilisation
> Explique-moi l'architecture de ce projet
> Corrige le bug dans le test qui echoue
> Refactorise le module auth pour utiliser des tokens JWT
> Ajoute un endpoint GET /api/users/{id}/orders avec les tests

Ce qui rend Claude Code different d'un simple chat avec copier-coller :

  • Il lit ton arborescence de fichiers et comprend la structure du projet.
  • Il execute les tests et voit les erreurs.
  • Il edite directement les fichiers (avec ta confirmation).
  • Il itere : si un test echoue apres sa modification, il corrige et reteste.
  • Il utilise MCP pour se connecter a des outils externes (Git, bases de donnees, APIs).

Avec Opus 4 comme modele sous-jacent, Claude Code devient un veritable pair programmer. Pas un auto-completeur glorifie. Un collaborateur qui comprend ton code, propose des solutions, et verifie son travail.

Opus 4 vs GPT-4.1 vs Gemini 2.5 Pro

La comparaison est inevitable. Voici un bilan honnete basee sur une utilisation reelle, pas juste sur les benchmarks.

CritereOpus 4GPT-4.1Gemini 2.5 Pro
SWE-bench Verified~72.5%~55%~63%
Multi-fichiersExcellentBonTres bon
Contexte max200K1M1M
VitesseLentRapideMoyen
CoutEleveMoyenMoyen
Suivi d'instructionsExcellentTres bonBon
Mode agentNatif (Claude Code)Via CodexVia Jules
Hallucinations codeRareOccasionnelOccasionnel

La ou Opus 4 gagne clairement : la comprehension profonde du code, le respect des contraintes multiples, le mode agent. Pour du refactoring complexe, du debug multi-fichiers, ou de l'architecture, il est au-dessus.

La ou GPT-4.1 gagne : la fenetre de contexte (1M vs 200K), la vitesse de reponse, le cout. Pour charger une codebase entiere et poser des questions, GPT-4.1 est plus pratique.

La ou Gemini 2.5 Pro brille : l'analyse de longs contextes (Google a optimise ca en profondeur), le cout, et le support multimodal natif. Pour analyser des screenshots d'UI ou des diagrammes d'architecture en plus du code, Gemini est fort.

Ce qui ne va pas encore

L'honnetete intellectuelle oblige a lister ce qui reste problematique.

La vitesse. Opus 4 est lent. Significativement plus lent que Sonnet 4 ou GPT-4.1. Pour des taches simples (renommer une variable, ajouter un import), l'attente est frustrante. C'est pour ca que la strategie recommandee est Opus pour les taches complexes, Sonnet pour le quotidien.

Le cout. Opus 4 est le modele le plus cher du marche. Pour une utilisation intensive via l'API, la facture monte vite. Claude Code avec un abonnement Max attenué ce probleme, mais l'utilisation via API reste couteuse.

Les hallucinations sur les APIs rares. Sur React, Spring Boot, Django -- les frameworks populaires -- Opus 4 est tres fiable. Sur des bibliotheques moins connues ou des versions recentes, il invente encore des APIs qui n'existent pas. C'est le probleme fondamental des LLM : ils generent du texte plausible, pas forcement correct.

La fenetre de contexte. 200K tokens, c'est beaucoup, mais c'est quatre fois moins que GPT-4.1 ou Gemini. Sur de tres gros projets, ca peut etre limitant. Anthropic compense avec une meilleure utilisation du contexte disponible (moins de "lost in the middle"), mais la limite physique reste la.

Le manque de multimodal avance. Opus 4 comprend les images, mais ne genere pas de diagrammes, ne dessine pas d'UI. Pour un modele "de code", pouvoir generer un mockup visuel serait un plus enorme.

Sonnet 4 : le sidekick indispensable

Anthropic a sorti Sonnet 4 en meme temps qu'Opus 4. C'est le modele que tu utiliseras 80% du temps.

Sonnet 4 est plus rapide, moins cher, et tres bon sur les taches de code courantes. Il n'a pas la profondeur d'analyse d'Opus 4 sur les problemes complexes, mais pour le quotidien -- ecrire une fonction, corriger un bug simple, generer un test, expliquer du code -- il est largement suffisant et beaucoup plus reactif.

La strategie optimale :

  • Sonnet 4 : autocompletion, questions rapides, generation de code standard, tests unitaires simples.
  • Opus 4 : debug multi-fichiers, refactoring complexe, architecture, review de PR, taches agentiques longues.

C'est exactement ce que fait Claude Code : il utilise Sonnet par defaut et monte sur Opus quand la complexite l'exige.

Ce que ca change pour le metier de developpeur

Opus 4 n'est pas juste un meilleur modele de code. C'est un signal sur la direction du metier.

Le debug change. Au lieu de passer des heures a tracer un bug dans une codebase, tu decris les symptomes a un agent qui a acces au code. Il explore, il teste, il isole. Tu supervises au lieu de fouiller.

Les revues de code evoluent. Un modele qui comprend le contexte multi-fichiers peut faire une premiere passe de review significative. Pas pour remplacer la review humaine, mais pour attraper les problemes structurels, les violations de patterns, les regressions potentielles.

L'architecture devient plus accessible. Tu peux discuter d'une decision architecturale avec un modele qui comprend l'etat actuel du code. "Si je deplace cette logique dans un service separe, quels fichiers sont impactes ?" C'est une question qu'Opus 4 peut traiter de facon fiable.

Le niveau d'entree monte. Les taches de code "mecaniques" (CRUD, boilerplate, serialisation) sont de plus en plus automatisees. Ce qui reste, et ce qui prend de la valeur, c'est la comprehension du domaine metier, les decisions d'architecture, et la capacite a formuler clairement ce qu'on veut construire.

Le meilleur modele de code ? Probablement, en mai 2025. Mais la question interessante n'est pas "quel est le meilleur modele". C'est "comment je travaille differemment maintenant que ces modeles existent".

Ressources

Partager: