Claude Opus 4.1 : retour après deux semaines d'utilisation

TL;DR

Opus 4.1 est une mise a jour significative d'Opus 4 : meilleur suivi des instructions, refactoring multi-fichiers plus fiable, moins d'hallucinations sur le code.

Les limites de la fenetre de contexte restent frustrantes sur les gros projets. Au-dela de 80K tokens, la qualite se degrade.

En comparaison avec GPT-4.1, Opus 4.1 gagne sur le code et les instructions complexes, perd sur la vitesse brute.

Mon verdict : un excellent senior dev virtuel, pas un architecte. Il execute bien, il ne decide pas a ta place.

Contexte : pourquoi tester serieusement

Quand Anthropic a sorti Opus 4 en mai 2025, j'ai ete impressionne. Pour la premiere fois, un LLM produisait du code que je pouvais merger sans recrire la moitie. Trois mois plus tard, Opus 4.1 est arrive. Pas une revolution annoncee -- une mise a jour "incrementale" selon le blog officiel.

J'ai decide de le tester serieusement pendant deux semaines. Pas juste des prompts isoles, mais mon workflow quotidien complet : refactoring, debugging, generation de tests, review de code, redaction technique. Voici ce que j'en retiens.

Ce qui a change par rapport a Opus 4

Le suivi d'instructions est nettement meilleur

C'etait le point faible d'Opus 4 : tu lui donnais un brief detaille, et il en oubliait la moitie. "Utilise TypeScript strict, pas de any, noms en camelCase, tests avec Vitest" -- et tu retrouvais du any partout avec des tests Jest.

Opus 4.1 suit les instructions de maniere beaucoup plus fiable. Sur mes tests, le taux de conformite aux consignes est passe d'environ 70% a 90%. Ce n'est pas parfait, mais c'est la difference entre "je relis tout" et "je relis les points critiques".

Le refactoring multi-fichiers tient la route

C'est probablement l'amelioration la plus visible au quotidien. Demander a Opus 4 de renommer un type et propager le changement sur 15 fichiers, c'etait la loterie. Un fichier oublie ici, un import casse la. Opus 4.1 gere ca de maniere beaucoup plus coherente. Il identifie les dependances, propage les changements, et verifie la coherence des imports.

J'ai teste avec un refactoring reel : renommer une interface UserData en UserProfile sur un projet Next.js avec 23 fichiers concernes. Opus 4 en ratait 4. Opus 4.1 les a tous eu du premier coup.

Moins d'hallucinations, mais pas zero

Les hallucinations sur le code ont diminue. Opus 4 inventait parfois des API qui n'existaient pas -- un useOptimistic avec une signature fantaisiste, un parametre cache: 'force-dynamic' sorti de nulle part. Opus 4.1 fait ca beaucoup moins souvent.

Mais "moins souvent" n'est pas "jamais". Sur deux semaines, j'ai note trois hallucinations claires :

Une methode Array.groupBy() utilisee comme si elle etait standardisee (elle est en stage 3)
Un parametre timeout sur fetch() qui n'existe pas nativement
Une option de configuration Vite qui n'a jamais existe

C'est mieux, mais ca confirme une regle fondamentale : ne jamais merger sans relire.

Ce qui decoite encore

La fenetre de contexte a ses limites

Sur le papier, Opus 4.1 gere 200K tokens. En pratique, au-dela de 80K tokens injectes, la qualite se degrade. Le modele oublie des fichiers mentionnes en debut de conversation, melange des conventions entre projets, ou repete des solutions deja essayees.

Ce n'est pas specifique a Opus -- c'est un probleme fondamental des transformers. Mais c'est frustrant quand tu bosses sur un projet avec 50 fichiers et que tu dois segmenter tes sessions artificiellement.

Ma strategie : des sessions courtes et focalisees. Un objectif par conversation. Si le contexte grossit trop, je recommence propre avec un nouveau brief.

Les regressions existent

Parfois, Opus 4.1 fait moins bien qu'Opus 4 sur certaines taches. J'ai note deux cas :

La generation de CSS complexe (grid layouts avec des zones nommees) etait meilleure avant
Les regex complexes semblent moins bien geres -- plus d'erreurs sur les lookaheads

C'est un phenomene connu dans l'industrie : chaque mise a jour d'un LLM ameliore certaines capacites et en degrade d'autres. C'est pourquoi les benchmarks agreges sont trompeurs.

La vitesse n'a pas bouge

Opus 4.1 est toujours lent. Sur une generation de 500 lignes de code, compte 45 a 90 secondes. C'est le prix de la qualite -- Sonnet est 3x plus rapide mais produit du code moins fiable. Pour le code critique, j'accepte l'attente. Pour du boilerplate, je bascule sur Sonnet.

Comparaison honnete avec GPT-4.1

GPT-4.1 est sorti quasi au meme moment. Voici mon comparatif subjectif apres avoir utilise les deux :

Critere	Opus 4.1	GPT-4.1
Suivi d'instructions	Excellent	Bon
Code TypeScript	Superieur	Correct
Vitesse	Lent	Rapide
Refactoring multi-fichiers	Fiable	Moyen
Hallucinations	Rares	Occasionnelles
Documentation/explications	Tres bon	Excellent
Cout	Cher	Cher

GPT-4.1 est plus rapide et produit de meilleures explications en prose. Opus 4.1 est plus fiable sur le code et suit mieux les contraintes techniques. Mon choix pour le dev quotidien : Opus. Pour de la redaction technique ou de la doc : GPT.

Ce que ca change dans mon workflow

Avant Opus 4.1

Je traitais le LLM comme un assistant de recherche. Je lui posais des questions, je recuperais des bouts de code, je les adaptais manuellement. Le ratio temps-agent / temps-moi etait d'environ 30/70.

Avec Opus 4.1

Le ratio s'est inverse sur certaines taches : 70/30. Je decris l'objectif, l'agent produit une premiere version, je review et ajuste. Sur le refactoring et les tests, c'est un gain de temps reel. Sur l'architecture et la logique metier, je code toujours moi-meme.

Les taches ou le gain est maximal :

Tests unitaires et d'integration (gain 3x)
Refactoring et renommage (gain 2-3x)
Migration de dependances (gain 2x)
Boilerplate CRUD (gain 4-5x)

Les taches ou le gain est nul voire negatif :

Architecture systeme (je perds du temps a corriger ses decisions)
Logique metier complexe (il ne comprend pas le domaine)
Debugging de problemes subtils (il propose des solutions generiques)

Mon verdict

Opus 4.1 est le meilleur modele que j'ai utilise pour le code. Mais "meilleur" ne veut pas dire "suffisant". C'est un excellent senior dev virtuel : il execute bien, il suit les consignes, il produit du code propre. Ce n'est pas un architecte. Il ne prend pas de bonnes decisions systeme. Il ne comprend pas pourquoi tu fais les choses, seulement comment les faire.

La regle que j'applique : si je peux decrire precisement ce que je veux en 5 minutes, l'agent le fera mieux et plus vite que moi. Si je dois reflechir 30 minutes pour savoir quoi faire, l'agent ne m'aidera pas.

C'est un outil puissant. Pas un remplacement. Et c'est largement suffisant pour transformer ma productivite au quotidien.