Le nouveau modèle phare d'Anthropic, Claude Opus 4.7, a établi un record de l'industrie sur SWE-bench Verified avec un score de 87,6 %, dépassant tous les résultats publiés pour des modèles accessibles au public.

Ce que mesure SWE-bench

SWE-bench Verified teste si une IA peut résoudre de vrais problèmes GitHub dans des dépôts open-source populaires. Chaque tâche exige que le modèle lise un rapport de bug, comprenne la base de code, écrive un correctif et passe les tests existants, sans aide humaine.

Tarification et disponibilité

Claude Opus 4.7 est facturé 5 $ par million de tokens d'entrée et 25 $ par million de tokens de sortie. Il est disponible via l'API Anthropic et Claude.ai Pro.

Ce que cela signifie pour les développeurs

À 87,6 %, le modèle peut corriger de manière fiable la majorité des bugs réels sans intervention humaine — une capacité considérée hors de portée il y a seulement 18 mois.