Anthropics neuestes Flaggschiffmodell, Claude Opus 4.7, hat auf SWE-bench Verified einen Branchenrekord mit einem Score von 87,6 % aufgestellt und übertrifft damit alle bisher veröffentlichten Ergebnisse öffentlich verfügbarer Modelle.
Was SWE-bench misst
SWE-bench Verified testet, ob eine KI echte GitHub-Issues aus populären Open-Source-Repositories lösen kann. Jede Aufgabe erfordert, dass das Modell einen Fehlerbericht liest, die Codebasis versteht, einen Fix schreibt und die vorhandenen Tests besteht — ohne menschliche Hilfe.
Preise und Verfügbarkeit
Claude Opus 4.7 kostet 5 $ pro Million Eingabe-Tokens und 25 $ pro Million Ausgabe-Tokens. Es ist über die Anthropic API und Claude.ai Pro verfügbar.
Was das für Entwickler bedeutet
Bei 87,6 % kann das Modell die Mehrheit realer Bugs zuverlässig ohne menschliche Eingriffe beheben — eine Fähigkeit, die noch vor 18 Monaten als unerreichbar galt.