O novo modelo carro-chefe da Anthropic, Claude Opus 4.7, estabeleceu um recorde no SWE-bench Verified com uma pontuação de 87,6%, superando todos os resultados publicados de modelos disponíveis publicamente.

O que o SWE-bench mede

O SWE-bench Verified testa se uma IA consegue resolver problemas reais do GitHub em repositórios open-source populares, exigindo que o modelo leia um relatório de bug, entenda o código, escreva uma correção e passe nos testes existentes sem orientação humana.

Preço e disponibilidade

O Claude Opus 4.7 tem preço de $5 por milhão de tokens de entrada e $25 por milhão de tokens de saída. Está disponível via API da Anthropic e Claude.ai Pro.

O que isso significa para desenvolvedores

Com 87,6%, o modelo pode corrigir de forma confiável a maioria dos bugs do mundo real sem intervenção humana — uma capacidade considerada fora de alcance há apenas 18 meses.