El nuevo modelo insignia de Anthropic, Claude Opus 4.7, ha establecido un récord de la industria en SWE-bench Verified con un resultado de 87,6%, superando todos los resultados publicados de modelos disponibles públicamente.
Qué mide SWE-bench
SWE-bench Verified evalúa si una IA puede resolver problemas reales de GitHub en repositorios open-source populares, requiriendo que el modelo lea un reporte de error, entienda el código, escriba una corrección y pase los tests existentes sin intervención humana.
Precio y disponibilidad
Claude Opus 4.7 tiene un precio de $5 por millón de tokens de entrada y $25 por millón de tokens de salida. Está disponible a través de la API de Anthropic y Claude.ai Pro.
Lo que esto significa para los desarrolladores
Con un 87,6%, el modelo puede corregir de forma fiable la mayoría de los errores del mundo real sin intervención humana, una capacidad que se consideraba inalcanzable hace tan solo 18 meses.