Claude Opus 4.7 установил рекорд на SWE-bench: 87,6%

Новая флагманская модель Anthropic — Claude Opus 4.7 — установила рекорд в отрасли на SWE-bench Verified, золотом стандарте для оценки ИИ в разработке программного обеспечения. Результат составил 87,6% — выше всех ранее опубликованных показателей для публично доступных моделей.

Что измеряет SWE-bench

SWE-bench Verified проверяет, способен ли ИИ решать реальные задачи из GitHub-репозиториев популярных open-source проектов. Каждое задание требует от модели прочитать описание бага, разобраться в кодовой базе, написать исправление и пройти существующие тесты — без помощи человека.

Цены и доступность

Claude Opus 4.7 стоит $5 за миллион входящих токенов и $25 за миллион исходящих — позиционируется как премиальный вариант для команд, создающих агентные рабочие процессы. Доступна через Anthropic API и Claude.ai Pro.

Что это значит для разработчиков

Результат сигнализирует о качественном сдвиге в том, что ИИ-агенты могут делать автономно. При 87,6% модель способна надёжно исправлять большинство реальных багов без вмешательства человека — возможность, которая ещё 18 месяцев назад считалась недостижимой.

Anthropic описывает Claude Opus 4.7 как модель, созданную специально для долгосрочных агентных задач: многошаговых проектов по разработке, автоматизированных тестовых конвейеров и сложных рефакторингов, которые раньше требовали опытных инженеров.