Новая флагманская модель Anthropic — Claude Opus 4.7 — установила рекорд в отрасли на SWE-bench Verified, золотом стандарте для оценки ИИ в разработке программного обеспечения. Результат составил 87,6% — выше всех ранее опубликованных показателей для публично доступных моделей.
Что измеряет SWE-bench
SWE-bench Verified проверяет, способен ли ИИ решать реальные задачи из GitHub-репозиториев популярных open-source проектов. Каждое задание требует от модели прочитать описание бага, разобраться в кодовой базе, написать исправление и пройти существующие тесты — без помощи человека.
Цены и доступность
Claude Opus 4.7 стоит $5 за миллион входящих токенов и $25 за миллион исходящих — позиционируется как премиальный вариант для команд, создающих агентные рабочие процессы. Доступна через Anthropic API и Claude.ai Pro.
Что это значит для разработчиков
Результат сигнализирует о качественном сдвиге в том, что ИИ-агенты могут делать автономно. При 87,6% модель способна надёжно исправлять большинство реальных багов без вмешательства человека — возможность, которая ещё 18 месяцев назад считалась недостижимой.
Anthropic описывает Claude Opus 4.7 как модель, созданную специально для долгосрочных агентных задач: многошаговых проектов по разработке, автоматизированных тестовых конвейеров и сложных рефакторингов, которые раньше требовали опытных инженеров.