המודל הדגל החדש של Anthropic, Claude Opus 4.7, קבע שיא ענפי ב-SWE-bench Verified עם ציון של 87.6%, ועוקף את כל התוצאות שפורסמו עבור מודלים זמינים לציבור.
מה SWE-bench מודד
SWE-bench Verified בודק האם בינה מלאכותית יכולה לפתור בעיות GitHub אמיתיות ממאגרים פופולריים בקוד פתוח, תוך שהמודל קורא דוח באג, מבין את בסיס הקוד, כותב תיקון ועובר את הבדיקות הקיימות ללא הדרכה אנושית.
תמחור וזמינות
Claude Opus 4.7 מתומחר ב-$5 למיליון טוקן קלט ו-$25 למיליון טוקן פלט. זמין דרך Anthropic API ו-Claude.ai Pro.
המשמעות למפתחים
עם 87.6%, המודל יכול לתקן באופן אמין את רוב הבאגים האמיתיים ללא התערבות אנושית — יכולת שנחשבה בלתי אפשרית לפני 18 חודשים בלבד.