מדדי ביצועים של מודלי AI
השוואת מודלי הבינה המלאכותית המובילים במבחני קידוד, חשיבה, מתמטיקה וידע. הנתונים נאספו מפרסומים רשמיים והערכות עצמאיות.
דירוג כללי
ממוצע על פני כל המדדים (ציונים מנורמלים)
Gemini 3.1 Pro
GoogleClaude Opus 4.6
AnthropicGPT-5.3 Codex
OpenAIClaude Opus 4.5
AnthropicGPT-5.2
OpenAIClaude Sonnet 4.6
AnthropicDeepSeek V4
DeepSeekGrok 4
xAIGemini 3 Flash
GoogleLlama 4 405B
Metaמדדי קידוד
משימות הנדסת תוכנה ויצירת קוד מהעולם האמיתי
SWE-Bench Verified
Real-world software engineering tasks from GitHub issues
HumanEval
Python code generation with unit test verification
מדדי ידע
ידע כללי והבנה בתחומים שונים
MMLU
Massive Multitask Language Understanding across 57 subjects
מדדי חשיבה
יכולות חשיבה מופשטת ופתרון בעיות
ARC-AGI-2
Abstract reasoning - designed to be easy for humans, hard for AI
GPQA Diamond
Graduate-level science questions (physics, chemistry, biology)
מדדי מתמטיקה
חשיבה מתמטית מרמה בסיסית ועד לתחרויות
MATH-500
Competition-level mathematics problems
AIME 2024
American Invitational Mathematics Examination problems
מדדי העדפת משתמשים
דירוגי העדפה מבוססי המון
Chatbot Arena Elo
Crowdsourced human preference ratings from 6M+ votes
מפרטי המודלים
חלונות הקשר, מחירים ותאריכי שחרור
| מודל | חברה | הקשר | פלט מקסימלי | קלט $/1M | פלט $/1M | שוחרר |
|---|---|---|---|---|---|---|
| Claude Opus 4.6 | Anthropic | 1.0M | 128K | $15.00 | $75.00 | 2026-02 |
| Claude Opus 4.5 | Anthropic | 200K | 32K | $15.00 | $75.00 | 2025-10 |
| Claude Sonnet 4.6 | Anthropic | 200K | 64K | $3.00 | $15.00 | 2026-02 |
| GPT-5.3 Codex | OpenAI | 256K | 32K | $5.00 | $20.00 | 2026-02 |
| GPT-5.2 | OpenAI | 128K | 16K | $2.50 | $10.00 | 2025-12 |
| Gemini 3.1 Pro | 2.0M | 65.536K | $1.25 | $5.00 | 2026-02 | |
| Gemini 3 Flash | 1.0M | 32.768K | $0.07 | $0.30 | 2026-01 | |
| Grok 4 | xAI | 256K | 32K | $3.00 | $15.00 | 2026-02 |
| DeepSeek V4 | DeepSeek | 128K | 16K | $0.14 | $0.28 | 2026-02 |
| Llama 4 405B | Meta | 128K | 16K | חינם | חינם | 2026-01 |
מתודולוגיה ומקורות
ציוני המדדים נאספים מפרסומים רשמיים של המודלים, מאמרים מחקריים ופלטפורמות הערכה עצמאיות. אנו מעדיפים תוצאות מאומתות וניתנות לשחזור.
הסבר על המדדים העיקריים
- SWE-Bench Verified: משימות הנדסת תוכנה אמיתיות מ-GitHub, בוחנות יכולת קידוד מלאה
- HumanEval: יצירת קוד Python עם אימות בדיקות יחידה (164 בעיות)
- MMLU: מבחן ידע ב-57 נושאים מדעי, הומניסטי וחברתי
- ARC-AGI-2: חשיבה מופשטת - קל לבני אדם, קשה ל-AI
- GPQA Diamond: שאלות מדע ברמת תואר שני הדורשות הבנה עמוקה
- MATH-500: מתמטיקה ברמת תחרויות מ-AMC ועד IMO
- Chatbot Arena: דירוגי ELO מיותר מ-6 מיליון הצבעות העדפה אנושית
מגבלות
- מדדים אינם משקפים את כל היכולות בעולם האמיתי
- ציונים יכולים להשתנות בהתאם לפרומפט ולהגדרות ההערכה
- חלק מהמדדים עשויים להיות רוויים במודלים מתקדמים
- מחירים ויכולות משתנים לעיתים קרובות
רוצים להישאר מעודכנים על מודלי AI?
אנחנו מעדכנים את המדדים כשמודלים חדשים משוחררים ונבדקים.
עקבו אחרי חדשות AI