עודכן 26 בפברואר 2026

מדדי ביצועים של מודלי AI

השוואת מודלי הבינה המלאכותית המובילים במבחני קידוד, חשיבה, מתמטיקה וידע. הנתונים נאספו מפרסומים רשמיים והערכות עצמאיות.

מודלים בהשוואה

מדדים

קטגוריות

פבר׳ 2026

עדכון אחרון

דירוג כללי

ממוצע על פני כל המדדים (ציונים מנורמלים)

Gemini 3.1 Pro

Google

MathMultimodalLong contextReasoning

81.7

ציון ממוצע

Claude Opus 4.6

Anthropic

Long contextCodingAnalysisSafety

73.6

ציון ממוצע

GPT-5.3 Codex

OpenAI

Agentic tasksCodingTool use

72.8

ציון ממוצע

Claude Opus 4.5

Anthropic

Creative writingAnalysisReasoningSafety

69.7

ציון ממוצע

GPT-5.2

OpenAI

General purposeReasoningVersatility

69.2

ציון ממוצע

Claude Sonnet 4.6

Anthropic

CodingSpeedValueComputer use

69.0

ציון ממוצע

DeepSeek V4

DeepSeek

Cost efficiencyOpen weightsMath

68.0

ציון ממוצע

Grok 4

xAI

Real-time dataReasoningUncensored

67.3

ציון ממוצע

Gemini 3 Flash

Google

SpeedCostMultimodal

59.8

ציון ממוצע

Llama 4 405B

מדדי קידוד

משימות הנדסת תוכנה ויצירת קוד מהעולם האמיתי

SWE-Bench Verified

Real-world software engineering tasks from GitHub issues

גבוה יותר = טוב יותר

Claude Sonnet 4.6

82.1%

Claude Opus 4.6

79.2%

GPT-5.3 Codex

78.5%

Claude Opus 4.5

74.4%

Gemini 3.1 Pro

74.2%

GPT-5.2

72.4%

Grok 4

71.3%

DeepSeek V4

68.9%

Llama 4 405B

65.2%

Gemini 3 Flash

62.8%

HumanEval

Python code generation with unit test verification

גבוה יותר = טוב יותר

GPT-5.3 Codex

97.4%

Claude Opus 4.6

96.8%

Gemini 3.1 Pro

95.8%

Claude Sonnet 4.6

95.2%

Claude Opus 4.5

94.5%

GPT-5.2

94.1%

Grok 4

93.5%

DeepSeek V4

92.8%

Gemini 3 Flash

89.2%

Llama 4 405B

88.4%

מדדי ידע

ידע כללי והבנה בתחומים שונים

MMLU

Massive Multitask Language Understanding across 57 subjects

גבוה יותר = טוב יותר

Gemini 3.1 Pro

94.3%

GPT-5.3 Codex

93%

Claude Opus 4.6

91.3%

GPT-5.2

90.8%

Claude Opus 4.5

89.8%

Grok 4

89.2%

Claude Sonnet 4.6

88.7%

DeepSeek V4

88.4%

Gemini 3 Flash

86.5%

Llama 4 405B

86.1%

מדדי חשיבה

יכולות חשיבה מופשטת ופתרון בעיות

ARC-AGI-2

Abstract reasoning - designed to be easy for humans, hard for AI

גבוה יותר = טוב יותר

Gemini 3.1 Pro

77.1%

GPT-5.2

54%

GPT-5.3 Codex

51.8%

Claude Opus 4.6

48.2%

Grok 4

45.3%

Claude Opus 4.5

43.5%

Claude Sonnet 4.6

42.1%

DeepSeek V4

41.2%

Gemini 3 Flash

38.5%

Llama 4 405B

32.8%

GPQA Diamond

Graduate-level science questions (physics, chemistry, biology)

גבוה יותר = טוב יותר

Gemini 3.1 Pro

78.4%

Claude Opus 4.6

74.8%

Claude Opus 4.5

72.1%

GPT-5.3 Codex

71.5%

GPT-5.2

69.8%

Claude Sonnet 4.6

68.2%

Grok 4

67.3%

DeepSeek V4

65.8%

Llama 4 405B

61.2%

Gemini 3 Flash

58.2%

מדדי מתמטיקה

חשיבה מתמטית מרמה בסיסית ועד לתחרויות

MATH-500

Competition-level mathematics problems

גבוה יותר = טוב יותר

Gemini 3.1 Pro

91.2%

DeepSeek V4

85.3%

Claude Opus 4.6

82.4%

GPT-5.3 Codex

79.8%

Claude Opus 4.5

78.6%

Claude Sonnet 4.6

78.1%

Grok 4

77.8%

GPT-5.2

76.5%

Gemini 3 Flash

72.4%

Llama 4 405B

68.9%

AIME 2024

American Invitational Mathematics Examination problems

גבוה יותר = טוב יותר

Gemini 3.1 Pro

68.5%

DeepSeek V4

52.8%

Claude Opus 4.6

45.2%

GPT-5.3 Codex

42.8%

Grok 4

41.2%

Claude Opus 4.5

40.8%

GPT-5.2

40.1%

Claude Sonnet 4.6

38.4%

Gemini 3 Flash

28.6%

Llama 4 405B

25.4%

מדדי העדפת משתמשים

דירוגי העדפה מבוססי המון

Chatbot Arena Elo

Crowdsourced human preference ratings from 6M+ votes

דירוג Elo

Gemini 3.1 Pro

1348

Claude Opus 4.6

1342

GPT-5.3 Codex

1335

Claude Opus 4.5

1328

Claude Sonnet 4.6

1318

GPT-5.2

1312

Grok 4

1305

DeepSeek V4

1298

Gemini 3 Flash

1285

Llama 4 405B

1275

מפרטי המודלים

חלונות הקשר, מחירים ותאריכי שחרור

מודל	חברה	הקשר	פלט מקסימלי	קלט $/1M	פלט $/1M	שוחרר
Claude Opus 4.6	Anthropic	1.0M	128K	$15.00	$75.00	2026-02
Claude Opus 4.5	Anthropic	200K	32K	$15.00	$75.00	2025-10
Claude Sonnet 4.6	Anthropic	200K	64K	$3.00	$15.00	2026-02
GPT-5.3 Codex	OpenAI	256K	32K	$5.00	$20.00	2026-02
GPT-5.2	OpenAI	128K	16K	$2.50	$10.00	2025-12
Gemini 3.1 Pro	Google	2.0M	65.536K	$1.25	$5.00	2026-02
Gemini 3 Flash	Google	1.0M	32.768K	$0.07	$0.30	2026-01
Grok 4	xAI	256K	32K	$3.00	$15.00	2026-02
DeepSeek V4	DeepSeek	128K	16K	$0.14	$0.28	2026-02
Llama 4 405B	Meta	128K	16K	חינם	חינם	2026-01

מתודולוגיה ומקורות

ציוני המדדים נאספים מפרסומים רשמיים של המודלים, מאמרים מחקריים ופלטפורמות הערכה עצמאיות. אנו מעדיפים תוצאות מאומתות וניתנות לשחזור.

הסבר על המדדים העיקריים

SWE-Bench Verified: משימות הנדסת תוכנה אמיתיות מ-GitHub, בוחנות יכולת קידוד מלאה
HumanEval: יצירת קוד Python עם אימות בדיקות יחידה (164 בעיות)
MMLU: מבחן ידע ב-57 נושאים מדעי, הומניסטי וחברתי
ARC-AGI-2: חשיבה מופשטת - קל לבני אדם, קשה ל-AI
GPQA Diamond: שאלות מדע ברמת תואר שני הדורשות הבנה עמוקה
MATH-500: מתמטיקה ברמת תחרויות מ-AMC ועד IMO
Chatbot Arena: דירוגי ELO מיותר מ-6 מיליון הצבעות העדפה אנושית

מגבלות

מדדים אינם משקפים את כל היכולות בעולם האמיתי
ציונים יכולים להשתנות בהתאם לפרומפט ולהגדרות ההערכה
חלק מהמדדים עשויים להיות רוויים במודלים מתקדמים
מחירים ויכולות משתנים לעיתים קרובות

רוצים להישאר מעודכנים על מודלי AI?

אנחנו מעדכנים את המדדים כשמודלים חדשים משוחררים ונבדקים.

עקבו אחרי חדשות AI