Actualizado 26 de febrero de 2026

Benchmarks de Modelos de IA

Compara los ultimos modelos de IA en benchmarks de programacion, razonamiento, matematicas y conocimiento. Datos obtenidos de publicaciones oficiales y evaluaciones independientes.

Modelos Comparados

Benchmarks

Categorias

Feb 2026

Ultima Actualizacion

Clasificacion General

Promediado en todos los benchmarks (puntuaciones normalizadas)

Gemini 3.1 Pro

Google

MathMultimodalLong contextReasoning

81.7

punt. prom.

Claude Opus 4.6

Anthropic

Long contextCodingAnalysisSafety

73.6

punt. prom.

GPT-5.3 Codex

OpenAI

Agentic tasksCodingTool use

72.8

punt. prom.

Claude Opus 4.5

Anthropic

Creative writingAnalysisReasoningSafety

69.7

punt. prom.

GPT-5.2

OpenAI

General purposeReasoningVersatility

69.2

punt. prom.

Claude Sonnet 4.6

Anthropic

CodingSpeedValueComputer use

69.0

punt. prom.

DeepSeek V4

DeepSeek

Cost efficiencyOpen weightsMath

68.0

punt. prom.

Grok 4

xAI

Real-time dataReasoningUncensored

67.3

punt. prom.

Gemini 3 Flash

Google

SpeedCostMultimodal

59.8

punt. prom.

Llama 4 405B

Benchmarks de Programacion

Tareas de ingenieria de software y generacion de codigo del mundo real

SWE-Bench Verified

Real-world software engineering tasks from GitHub issues

Mayor es mejor

Claude Sonnet 4.6

82.1%

Claude Opus 4.6

79.2%

GPT-5.3 Codex

78.5%

Claude Opus 4.5

74.4%

Gemini 3.1 Pro

74.2%

GPT-5.2

72.4%

Grok 4

71.3%

DeepSeek V4

68.9%

Llama 4 405B

65.2%

Gemini 3 Flash

62.8%

HumanEval

Python code generation with unit test verification

Mayor es mejor

GPT-5.3 Codex

97.4%

Claude Opus 4.6

96.8%

Gemini 3.1 Pro

95.8%

Claude Sonnet 4.6

95.2%

Claude Opus 4.5

94.5%

GPT-5.2

94.1%

Grok 4

93.5%

DeepSeek V4

92.8%

Gemini 3 Flash

89.2%

Llama 4 405B

88.4%

Benchmarks de Conocimiento

Conocimiento general y comprension en diversos dominios

MMLU

Massive Multitask Language Understanding across 57 subjects

Mayor es mejor

Gemini 3.1 Pro

94.3%

GPT-5.3 Codex

93%

Claude Opus 4.6

91.3%

GPT-5.2

90.8%

Claude Opus 4.5

89.8%

Grok 4

89.2%

Claude Sonnet 4.6

88.7%

DeepSeek V4

88.4%

Gemini 3 Flash

86.5%

Llama 4 405B

86.1%

Benchmarks de Razonamiento

Capacidades de razonamiento abstracto y resolucion de problemas

ARC-AGI-2

Abstract reasoning - designed to be easy for humans, hard for AI

Mayor es mejor

Gemini 3.1 Pro

77.1%

GPT-5.2

54%

GPT-5.3 Codex

51.8%

Claude Opus 4.6

48.2%

Grok 4

45.3%

Claude Opus 4.5

43.5%

Claude Sonnet 4.6

42.1%

DeepSeek V4

41.2%

Gemini 3 Flash

38.5%

Llama 4 405B

32.8%

GPQA Diamond

Graduate-level science questions (physics, chemistry, biology)

Mayor es mejor

Gemini 3.1 Pro

78.4%

Claude Opus 4.6

74.8%

Claude Opus 4.5

72.1%

GPT-5.3 Codex

71.5%

GPT-5.2

69.8%

Claude Sonnet 4.6

68.2%

Grok 4

67.3%

DeepSeek V4

65.8%

Llama 4 405B

61.2%

Gemini 3 Flash

58.2%

Benchmarks de Matematicas

Razonamiento matematico desde nivel basico hasta competiciones

MATH-500

Competition-level mathematics problems

Mayor es mejor

Gemini 3.1 Pro

91.2%

DeepSeek V4

85.3%

Claude Opus 4.6

82.4%

GPT-5.3 Codex

79.8%

Claude Opus 4.5

78.6%

Claude Sonnet 4.6

78.1%

Grok 4

77.8%

GPT-5.2

76.5%

Gemini 3 Flash

72.4%

Llama 4 405B

68.9%

AIME 2024

American Invitational Mathematics Examination problems

Mayor es mejor

Gemini 3.1 Pro

68.5%

DeepSeek V4

52.8%

Claude Opus 4.6

45.2%

GPT-5.3 Codex

42.8%

Grok 4

41.2%

Claude Opus 4.5

40.8%

GPT-5.2

40.1%

Claude Sonnet 4.6

38.4%

Gemini 3 Flash

28.6%

Llama 4 405B

25.4%

Benchmarks de Preferencia Humana

Calificaciones de preferencia humana basadas en multitudes

Chatbot Arena Elo

Crowdsourced human preference ratings from 6M+ votes

Puntuacion Elo

Gemini 3.1 Pro

1348

Claude Opus 4.6

1342

GPT-5.3 Codex

1335

Claude Opus 4.5

1328

Claude Sonnet 4.6

1318

GPT-5.2

1312

Grok 4

1305

DeepSeek V4

1298

Gemini 3 Flash

1285

Llama 4 405B

1275

Especificaciones de los Modelos

Ventanas de contexto, precios e informacion de lanzamiento

Modelo	Empresa	Contexto	Salida Max	Entrada $/1M	Salida $/1M	Lanzamiento
Claude Opus 4.6	Anthropic	1.0M	128K	$15.00	$75.00	2026-02
Claude Opus 4.5	Anthropic	200K	32K	$15.00	$75.00	2025-10
Claude Sonnet 4.6	Anthropic	200K	64K	$3.00	$15.00	2026-02
GPT-5.3 Codex	OpenAI	256K	32K	$5.00	$20.00	2026-02
GPT-5.2	OpenAI	128K	16K	$2.50	$10.00	2025-12
Gemini 3.1 Pro	Google	2.0M	65.536K	$1.25	$5.00	2026-02
Gemini 3 Flash	Google	1.0M	32.768K	$0.07	$0.30	2026-01
Grok 4	xAI	256K	32K	$3.00	$15.00	2026-02
DeepSeek V4	DeepSeek	128K	16K	$0.14	$0.28	2026-02
Llama 4 405B	Meta	128K	16K	Gratis	Gratis	2026-01

Metodologia y Fuentes

Las puntuaciones de los benchmarks se recopilan de publicaciones oficiales de modelos, articulos de investigacion y plataformas de evaluacion independientes. Priorizamos resultados verificados y reproducibles.

Explicacion de los Benchmarks Principales

SWE-Bench Verified: Tareas reales de ingenieria de software de GitHub, probando capacidad de programacion completa
HumanEval: Generacion de codigo Python con verificacion de pruebas unitarias (164 problemas)
MMLU: Prueba de conocimiento en 57 materias cubriendo STEM, humanidades y ciencias sociales
ARC-AGI-2: Razonamiento abstracto disenado para ser facil para humanos, dificil para IA
GPQA Diamond: Preguntas de ciencia a nivel de posgrado que requieren comprension profunda
MATH-500: Matematicas de nivel competicion desde AMC hasta dificultad IMO
Chatbot Arena: Clasificaciones ELO de mas de 6M de votos de preferencia humana

Limitaciones

Los benchmarks no capturan todas las capacidades del mundo real
Las puntuaciones pueden variar segun el prompting y la configuracion de evaluacion
Algunos benchmarks pueden estar saturados por modelos de frontera
Los precios y capacidades cambian frecuentemente

Quieres mantenerte actualizado sobre modelos de IA?

Actualizamos los benchmarks cuando se lanzan y prueban nuevos modelos.

Seguir Noticias de IA