Benchmarks de Modelos de IA
Compara los ultimos modelos de IA en benchmarks de programacion, razonamiento, matematicas y conocimiento. Datos obtenidos de publicaciones oficiales y evaluaciones independientes.
Clasificacion General
Promediado en todos los benchmarks (puntuaciones normalizadas)
Gemini 3.1 Pro
GoogleClaude Opus 4.6
AnthropicGPT-5.3 Codex
OpenAIClaude Opus 4.5
AnthropicGPT-5.2
OpenAIClaude Sonnet 4.6
AnthropicDeepSeek V4
DeepSeekGrok 4
xAIGemini 3 Flash
GoogleLlama 4 405B
MetaBenchmarks de Programacion
Tareas de ingenieria de software y generacion de codigo del mundo real
SWE-Bench Verified
Real-world software engineering tasks from GitHub issues
HumanEval
Python code generation with unit test verification
Benchmarks de Conocimiento
Conocimiento general y comprension en diversos dominios
MMLU
Massive Multitask Language Understanding across 57 subjects
Benchmarks de Razonamiento
Capacidades de razonamiento abstracto y resolucion de problemas
ARC-AGI-2
Abstract reasoning - designed to be easy for humans, hard for AI
GPQA Diamond
Graduate-level science questions (physics, chemistry, biology)
Benchmarks de Matematicas
Razonamiento matematico desde nivel basico hasta competiciones
MATH-500
Competition-level mathematics problems
AIME 2024
American Invitational Mathematics Examination problems
Benchmarks de Preferencia Humana
Calificaciones de preferencia humana basadas en multitudes
Chatbot Arena Elo
Crowdsourced human preference ratings from 6M+ votes
Especificaciones de los Modelos
Ventanas de contexto, precios e informacion de lanzamiento
| Modelo | Empresa | Contexto | Salida Max | Entrada $/1M | Salida $/1M | Lanzamiento |
|---|---|---|---|---|---|---|
| Claude Opus 4.6 | Anthropic | 1.0M | 128K | $15.00 | $75.00 | 2026-02 |
| Claude Opus 4.5 | Anthropic | 200K | 32K | $15.00 | $75.00 | 2025-10 |
| Claude Sonnet 4.6 | Anthropic | 200K | 64K | $3.00 | $15.00 | 2026-02 |
| GPT-5.3 Codex | OpenAI | 256K | 32K | $5.00 | $20.00 | 2026-02 |
| GPT-5.2 | OpenAI | 128K | 16K | $2.50 | $10.00 | 2025-12 |
| Gemini 3.1 Pro | 2.0M | 65.536K | $1.25 | $5.00 | 2026-02 | |
| Gemini 3 Flash | 1.0M | 32.768K | $0.07 | $0.30 | 2026-01 | |
| Grok 4 | xAI | 256K | 32K | $3.00 | $15.00 | 2026-02 |
| DeepSeek V4 | DeepSeek | 128K | 16K | $0.14 | $0.28 | 2026-02 |
| Llama 4 405B | Meta | 128K | 16K | Gratis | Gratis | 2026-01 |
Metodologia y Fuentes
Las puntuaciones de los benchmarks se recopilan de publicaciones oficiales de modelos, articulos de investigacion y plataformas de evaluacion independientes. Priorizamos resultados verificados y reproducibles.
Explicacion de los Benchmarks Principales
- SWE-Bench Verified: Tareas reales de ingenieria de software de GitHub, probando capacidad de programacion completa
- HumanEval: Generacion de codigo Python con verificacion de pruebas unitarias (164 problemas)
- MMLU: Prueba de conocimiento en 57 materias cubriendo STEM, humanidades y ciencias sociales
- ARC-AGI-2: Razonamiento abstracto disenado para ser facil para humanos, dificil para IA
- GPQA Diamond: Preguntas de ciencia a nivel de posgrado que requieren comprension profunda
- MATH-500: Matematicas de nivel competicion desde AMC hasta dificultad IMO
- Chatbot Arena: Clasificaciones ELO de mas de 6M de votos de preferencia humana
Limitaciones
- Los benchmarks no capturan todas las capacidades del mundo real
- Las puntuaciones pueden variar segun el prompting y la configuracion de evaluacion
- Algunos benchmarks pueden estar saturados por modelos de frontera
- Los precios y capacidades cambian frecuentemente
Quieres mantenerte actualizado sobre modelos de IA?
Actualizamos los benchmarks cuando se lanzan y prueban nuevos modelos.
Seguir Noticias de IA