Saltar al contenido
Etiqueta

#benchmark

10 notas publicadas

GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake
IA

GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake

El modelo chino de Zhipu AI resuelve 66% de 103 tareas de programación contra el 67% de Anthropic, pero quema casi el doble de tokens y suma latencia con 99 iteraciones por tarea.

The Decoder
Agentes IA aciertan el archivo pero fallan las líneas clave
IA

Agentes IA aciertan el archivo pero fallan las líneas clave

SWE-Explore, el primer benchmark que aísla la búsqueda de código de la reparación, revela que Claude Code, Codex y OpenHands solo cubren entre 14% y 19% de las líneas que importan.

The Decoder
Gemini-SQL2 de Google lidera benchmark text-to-SQL con 80% de precisión
IA

Gemini-SQL2 de Google lidera benchmark text-to-SQL con 80% de precisión

Construido sobre Gemini 3.1 Pro, el sistema de Google Research aventaja por más de siete puntos a GPT-5.5-xhigh y casi diez a Claude Opus 4.6 en el ranking BIRD.

The Decoder
NVIDIA GB300 NVL72 rinde 20x más agentes que H200 en AA-AgentPerf
IA

NVIDIA GB300 NVL72 rinde 20x más agentes que H200 en AA-AgentPerf

Artificial Analysis estrenó el primer benchmark multi-vendor que mide rendimiento concurrente de agentes de IA en cargas reales de coding, con resultados normalizados por acelerador y por megawatt.

NVIDIA Developer
NVIDIA Blackwell lidera el primer benchmark de IA agéntica
IA

NVIDIA Blackwell lidera el primer benchmark de IA agéntica

El GB300 NVL72 corre 20× más agentes por megawatt que el HGX H200 en AgentPerf, el primer benchmark de Artificial Analysis que mide cargas reales de agentes encadenando llamadas LLM.

NVIDIA Blog
NIST propone el primer benchmark estándar para humanoides
Robótica

NIST propone el primer benchmark estándar para humanoides

El instituto estadounidense busca cerrar el vacío que dejó el DARPA Robotics Challenge de 2015 con un set mínimo de pruebas de locomoción y manipulación.

The Robot Report
Fraunhofer somete al Unitree G1 a un benchmark con seis criterios
Robótica

Fraunhofer somete al Unitree G1 a un benchmark con seis criterios

El instituto alemán crea una batería de pruebas modular basada en ISO 14644 y ISO TS 15066 para evaluar humanoides en condiciones reales de producción, salas limpias y seguridad funcional.

The Robot Report
SOOHAK revela que los LLMs inventan respuestas a problemas imposibles
IA

SOOHAK revela que los LLMs inventan respuestas a problemas imposibles

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

The Decoder
BioMysteryBench: Claude iguala a expertos en bioinformática
IA

BioMysteryBench: Claude iguala a expertos en bioinformática

Anthropic publicó un benchmark con 99 preguntas escritas por especialistas y respuestas verificables sobre datasets reales. Claude Mythos Preview alcanza 82.6% en problemas resolubles por humanos.

The Decoder
500 banqueros revisan outputs de IA: ninguno listo para clientes
IA

500 banqueros revisan outputs de IA: ninguno listo para clientes

BankerToolBench evalúa GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en tareas reales de banca de inversión, y la mitad de los outputs falla incluso como borrador inicial.

The Decoder

Etiquetas relacionadas

Otros temas que aparecen junto a #benchmark en nuestra cobertura editorial.