Etiqueta

#benchmark

10 notas publicadas

GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake

El modelo chino de Zhipu AI resuelve 66% de 103 tareas de programación contra el 67% de Anthropic, pero quema casi el doble de tokens y suma latencia con 99 iteraciones por tarea.

The Decoderhace 3 días

Agentes IA aciertan el archivo pero fallan las líneas clave

SWE-Explore, el primer benchmark que aísla la búsqueda de código de la reparación, revela que Claude Code, Codex y OpenHands solo cubren entre 14% y 19% de las líneas que importan.

The Decoder14 jun

Gemini-SQL2 de Google lidera benchmark text-to-SQL con 80% de precisión

Construido sobre Gemini 3.1 Pro, el sistema de Google Research aventaja por más de siete puntos a GPT-5.5-xhigh y casi diez a Claude Opus 4.6 en el ranking BIRD.

The Decoder14 jun

NVIDIA GB300 NVL72 rinde 20x más agentes que H200 en AA-AgentPerf

Artificial Analysis estrenó el primer benchmark multi-vendor que mide rendimiento concurrente de agentes de IA en cargas reales de coding, con resultados normalizados por acelerador y por megawatt.

NVIDIA Developer14 jun

NVIDIA Blackwell lidera el primer benchmark de IA agéntica

El GB300 NVL72 corre 20× más agentes por megawatt que el HGX H200 en AgentPerf, el primer benchmark de Artificial Analysis que mide cargas reales de agentes encadenando llamadas LLM.

NVIDIA Blog13 jun

Robótica

NIST propone el primer benchmark estándar para humanoides

El instituto estadounidense busca cerrar el vacío que dejó el DARPA Robotics Challenge de 2015 con un set mínimo de pruebas de locomoción y manipulación.

The Robot Report30 may

Robótica

Fraunhofer somete al Unitree G1 a un benchmark con seis criterios

El instituto alemán crea una batería de pruebas modular basada en ISO 14644 y ISO TS 15066 para evaluar humanoides en condiciones reales de producción, salas limpias y seguridad funcional.

The Robot Report21 may

SOOHAK revela que los LLMs inventan respuestas a problemas imposibles

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

The Decoder17 may

BioMysteryBench: Claude iguala a expertos en bioinformática

Anthropic publicó un benchmark con 99 preguntas escritas por especialistas y respuestas verificables sobre datasets reales. Claude Mythos Preview alcanza 82.6% en problemas resolubles por humanos.

The Decoder1 may

500 banqueros revisan outputs de IA: ninguno listo para clientes

BankerToolBench evalúa GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en tareas reales de banca de inversión, y la mitad de los outputs falla incluso como borrador inicial.

The Decoder26 abr

Etiquetas relacionadas

Otros temas que aparecen junto a #benchmark en nuestra cobertura editorial.

#Agentes IA5 #Anthropic3 #Openai2 #Claude2 #Gemini2 #Robotica2 #humanoides2 #Nvidia2