
GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake
El modelo chino de Zhipu AI resuelve 66% de 103 tareas de programación contra el 67% de Anthropic, pero quema casi el doble de tokens y suma latencia con 99 iteraciones por tarea.
10 notas publicadas

SWE-Explore, el primer benchmark que aísla la búsqueda de código de la reparación, revela que Claude Code, Codex y OpenHands solo cubren entre 14% y 19% de las líneas que importan.

Construido sobre Gemini 3.1 Pro, el sistema de Google Research aventaja por más de siete puntos a GPT-5.5-xhigh y casi diez a Claude Opus 4.6 en el ranking BIRD.

Artificial Analysis estrenó el primer benchmark multi-vendor que mide rendimiento concurrente de agentes de IA en cargas reales de coding, con resultados normalizados por acelerador y por megawatt.

El GB300 NVL72 corre 20× más agentes por megawatt que el HGX H200 en AgentPerf, el primer benchmark de Artificial Analysis que mide cargas reales de agentes encadenando llamadas LLM.

El instituto estadounidense busca cerrar el vacío que dejó el DARPA Robotics Challenge de 2015 con un set mínimo de pruebas de locomoción y manipulación.

El instituto alemán crea una batería de pruebas modular basada en ISO 14644 y ISO TS 15066 para evaluar humanoides en condiciones reales de producción, salas limpias y seguridad funcional.

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

Anthropic publicó un benchmark con 99 preguntas escritas por especialistas y respuestas verificables sobre datasets reales. Claude Mythos Preview alcanza 82.6% en problemas resolubles por humanos.

BankerToolBench evalúa GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en tareas reales de banca de inversión, y la mitad de los outputs falla incluso como borrador inicial.
Otros temas que aparecen junto a #benchmark en nuestra cobertura editorial.