
Opus 4.7 lidera MirrorCode con 56% reconstruyendo programas
En la nueva benchmark de Epoch AI y METR, GPT-5.5 alcanza 44% y Gemini 3.1 Pro un 32%; una tarea costó USD 2.600 y 19 días de inferencia continua sin intervención humana.
34 notas publicadas

El modelo chino de Zhipu AI resuelve 66% de 103 tareas de programación contra el 67% de Anthropic, pero quema casi el doble de tokens y suma latencia con 99 iteraciones por tarea.

El reporte interno de OpenAI Economic Research detalla cómo el uso de Codex se profundizó entre noviembre de 2025 y junio de 2026 en investigación, soporte, ingeniería y legal.

Anthropic estrena un agente que vive dentro de Slack, vigila canales sin ser invocado, etiqueta a compañeros responsables del código y dispara fixes cuando un A/B test cruza un guardrail.

Z.ai libera GLM-5.2 con licencia MIT: 744B parámetros con 40B activos por token, ventana de 1M y un truco de sparse attention que baja 2.9× los FLOPs por token.

Tras su IPO, Musk lleva su empresa de cohetes, IA y redes sociales a la pelea por el coding empresarial contra Claude Code y OpenAI Codex. El cierre se proyecta para el tercer trimestre de 2026.

El laboratorio chino Zhipu AI libera bajo licencia MIT un modelo con ventana de 1 millón de tokens que se queda a 1 punto de Anthropic en FrontierSWE.

Apenas dos jornadas bursátiles después del IPO de SpaceX, la fusión con Anysphere busca darle a xAI los talentos y el cómputo que le faltaban en programación con IA.

Peter Steinberger, Boris Cherny de Anthropic y Andrej Karpathy convergen en la misma idea: el cuello de botella ya no es escribir prompts, es seguir como humano dentro del loop.

SWE-Explore, el primer benchmark que aísla la búsqueda de código de la reparación, revela que Claude Code, Codex y OpenHands solo cubren entre 14% y 19% de las líneas que importan.

La startup alemana, fundada en Kiel en 2020, aporta entornos de desarrollo en la nube y agentes de IA con los que Codex podrá ejecutar tareas durante horas o días sin supervisión.

Moonshot AI libera un modelo de pesos abiertos de un billón de parámetros enfocado en programación a USD 0,95 entrada y USD 4 salida por millón de tokens.

El skill LSP Setup configura servidores para 14 lenguajes (Java, Python, TypeScript, Rust y más), reemplazando el grep sobre JARs y node_modules por análisis semántico estructurado.

El desarrollador con acceso público al modelo lo somete a tareas de coding, conocimiento general y agentes. Veredicto inicial: probablemente el modelo más grande hasta ahora.

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Tras seis meses probando coding agents en su proyecto tinygrad, el hacker se alinea con LeCun y Marcus: 'son modelos estadísticos que imitan código, no que lo entienden'.

El nuevo modelo del equipo Qwen, exclusivo de la API de Alibaba Cloud, completó 432 tests de kernel y 1.158 tool calls sin intervención humana, logrando un speedup promedio de 10x.

La app agéntica de codificación suma escritorio rediseñado, agentes en background y voz nativa apoyados en Gemini 3.5 Flash; el plan Ultra superior baja de USD 250 a USD 200.

El revenue Q2 saltó 130% hasta USD 10.900 millones, según el Wall Street Journal. La empresa redujo su costo de compute a USD 0,56 por dólar de ingreso, contra USD 0,71 en Q1.

El primer release de la familia es 3.5 Flash, líder en agentes y coding sobre su antecesor Pro, con velocidad cuatro veces mayor que otros modelos frontier.

La china Deepseek monta un equipo "Harness" en Beijing para construir su propio agente de programación, en competencia directa con los productos de Anthropic, OpenAI y Cursor.

Coding agentic con orquestación multiagente, comandos por voz y exportación a AI Studio. La nueva versión usa Gemini 3.5 Flash y compite directo con Cursor y Claude Code.

El modelo se construyó sobre el checkpoint Kimi K2.5 y cobra USD 0,50 por millón de tokens de entrada, contra los hasta USD 11 por tarea que cuestan Opus 4.7 y GPT-5.5.

Peter Steinberger, el desarrollador austríaco que se unió a OpenAI en febrero, mostró un dashboard con 603.000 millones de tokens y 7,6 millones de requests procesados por 100 agentes Codex.

Peter Steinberger y un equipo de tres personas dejan 100 Codex corriendo en la nube para mantener el proyecto open source: revisan PRs, hallan bugs y abren features que se discuten en reuniones.

Cada suscripcion Claude da creditos API mensuales por el monto del plan: harnesses como OpenClaw y claude -p pierden la subvencion mientras Codex gana fans entre AI engineers.

OpenAI integró su agente de coding al cliente móvil de ChatGPT en iOS y Android, en preview para todos los planes, con monitoreo y aprobación de tareas desde el teléfono.

La compañía cancela accesos a la herramienta de Anthropic para miles de desarrolladores internos antes del cierre fiscal del 30 de junio y los empuja a GitHub Copilot CLI.

Los GitHub AI Credits reemplazarán al sistema de premium requests; el precio base de cada plan se mantiene pero el uso intenso de modos agente se cobrará a tarifa API.

El proyecto, publicado en GitHub, intercepta peticiones HTTP, WebSocket y SSE entre la CLI del agente y la red para frenar fugas de secretos y rutear modelos.

Herramientas como GitHub Copilot o ChatGPT aceleran la escritura de código, pero pueden deteriorar habilidades clave si no se adoptan con criterio profesional.

La herramienta centraliza la gestión de servidores MCP, autenticación y skills para quienes usan múltiples asistentes de código como Claude Code, Gemini CLI o GitHub Copilot.

El nuevo modelo denso de código abierto de Alibaba con 27.000 millones de parámetros lidera casi todos los benchmarks de programación frente al Qwen3.5-397B-A17B.

GPT-5.5 promete avances en coding agéntico y menor consumo de tokens, pero el precio del API igual sube cerca del 20% según los primeros tests publicados.
Otros temas que aparecen junto a #coding agent en nuestra cobertura editorial.