Etiqueta

#coding agent

34 notas publicadas

Opus 4.7 lidera MirrorCode con 56% reconstruyendo programas

En la nueva benchmark de Epoch AI y METR, GPT-5.5 alcanza 44% y Gemini 3.1 Pro un 32%; una tarea costó USD 2.600 y 19 días de inferencia continua sin intervención humana.

The Decoderhace 2 días

GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake

El modelo chino de Zhipu AI resuelve 66% de 103 tareas de programación contra el 67% de Anthropic, pero quema casi el doble de tokens y suma latencia con 99 iteraciones por tarea.

The Decoderhace 3 días

OpenAI: tokens de Codex en Investigación crecieron 56x

El reporte interno de OpenAI Economic Research detalla cómo el uso de Codex se profundizó entre noviembre de 2025 y junio de 2026 en investigación, soporte, ingeniería y legal.

Latent Spacehace 3 días

Claude Tag lleva agentes proactivos y persistentes a Slack

Anthropic estrena un agente que vive dentro de Slack, vigila canales sin ser invocado, etiqueta a compañeros responsables del código y dispara fixes cuando un A/B test cruza un guardrail.

Latent Spacehace 3 días

GLM-5.2 destrona a Opus en frontend coding y suma IndexShare

Z.ai libera GLM-5.2 con licencia MIT: 744B parámetros con 40B activos por token, ventana de 1M y un truco de sparse attention que baja 2.9× los FLOPs por token.

Latent Space18 jun

SpaceX compra Cursor por USD 60.000 millones

Tras su IPO, Musk lleva su empresa de cohetes, IA y redes sociales a la pelea por el coding empresarial contra Claude Code y OpenAI Codex. El cierre se proyecta para el tercer trimestre de 2026.

The Verge18 jun

GLM-5.2 alcanza a Claude Opus 4.8 en coding maratónico

El laboratorio chino Zhipu AI libera bajo licencia MIT un modelo con ventana de 1 millón de tokens que se queda a 1 punto de Anthropic en FrontierSWE.

The Decoder18 jun

SpaceX compra Cursor por US$60 mil millones para alcanzar a OpenAI

Apenas dos jornadas bursátiles después del IPO de SpaceX, la fusión con Anysphere busca darle a xAI los talentos y el cómputo que le faltaban en programación con IA.

The Decoder16 jun

Loopcraft: diseñar loops en lugar de promptear a agentes IA

Peter Steinberger, Boris Cherny de Anthropic y Andrej Karpathy convergen en la misma idea: el cuello de botella ya no es escribir prompts, es seguir como humano dentro del loop.

Latent Space14 jun

Agentes IA aciertan el archivo pero fallan las líneas clave

SWE-Explore, el primer benchmark que aísla la búsqueda de código de la reparación, revela que Claude Code, Codex y OpenHands solo cubren entre 14% y 19% de las líneas que importan.

The Decoder14 jun

OpenAI compra Ona (ex Gitpod) para acelerar Codex en tareas autónomas

La startup alemana, fundada en Kiel en 2020, aporta entornos de desarrollo en la nube y agentes de IA con los que Codex podrá ejecutar tareas durante horas o días sin supervisión.

The Decoder14 jun

Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude

Moonshot AI libera un modelo de pesos abiertos de un billón de parámetros enfocado en programación a USD 0,95 entrada y USD 4 salida por millón de tokens.

The Decoder13 jun

Open Source

GitHub Copilot CLI suma LSP: del grep al go-to-definition

El skill LSP Setup configura servidores para 14 lenguajes (Java, Python, TypeScript, Rust y más), reemplazando el grep sobre JARs y node_modules por análisis semántico estructurado.

GitHub Blog13 jun

Simon Willison prueba Claude Fable 5 cinco horas: una bestia lenta

El desarrollador con acceso público al modelo lo somete a tareas de coding, conocimiento general y agentes. Veredicto inicial: probablemente el modelo más grande hasta ahora.

Simon Willison11 jun

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Hugging Face2 jun

George Hotz: los agentes de IA serán el error más caro del software

Tras seis meses probando coding agents en su proyecto tinygrad, el hacker se alinea con LeCun y Marcus: 'son modelos estadísticos que imitan código, no que lo entienden'.

The Decoder26 may

Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

El nuevo modelo del equipo Qwen, exclusivo de la API de Alibaba Cloud, completó 432 tests de kernel y 1.158 tool calls sin intervención humana, logrando un speedup promedio de 10x.

The Decoder23 may

Antigravity 2.0: Google estrena CLI, SDK y plan Ultra de USD 100

La app agéntica de codificación suma escritorio rediseñado, agentes en background y voz nativa apoyados en Gemini 3.5 Flash; el plan Ultra superior baja de USD 250 a USD 200.

TechCrunch23 may

Anthropic proyecta USD 559 millones de utilidad operacional en Q2

El revenue Q2 saltó 130% hasta USD 10.900 millones, según el Wall Street Journal. La empresa redujo su costo de compute a USD 0,56 por dólar de ingreso, contra USD 0,71 en Q1.

The Decoder22 may

Google libera Gemini 3.5: el modelo de la era de los agentes

El primer release de la familia es 3.5 Flash, líder en agentes y coding sobre su antecesor Pro, con velocidad cuatro veces mayor que otros modelos frontier.

Google AI Blog21 may

Deepseek arma equipo en Beijing para competir con Claude Code y Codex

La china Deepseek monta un equipo "Harness" en Beijing para construir su propio agente de programación, en competencia directa con los productos de Anthropic, OpenAI y Cursor.

The Decoder21 may

Google lanza Antigravity 2.0 con app de escritorio, CLI y SDK

Coding agentic con orquestación multiagente, comandos por voz y exportación a AI Studio. La nueva versión usa Gemini 3.5 Flash y compite directo con Cursor y Claude Code.

TechCrunch AI20 may

Cursor Composer 2.5 iguala a Opus 4.7 con costo 10 veces menor

El modelo se construyó sobre el checkpoint Kimi K2.5 y cobra USD 0,50 por millón de tokens de entrada, contra los hasta USD 11 por tarea que cuestan Opus 4.7 y GPT-5.5.

The Decoder19 may

Electrónica

OpenClaw: USD 1,3 millones en tokens de OpenAI en un mes

Peter Steinberger, el desarrollador austríaco que se unió a OpenAI en febrero, mostró un dashboard con 603.000 millones de tokens y 7,6 millones de requests procesados por 100 agentes Codex.

Tom's Hardware18 may

OpenClaw quema USD 1,3 millones al mes en 100 agentes Codex

Peter Steinberger y un equipo de tres personas dejan 100 Codex corriendo en la nube para mantener el proyecto open source: revisan PRs, hallan bugs y abren features que se discuten en reuniones.

The Decoder17 may

Anthropic mide el uso programatico de Claude y Codex gana terreno

Cada suscripcion Claude da creditos API mensuales por el monto del plan: harnesses como OpenClaw y claude -p pierden la subvencion mientras Codex gana fans entre AI engineers.

Latent Space17 may

Codex llega al celular dentro de la app de ChatGPT

OpenAI integró su agente de coding al cliente móvil de ChatGPT en iOS y Android, en preview para todos los planes, con monitoreo y aprobación de tareas desde el teléfono.

TechCrunch AI16 may

Microsoft retira Claude Code y vuelve a Copilot CLI

La compañía cancela accesos a la herramienta de Anthropic para miles de desarrolladores internos antes del cierre fiscal del 30 de junio y los empuja a GitHub Copilot CLI.

The Decoder16 may

GitHub Copilot pasa a cobro por tokens consumidos desde junio de 2026

Los GitHub AI Credits reemplazarán al sistema de premium requests; el precio base de cada plan se mantiene pero el uso intenso de modos agente se cobrará a tarifa API.

The Decoder2 may

Agent Shield, capa open source para auditar el tráfico de los agentes

El proyecto, publicado en GitHub, intercepta peticiones HTTP, WebSocket y SSE entre la CLI del agente y la red para frenar fugas de secretos y rutear modelos.

Dev.to AI tag29 abr

El costo oculto de programar con IA (y cómo usarla bien)

Herramientas como GitHub Copilot o ChatGPT aceleran la escritura de código, pero pueden deteriorar habilidades clave si no se adoptan con criterio profesional.

Dev.to AI tag28 abr

ToolHive: un plano de control para dominar MCPs, skills y agentes de IA

La herramienta centraliza la gestión de servidores MCP, autenticación y skills para quienes usan múltiples asistentes de código como Claude Code, Gemini CLI o GitHub Copilot.

Dev.to AI tag27 abr

Qwen3.6-27B supera en código a su predecesor quince veces más grande

El nuevo modelo denso de código abierto de Alibaba con 27.000 millones de parámetros lidera casi todos los benchmarks de programación frente al Qwen3.5-397B-A17B.

The Decoder26 abr

OpenAI vuelve a matar Codex y lo absorbe dentro de GPT-5.5

GPT-5.5 promete avances en coding agéntico y menor consumo de tokens, pero el precio del API igual sube cerca del 20% según los primeros tests publicados.

The Decoder26 abr

Etiquetas relacionadas

Otros temas que aparecen junto a #coding agent en nuestra cobertura editorial.

#Agentes IA18 #LLM11 #Anthropic11 #Openai9 #Codex9 #Open Source8 #Claude Code5 #Claude4