Saltar al contenido
Etiqueta

#coding agent

34 notas publicadas

Opus 4.7 lidera MirrorCode con 56% reconstruyendo programas
IA

Opus 4.7 lidera MirrorCode con 56% reconstruyendo programas

En la nueva benchmark de Epoch AI y METR, GPT-5.5 alcanza 44% y Gemini 3.1 Pro un 32%; una tarea costó USD 2.600 y 19 días de inferencia continua sin intervención humana.

The Decoder
GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake
IA

GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake

El modelo chino de Zhipu AI resuelve 66% de 103 tareas de programación contra el 67% de Anthropic, pero quema casi el doble de tokens y suma latencia con 99 iteraciones por tarea.

The Decoder
OpenAI: tokens de Codex en Investigación crecieron 56x
IA

OpenAI: tokens de Codex en Investigación crecieron 56x

El reporte interno de OpenAI Economic Research detalla cómo el uso de Codex se profundizó entre noviembre de 2025 y junio de 2026 en investigación, soporte, ingeniería y legal.

Latent Space
Claude Tag lleva agentes proactivos y persistentes a Slack
IA

Claude Tag lleva agentes proactivos y persistentes a Slack

Anthropic estrena un agente que vive dentro de Slack, vigila canales sin ser invocado, etiqueta a compañeros responsables del código y dispara fixes cuando un A/B test cruza un guardrail.

Latent Space
GLM-5.2 destrona a Opus en frontend coding y suma IndexShare
IA

GLM-5.2 destrona a Opus en frontend coding y suma IndexShare

Z.ai libera GLM-5.2 con licencia MIT: 744B parámetros con 40B activos por token, ventana de 1M y un truco de sparse attention que baja 2.9× los FLOPs por token.

Latent Space
SpaceX compra Cursor por USD 60.000 millones
IA

SpaceX compra Cursor por USD 60.000 millones

Tras su IPO, Musk lleva su empresa de cohetes, IA y redes sociales a la pelea por el coding empresarial contra Claude Code y OpenAI Codex. El cierre se proyecta para el tercer trimestre de 2026.

The Verge
GLM-5.2 alcanza a Claude Opus 4.8 en coding maratónico
IA

GLM-5.2 alcanza a Claude Opus 4.8 en coding maratónico

El laboratorio chino Zhipu AI libera bajo licencia MIT un modelo con ventana de 1 millón de tokens que se queda a 1 punto de Anthropic en FrontierSWE.

The Decoder
SpaceX compra Cursor por US$60 mil millones para alcanzar a OpenAI
IA

SpaceX compra Cursor por US$60 mil millones para alcanzar a OpenAI

Apenas dos jornadas bursátiles después del IPO de SpaceX, la fusión con Anysphere busca darle a xAI los talentos y el cómputo que le faltaban en programación con IA.

The Decoder
Loopcraft: diseñar loops en lugar de promptear a agentes IA
IA

Loopcraft: diseñar loops en lugar de promptear a agentes IA

Peter Steinberger, Boris Cherny de Anthropic y Andrej Karpathy convergen en la misma idea: el cuello de botella ya no es escribir prompts, es seguir como humano dentro del loop.

Latent Space
Agentes IA aciertan el archivo pero fallan las líneas clave
IA

Agentes IA aciertan el archivo pero fallan las líneas clave

SWE-Explore, el primer benchmark que aísla la búsqueda de código de la reparación, revela que Claude Code, Codex y OpenHands solo cubren entre 14% y 19% de las líneas que importan.

The Decoder
OpenAI compra Ona (ex Gitpod) para acelerar Codex en tareas autónomas
IA

OpenAI compra Ona (ex Gitpod) para acelerar Codex en tareas autónomas

La startup alemana, fundada en Kiel en 2020, aporta entornos de desarrollo en la nube y agentes de IA con los que Codex podrá ejecutar tareas durante horas o días sin supervisión.

The Decoder
Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude
IA

Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude

Moonshot AI libera un modelo de pesos abiertos de un billón de parámetros enfocado en programación a USD 0,95 entrada y USD 4 salida por millón de tokens.

The Decoder
GitHub Copilot CLI suma LSP: del grep al go-to-definition
Open Source

GitHub Copilot CLI suma LSP: del grep al go-to-definition

El skill LSP Setup configura servidores para 14 lenguajes (Java, Python, TypeScript, Rust y más), reemplazando el grep sobre JARs y node_modules por análisis semántico estructurado.

GitHub Blog
Simon Willison prueba Claude Fable 5 cinco horas: una bestia lenta
IA

Simon Willison prueba Claude Fable 5 cinco horas: una bestia lenta

El desarrollador con acceso público al modelo lo somete a tareas de coding, conocimiento general y agentes. Veredicto inicial: probablemente el modelo más grande hasta ahora.

Simon Willison
JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0
IA

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Hugging Face
George Hotz: los agentes de IA serán el error más caro del software
IA

George Hotz: los agentes de IA serán el error más caro del software

Tras seis meses probando coding agents en su proyecto tinygrad, el hacker se alinea con LeCun y Marcus: 'son modelos estadísticos que imitan código, no que lo entienden'.

The Decoder
Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab
IA

Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

El nuevo modelo del equipo Qwen, exclusivo de la API de Alibaba Cloud, completó 432 tests de kernel y 1.158 tool calls sin intervención humana, logrando un speedup promedio de 10x.

The Decoder
Antigravity 2.0: Google estrena CLI, SDK y plan Ultra de USD 100
IA

Antigravity 2.0: Google estrena CLI, SDK y plan Ultra de USD 100

La app agéntica de codificación suma escritorio rediseñado, agentes en background y voz nativa apoyados en Gemini 3.5 Flash; el plan Ultra superior baja de USD 250 a USD 200.

TechCrunch
Anthropic proyecta USD 559 millones de utilidad operacional en Q2
IA

Anthropic proyecta USD 559 millones de utilidad operacional en Q2

El revenue Q2 saltó 130% hasta USD 10.900 millones, según el Wall Street Journal. La empresa redujo su costo de compute a USD 0,56 por dólar de ingreso, contra USD 0,71 en Q1.

The Decoder
Google libera Gemini 3.5: el modelo de la era de los agentes
IA

Google libera Gemini 3.5: el modelo de la era de los agentes

El primer release de la familia es 3.5 Flash, líder en agentes y coding sobre su antecesor Pro, con velocidad cuatro veces mayor que otros modelos frontier.

Google AI Blog
Deepseek arma equipo en Beijing para competir con Claude Code y Codex
IA

Deepseek arma equipo en Beijing para competir con Claude Code y Codex

La china Deepseek monta un equipo "Harness" en Beijing para construir su propio agente de programación, en competencia directa con los productos de Anthropic, OpenAI y Cursor.

The Decoder
Google lanza Antigravity 2.0 con app de escritorio, CLI y SDK
IA

Google lanza Antigravity 2.0 con app de escritorio, CLI y SDK

Coding agentic con orquestación multiagente, comandos por voz y exportación a AI Studio. La nueva versión usa Gemini 3.5 Flash y compite directo con Cursor y Claude Code.

TechCrunch AI
Cursor Composer 2.5 iguala a Opus 4.7 con costo 10 veces menor
IA

Cursor Composer 2.5 iguala a Opus 4.7 con costo 10 veces menor

El modelo se construyó sobre el checkpoint Kimi K2.5 y cobra USD 0,50 por millón de tokens de entrada, contra los hasta USD 11 por tarea que cuestan Opus 4.7 y GPT-5.5.

The Decoder
OpenClaw: USD 1,3 millones en tokens de OpenAI en un mes
Electrónica

OpenClaw: USD 1,3 millones en tokens de OpenAI en un mes

Peter Steinberger, el desarrollador austríaco que se unió a OpenAI en febrero, mostró un dashboard con 603.000 millones de tokens y 7,6 millones de requests procesados por 100 agentes Codex.

Tom's Hardware
OpenClaw quema USD 1,3 millones al mes en 100 agentes Codex
IA

OpenClaw quema USD 1,3 millones al mes en 100 agentes Codex

Peter Steinberger y un equipo de tres personas dejan 100 Codex corriendo en la nube para mantener el proyecto open source: revisan PRs, hallan bugs y abren features que se discuten en reuniones.

The Decoder
Anthropic mide el uso programatico de Claude y Codex gana terreno
IA

Anthropic mide el uso programatico de Claude y Codex gana terreno

Cada suscripcion Claude da creditos API mensuales por el monto del plan: harnesses como OpenClaw y claude -p pierden la subvencion mientras Codex gana fans entre AI engineers.

Latent Space
Codex llega al celular dentro de la app de ChatGPT
IA

Codex llega al celular dentro de la app de ChatGPT

OpenAI integró su agente de coding al cliente móvil de ChatGPT en iOS y Android, en preview para todos los planes, con monitoreo y aprobación de tareas desde el teléfono.

TechCrunch AI
Microsoft retira Claude Code y vuelve a Copilot CLI
IA

Microsoft retira Claude Code y vuelve a Copilot CLI

La compañía cancela accesos a la herramienta de Anthropic para miles de desarrolladores internos antes del cierre fiscal del 30 de junio y los empuja a GitHub Copilot CLI.

The Decoder
GitHub Copilot pasa a cobro por tokens consumidos desde junio de 2026
IA

GitHub Copilot pasa a cobro por tokens consumidos desde junio de 2026

Los GitHub AI Credits reemplazarán al sistema de premium requests; el precio base de cada plan se mantiene pero el uso intenso de modos agente se cobrará a tarifa API.

The Decoder
Agent Shield, capa open source para auditar el tráfico de los agentes
IA

Agent Shield, capa open source para auditar el tráfico de los agentes

El proyecto, publicado en GitHub, intercepta peticiones HTTP, WebSocket y SSE entre la CLI del agente y la red para frenar fugas de secretos y rutear modelos.

Dev.to AI tag
El costo oculto de programar con IA (y cómo usarla bien)
IA

El costo oculto de programar con IA (y cómo usarla bien)

Herramientas como GitHub Copilot o ChatGPT aceleran la escritura de código, pero pueden deteriorar habilidades clave si no se adoptan con criterio profesional.

Dev.to AI tag
ToolHive: un plano de control para dominar MCPs, skills y agentes de IA
IA

ToolHive: un plano de control para dominar MCPs, skills y agentes de IA

La herramienta centraliza la gestión de servidores MCP, autenticación y skills para quienes usan múltiples asistentes de código como Claude Code, Gemini CLI o GitHub Copilot.

Dev.to AI tag
Qwen3.6-27B supera en código a su predecesor quince veces más grande
IA

Qwen3.6-27B supera en código a su predecesor quince veces más grande

El nuevo modelo denso de código abierto de Alibaba con 27.000 millones de parámetros lidera casi todos los benchmarks de programación frente al Qwen3.5-397B-A17B.

The Decoder
OpenAI vuelve a matar Codex y lo absorbe dentro de GPT-5.5
IA

OpenAI vuelve a matar Codex y lo absorbe dentro de GPT-5.5

GPT-5.5 promete avances en coding agéntico y menor consumo de tokens, pero el precio del API igual sube cerca del 20% según los primeros tests publicados.

The Decoder

Etiquetas relacionadas

Otros temas que aparecen junto a #coding agent en nuestra cobertura editorial.