
SGLang sirve DeepSeek-V4 en GB300 con 5x más throughput
Dos meses después del lanzamiento, el stack abierto pasó de 2.200 a 11.200 tok/s/GPU a la misma interactividad gracias a KV Compression V2, W4A4 MegaMoE y CUDA graphs rompibles en el prefill.
13 notas publicadas

El chip de unos 840 mm² (cerca del límite reticle EUV) lleva seis módulos HBM, llegó al tape-out en nueve meses y se desplegará a escala gigawatt con Microsoft desde fines de 2026.

Seis meses después de licenciar su IP de LPU a NVIDIA y perder a su fundador, la chipmaker apuesta por su negocio neocloud con 13 data centers y nuevos ejecutivos al timón.

Artificial Analysis estrenó el primer benchmark multi-vendor que mide rendimiento concurrente de agentes de IA en cargas reales de coding, con resultados normalizados por acelerador y por megawatt.

DynoSim corre el stack de servicio de LLM como simulación discreta en Rust y mapea la frontera de Pareto del workload antes de pagar GPUs reales.

El nuevo neocloud levantó USD 15 millones a una valuación post-money de USD 60 millones y promete 600 a 700 tokens por segundo, contra los 250 típicos de las GPU.

El motor open source de LightSeek, escrito desde cero en SPMD con compilacion estatica, ataca workloads agenticos con prefix cache hibrido y disaggregacion prefill-decode para Mamba.

El sistema con CRIU mas cuda-checkpoint baja el cold-start de un gpt-oss-120b al limite fisico de memoria, evitando que GPUs facturadas queden ociosas durante el scale-up.

El chip wafer-scale debuta en bolsa con USD 60.000 millones de market cap y su CFO Bob Komin confirma que ya sirve los modelos internos de OpenAI 5.4 y 5.5.

Un kernel CUDA llamado TwELL aprovecha la sparsity de activaciones para acelerar inferencia 20,5% y entrenamiento 21,9% en GPUs H100, sin perder precisión en benchmarks.

Investigadores de Meta, Stanford y la Universidad de Washington proponen tres técnicas que aceleran la generación del Byte Latent Transformer sin perder calidad de salida.
Ben Thompson argumenta que la próxima ola de cómputo no se medirá en tokens por segundo sino en jerarquías de memoria para agentes que ya no necesitan al humano en el loop.

Huawei proyecta USD 12.000 millones en chips IA en 2026 (60% más que en 2025) mientras los envíos del H200 de Nvidia siguen frenados por la disputa regulatoria entre Washington y Beijing.
Otros temas que aparecen junto a #inferencia en nuestra cobertura editorial.