Etiqueta

#inferencia

13 notas publicadas

SGLang sirve DeepSeek-V4 en GB300 con 5x más throughput

Dos meses después del lanzamiento, el stack abierto pasó de 2.200 a 11.200 tok/s/GPU a la misma interactividad gracias a KV Compression V2, W4A4 MegaMoE y CUDA graphs rompibles en el prefill.

PyTorch Bloghace 3 días

Electrónica

OpenAI y Broadcom debutan Jalapeño, su ASIC de inferencia

El chip de unos 840 mm² (cerca del límite reticle EUV) lleva seis módulos HBM, llegó al tape-out en nueve meses y se desplegará a escala gigawatt con Microsoft desde fines de 2026.

Tom's Hardwarehace 3 días

Groq levanta USD 650M tras el not-acqui-hire de NVIDIA

Seis meses después de licenciar su IP de LPU a NVIDIA y perder a su fundador, la chipmaker apuesta por su negocio neocloud con 13 data centers y nuevos ejecutivos al timón.

TechCrunch AI23 jun

NVIDIA GB300 NVL72 rinde 20x más agentes que H200 en AA-AgentPerf

Artificial Analysis estrenó el primer benchmark multi-vendor que mide rendimiento concurrente de agentes de IA en cargas reales de coding, con resultados normalizados por acelerador y por megawatt.

NVIDIA Developer14 jun

NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real

DynoSim corre el stack de servicio de LLM como simulación discreta en Rust y mapea la frontera de Pareto del workload antes de pagar GPUs reales.

NVIDIA Developer30 may

General Compute compra USD 300M en SambaNova SN50 para inferencia

El nuevo neocloud levantó USD 15 millones a una valuación post-money de USD 60 millones y promete 600 a 700 tokens por segundo, contra los 250 típicos de las GPU.

TechCrunch AI29 may

TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU

El motor open source de LightSeek, escrito desde cero en SPMD con compilacion estatica, ataca workloads agenticos con prefix cache hibrido y disaggregacion prefill-decode para Mamba.

PyTorch Blog28 may

NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes

El sistema con CRIU mas cuda-checkpoint baja el cold-start de un gpt-oss-120b al limite fisico de memoria, evitando que GPUs facturadas queden ociosas durante el scale-up.

NVIDIA Developer28 may

Cerebras IPO cierra en USD 60.000 millones y ya sirve a OpenAI

El chip wafer-scale debuta en bolsa con USD 60.000 millones de market cap y su CFO Bob Komin confirma que ya sirve los modelos internos de OpenAI 5.4 y 5.5.

Latent Space17 may

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

Un kernel CUDA llamado TwELL aprovecha la sparsity de activaciones para acelerar inferencia 20,5% y entrenamiento 21,9% en GPUs H100, sin perder precisión en benchmarks.

MarkTechPost12 may

Meta y Stanford: BLT recorta hasta 92% el ancho de banda

Investigadores de Meta, Stanford y la Universidad de Washington proponen tres técnicas que aceleran la generación del Byte Latent Transformer sin perder calidad de salida.

MarkTechPost12 may

Cerebras encara el giro a la inferencia agentic en chips IA

Ben Thompson argumenta que la próxima ola de cómputo no se medirá en tokens por segundo sino en jerarquías de memoria para agentes que ya no necesitan al humano en el loop.

Stratechery12 may

Electrónica

Huawei apunta a destronar a Nvidia en chips de IA en China

Huawei proyecta USD 12.000 millones en chips IA en 2026 (60% más que en 2025) mientras los envíos del H200 de Nvidia siguen frenados por la disputa regulatoria entre Washington y Beijing.

Tom's Hardware5 may

Etiquetas relacionadas

Otros temas que aparecen junto a #inferencia en nuestra cobertura editorial.

#Nvidia8 #LLM5 #chips-ia3 #ai-infrastructure3 #Deepseek2 #cerebras2 #Ipo2 #Agentes IA2