La infraestructura de IA dejó de medirse por specs de chip y pasó a medirse por costo por token: cuántos tokens útiles entrega cada dólar, cada watt y dentro del presupuesto de latencia que exige el caso de uso. Es el argumento que NVIDIA usó esta semana para presentar el estado de su stack de inferencia sobre la plataforma Blackwell, con datos concretos de la caída del costo por token en el modelo abierto DeepSeek V4.

Según la compañía, en apenas un mes el software stack redujo el costo por token de DeepSeek V4 hasta 5 veces sobre GB300 NVL72, gracias a la combinación de TensorRT-LLM, el framework de inferencia Dynamo, la precisión NVFP4 y el interconector NVLink. Los datos provienen de InferenceX, el benchmark independiente de SemiAnalysis.

Resultados de SemiAnalysis InferenceX comparando costo por token e interactividad de sistemas NVIDIA GB300 NVL72 con SGLang y el framework Dynamo.
Resultados de SemiAnalysis InferenceX comparando costo por token e interactividad de sistemas NVIDIA GB300 NVL72 con SGLang y el framework Dynamo.

¿Por qué el software cambia la economía de la inferencia?

En cargas tradicionales, cada request seguía un camino predecible: leer una fila de base de datos, servir un HTML, escalar sumando más servidores iguales. La agentic AI rompe ese patrón.

La agentic AI corre workflows distribuidos y stateful que abarcan LLMs, tools, memoria, seguridad, red y cómputo acelerado en todo el data center.
La agentic AI corre workflows distribuidos y stateful que abarcan LLMs, tools, memoria, seguridad, red y cómputo acelerado en todo el data center.

Los agentes razonan, planifican, invocan herramientas, generan subagentes especialistas y arrastran contexto masivo a lo largo de conversaciones multi-turno. Una sola consulta se convierte en un problema de cómputo distribuido que puede abarcar cientos de subagentes, miles de tareas y varios modelos grandes corriendo sobre GPUs, CPUs, DPUs y almacenamiento.

El stack de software es lo que determina si esa complejidad se traduce en capacidad desperdiciada o en costo por token más bajo. NVIDIA articula su stack en tres capas:

  • Operación en producción: coordina el serving distribuido, la orquestación, el autoscaling y la gestión de memoria para repartir la inferencia entre los recursos de cómputo y storage disponibles.
  • Aceleración de aplicaciones: ejecuta los modelos con alto rendimiento mientras deja espacio para tunear con optimizaciones de runtime como el solapamiento de cómputo y comunicación o el kernel fusion.
  • Acceso a infraestructura: expone GPUs, red, memoria y capacidades de sistema sin obligar al desarrollador a lidiar con cada instrucción de bajo nivel.

Serving desagregado y NVFP4: cuando las optimizaciones se apilan

Cuatro técnicas concretas explican el salto de rendimiento: el serving desagregado, la paralelización de expertos a gran escala sobre NVLink, la precisión NVFP4 y la multi-token prediction. Cada una entrega ganancias significativas por separado, pero al combinarlas el throughput sube hasta 20 veces por GPU respecto a la línea base.

El stack de NVIDIA abarca serving de modelos, scheduling en runtime, kernels, librerías de comunicación y optimizaciones hardware-aware, permitiendo ganancias rápidas y menor costo de serving.
El stack de NVIDIA abarca serving de modelos, scheduling en runtime, kernels, librerías de comunicación y optimizaciones hardware-aware, permitiendo ganancias rápidas y menor costo de serving.

Capturar esa ganancia en producción es complejo: exige coordinación de toda la pila, desde las operaciones de producción y los runtimes de modelo hasta los kernels, las librerías de comunicación y el acceso a hardware. El punto de NVIDIA es que su stack está diseñado para que esas capas se refuercen entre sí.

Apilar optimizaciones de software compone las ganancias: el throughput por GPU de NVIDIA Blackwell sube desde la base hasta 20x con serving desagregado, paralelismo de expertos, NVFP4 y multi-token prediction.
Apilar optimizaciones de software compone las ganancias: el throughput por GPU de NVIDIA Blackwell sube desde la base hasta 20x con serving desagregado, paralelismo de expertos, NVFP4 y multi-token prediction.

El efecto del ecosistema open source

La segunda pata del argumento es CUDA. Muchos de los frameworks abiertos más usados están construidos de forma nativa sobre CUDA, así que cada mejora en investigación llega con rendimiento líder desde el día cero sobre GPUs NVIDIA.

PyTorch es el ejemplo canónico. Lanzado en 2016 con soporte nativo de CUDA, coevolucionó con la arquitectura de NVIDIA y hoy entrega Tensor Cores, Transformer Engine y NVFP4 directo desde su API. Cuando aparecen avances como DFlash speculative decode, que llega a multiplicar por 15 el throughput sobre hardware existente, o FastVideo, que genera video 1080p en menos de cinco segundos, corren de inmediato sobre NVIDIA.

La codesarrollo entre NVIDIA y PyTorch acerca las nuevas innovaciones de software a los desarrolladores, convirtiendo los avances nativos en CUDA en rendimiento productivo a medida que crece la adopción de PyTorch.
La codesarrollo entre NVIDIA y PyTorch acerca las nuevas innovaciones de software a los desarrolladores, convirtiendo los avances nativos en CUDA en rendimiento productivo a medida que crece la adopción de PyTorch.

Ese mismo empuje explica por qué los frameworks de inferencia como vLLM y SGLang tuvieron recetas de despliegue day-zero para Blackwell cuando salió DeepSeek V4, y por qué el rendimiento del modelo sobre Blackwell mejoró hasta 5x en un mes en ambos frameworks, cortando el costo por token a aproximadamente un quinto de su nivel previo.

Resultados de SemiAnalysis InferenceX comparando throughput de tokens a igual interactividad para sistemas NVIDIA GB200 NVL72 con vLLM y el framework Dynamo.
Resultados de SemiAnalysis InferenceX comparando throughput de tokens a igual interactividad para sistemas NVIDIA GB200 NVL72 con vLLM y el framework Dynamo.

¿Qué implica para operadores en la región?

Para integradores y proveedores de infraestructura de IA en LatAm el punto operativo es concreto: Blackwell no es una decisión de hardware aislada. La eficiencia real depende de qué tan al día esté el stack de software (Dynamo, TensorRT-LLM, NVFP4, vLLM, SGLang) sobre las GPUs alquiladas u operadas. Un mes de retraso en updates puede significar pagar 5 veces más por el mismo throughput.

Casos citados por NVIDIA que ya operan sobre este stack: Baseten logró servir DeepSeek V4 Pro con TensorRT-LLM y sumar hasta 50% más tokens por segundo; DigitalOcean ayudó a Hippocratic AI a subir 30% el throughput manteniendo latencia bajo medio segundo en 10 millones de llamadas médicas; Together AI ayudó a Cursor a acortar el camino entre optimización y endpoint productivo.