
NVIDIA cuantiza Nemotron 3 Ultra a NVFP4 con 5,9x más throughput
El equipo de NVIDIA reduce el checkpoint del modelo de 550B desde 1.121 GB en BF16 a 352 GB en NVFP4, con la técnica four-over-six que recupera 98,5% de la precisión sobre Blackwell.
15 notas publicadas

Las nuevas instancias suman hasta 8 RTX PRO 4500 Blackwell, 256 GB de memoria GPU y 700 Gbps en EFA, y NVIDIA cuVS pasa a default en OpenSearch Serverless.

El tercer contrato GPU de SpaceX, ahora con Reflection AI, lleva sus rentas anuales a USD 28.000 millones según Jamin Ball: doble de la facturación actual de Coreweave.

El método de speculative decoding por bloques desplaza a EAGLE-3 y libera 20 checkpoints abiertos en Hugging Face para Hopper y Blackwell.

Fue la única plataforma en presentar resultados sobre cada test, incluyendo DeepSeek-V3 (671B parámetros) y GPT-OSS-20B, y escaló a 8.192 GPUs Blackwell Ultra en datacenters de producción.

NVIDIA muestra cómo medir GEMM por GEMM la ganancia real de las precisiones bajas en CodonFM 5B, separando el costo de cuantización del rendimiento puro del kernel.

GB200 NVL72 y GB300 NVL72 lideran las siete pruebas del benchmark, incluyendo las nuevas cargas MoE DeepSeek-V3 671B y GPT-OSS-20B, con CoreWeave entrenando en 2,02 minutos.

El GB300 NVL72 corre 20× más agentes por megawatt que el HGX H200 en AgentPerf, el primer benchmark de Artificial Analysis que mide cargas reales de agentes encadenando llamadas LLM.

Sirve contextos de 1 millón de tokens con costo por token 20 veces menor que M2, y se despliega en NVIDIA Dynamo, TensorRT-LLM, SGLang y vLLM con pesos abiertos en Hugging Face.

El benchmark STAC-AI LANG6 con Llama 3.1 8B y 70B muestra hasta 2,8x más rendimiento por GPU frente a Hopper en cargas de inferencia con documentos EDGAR.

La nueva GPU Server Edition acelera Parabricks, Minimap2, fq2bam y DeepVariant; con cuEquivariance y Openfold3 también gana 2,3x sobre la L4 al inferir estructuras de proteínas.

El kernel Triton desarrollado por Meta para GPUs Blackwell aprovecha el patrón block-diagonal de los modelos de ranking para eliminar pasos enteros del algoritmo y acelerar 2,50x el backward pass.

El nuevo plugin topology/block de Slurm trata cada dominio NVLink coherente del rack como una unidad rígida, evitando que un job atraviese fronteras y pierda el ancho de banda de 1,8 TB/s por GPU.

Una Cluster Acceleration Structure reduce el costo de la BVH en ray tracing sobre geometría densa, y los RT Cores Blackwell duplican la tasa de intersección rayo-triángulo.

La alianza presenta infraestructura Vera Rubin, GPUs Blackwell y nuevas herramientas para escalar gemelos digitales y agentes autónomos en la nube.
Otros temas que aparecen junto a #blackwell en nuestra cobertura editorial.