
Qualcomm compra Modular por USD 4.000M para enfrentar a CUDA
La operación paga 2,5 veces la valuación de hace nueve meses e integra a 150 ingenieros, incluido Chris Lattner (creador de LLVM y Swift), a la apuesta de Qualcomm por el centro de datos.
13 notas publicadas

NVIDIA detalla cuatro cambios algorítmicos al pooling BEV que llevan la latencia de 274 µs a 16,4 µs en RTX PRO 6000 Blackwell Max-Q gracias a FP8 y mejor uso de caché L2.

Headers como cuda/stream, cuda/buffer y cuda/launch ofrecen tipos fuertes, dependencias explícitas y APIs asíncronas por defecto, sin reescribir el código que usa CUDA Runtime.

El workflow Build Your Own Transaction Model combina cuDF, cuML y NeMo AutoModel para llegar a un Llama de 29M parámetros que mejora 50% la precisión sobre XGBoost en detección de fraude.

Los kernels fusionados eliminan cuellos de botella de memoria y sincronización CPU-GPU, entregan speedup de 1,3× a 2× por kernel y mejoran 93% el pre-entrenamiento de GPT-OSS.

El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.

Hugging Face abre una serie de tres partes sobre profiling con PyTorch, empezando por matmul más bias en bf16 sobre una NVIDIA A100 80GB.

El framework integrado en CUDA 13.3 usa algoritmos genéticos para optimizar el compilador GPU por workload, en vez de aplicar heurísticas universales.

Con CUDA 13.3, NVIDIA habilita el modelo de programación por tiles en C++ y promete que el compilador se haga cargo de la paralelización, los tensor cores y el movimiento de memoria.

NVIDIA lanza CUDA Tile sobre Hopper, libera CUDA Python 1.0 con green contexts y process checkpointing, y debuta CompileIQ con hasta 15% de speedup en GEMM y attention.

El nuevo wheel CUDA para aarch64 ya viaja en el índice por defecto de PyPI, cerrando dos años de --index-url y reinstalaciones silenciosas que rompían vLLM en Grace Hopper.

Un kernel CUDA llamado TwELL aprovecha la sparsity de activaciones para acelerar inferencia 20,5% y entrenamiento 21,9% en GPUs H100, sin perder precisión en benchmarks.

El verdadero diferencial de Jensen Huang no son los chips, sino una plataforma con 20 años de ventaja que AMD, Intel y los proyectos open source no logran replicar.
Otros temas que aparecen junto a #cuda en nuestra cobertura editorial.