Etiqueta

#cuda

13 notas publicadas

Qualcomm compra Modular por USD 4.000M para enfrentar a CUDA

La operación paga 2,5 veces la valuación de hace nueve meses e integra a 150 ingenieros, incluido Chris Lattner (creador de LLVM y Swift), a la apuesta de Qualcomm por el centro de datos.

Wiredhace 5 días

BEVPoolV3 acelera percepción de IA física hasta 42x en GPU

NVIDIA detalla cuatro cambios algorítmicos al pooling BEV que llevan la latencia de 274 µs a 16,4 µs en RTX PRO 6000 Blackwell Max-Q gracias a FP8 y mejor uso de caché L2.

NVIDIA Developerhace 5 días

CCCL Runtime: NVIDIA propone una capa C++ moderna para CUDA

Headers como cuda/stream, cuda/buffer y cuda/launch ofrecen tipos fuertes, dependencias explícitas y APIs asíncronas por defecto, sin reescribir el código que usa CUDA Runtime.

NVIDIA Developer23 jun

NVIDIA libera receta para entrenar tu propio modelo de transacciones

El workflow Build Your Own Transaction Model combina cuDF, cuML y NeMo AutoModel para llegar a un Llama de 29M parámetros que mejora 50% la precisión sobre XGBoost en detección de fraude.

NVIDIA Developer17 jun

NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL

Los kernels fusionados eliminan cuellos de botella de memoria y sincronización CPU-GPU, entregan speedup de 1,3× a 2× por kernel y mejoran 93% el pre-entrenamiento de GPT-OSS.

NVIDIA Developer16 jun

Open Source

Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA

El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.

Phoronix Tests11 jun

torch.profiler explicado: cómo leer trazas en PyTorch desde cero

Hugging Face abre una serie de tres partes sobre profiling con PyTorch, empezando por matmul más bias en bf16 sobre una NVIDIA A100 80GB.

Hugging Face29 may

NVIDIA CompileIQ: auto-tuning evolutivo para kernels CUDA

El framework integrado en CUDA 13.3 usa algoritmos genéticos para optimizar el compilador GPU por workload, en vez de aplicar heurísticas universales.

NVIDIA Developer28 may

CUDA Tile llega a C++: kernels GPU sin gestionar hilos

Con CUDA 13.3, NVIDIA habilita el modelo de programación por tiles en C++ y promete que el compilador se haga cargo de la paralelización, los tensor cores y el movimiento de memoria.

NVIDIA Developer27 may

CUDA 13.3 trae Tile Programming en C++ y autoajuste de compilador

NVIDIA lanza CUDA Tile sobre Hopper, libera CUDA Python 1.0 con green contexts y process checkpointing, y debuta CompileIQ con hasta 15% de speedup en GEMM y attention.

NVIDIA Developer27 may

PyTorch 2.11 arregla pip install torch para GB200 y GH200

El nuevo wheel CUDA para aarch64 ya viaja en el índice por defecto de PyPI, cerrando dos años de --index-url y reinstalaciones silenciosas que rompían vLLM en Grace Hopper.

PyTorch Blog19 may

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

Un kernel CUDA llamado TwELL aprovecha la sparsity de activaciones para acelerar inferencia 20,5% y entrenamiento 21,9% en GPUs H100, sin perder precisión en benchmarks.

MarkTechPost12 may

CUDA: el foso de software que mantiene a Nvidia intocable

El verdadero diferencial de Jensen Huang no son los chips, sino una plataforma con 20 años de ventaja que AMD, Intel y los proyectos open source no logran replicar.

Wired11 may

Etiquetas relacionadas

Otros temas que aparecen junto a #cuda en nuestra cobertura editorial.

#Nvidia12 #gpu4 #amd2 #LLM2 #Open Source2 #pytorch2 #compiladores2 #ai-infrastructure1