
IA
DiffusionGemma de Google escribe texto desde ruido a 1.000 tokens/s
El modelo experimental de pesos abiertos genera 256 tokens en paralelo y supera a Gemma 4 en velocidad, aunque pierde calidad en los benchmarks de Google.
The Decoder
3 notas publicadas

Google DeepMind y NVIDIA optimizan la generación de texto paralela, logrando mayor throughput y menores costos operativos para aplicaciones empresariales de IA.

Google DeepMind publica un modelo experimental MoE de 26B parámetros bajo Apache 2.0 que genera bloques de 256 tokens en paralelo, alcanzando 1.000 tok/s en una NVIDIA H100.
Otros temas que aparecen junto a #diffusiongemma en nuestra cobertura editorial.