Los motores de consulta acelerados por GPU suelen estar limitados por el ancho de banda de memoria e I/O. Los avances de hardware de NVIDIA, entre ellos la memoria de alto ancho de banda (HBM), NVIDIA NVLink-C2C y los motores de descompresión dedicados que trae el NVIDIA GB200 NVL4, ayudan a levantar esos cuellos de botella aumentando la capacidad efectiva de almacenamiento, acelerando el traspaso entre CPU y GPU y agilizando el acceso a datos sin consumir recursos del streaming multiprocessor (SM).
En este artículo la compañía muestra cómo las bases de datos pueden usar estas tecnologías para acelerar la ejecución de consultas en GPU, con técnicas de movimiento eficiente CPU-GPU, compresión, partition pruning y solapamiento de transferencias con cómputo.
¿Qué es exactamente GQE?
GQE (GPU Query Engine) es una arquitectura de referencia diseñada para ejecutar consultas SQL de alto rendimiento sobre grandes datasets en hardware NVIDIA moderno. Internamente utiliza NVIDIA cuDF y otras librerías de CUDA-X, incluidas CCCL, nvCOMP y nvSHMEM.
Las cuatro tareas que GQE busca facilitar en un motor de consultas son mover la ejecución a GPUs, mover la descompresión a nvCOMP, hacer los formatos de datos GPU-friendly y cerrar las brechas de rendimiento end-to-end al correr en GPU.

La capa de consulta complementa el motor de ejecución con un parser SQL y un optimizador. Acepta de forma nativa planes Substrait, un formato abierto de planes de consulta, lo que permite evaluar el beneficio de ejecutar en GPU exportando planes desde una base ya existente y corriéndolos en GQE. Apache DataFusion, por ejemplo, transforma un string SQL en un plan Substrait; GQE lo consume como plan lógico optimizado, le agrega refinamientos propios y lo convierte en plan físico.
La capa de datos almacena y organiza los datos para acceso rápido del ejecutor. El almacenamiento está abstraído en readers especializados que soportan distintos formatos y medios (memoria GPU, memoria CPU y disco). GQE transfiere los datos por chunks bajo demanda, saturando la GPU sin tener el dataset completo en su memoria.
La capa de ejecución corre el plan físico contra los datos y produce el resultado. Los operadores se construyen sobre cuDF, que los implementa en CUDA C++ altamente optimizado. Al llegar los datos por chunks, GQE puede descomponer operadores y ejecutar tareas concurrentemente como streams de CUDA en pipeline.
Diseño del layout y orquestación de transferencias

La tabla se subdivide horizontalmente en row groups. Cada uno contiene columnas y metadatos. Dentro de un row group, GQE guarda las columnas como particiones no contiguas. En una transferencia, la capa de almacenamiento convierte un conjunto de particiones en una columna cuDF, y la capa de datos oculta a la ejecución los detalles de compresión y partition pruning.

La transferencia se compone de cuatro etapas: scheduling en el thread host, transferencia H2D en la GPU, descompresión y, finalmente, ejecución de los kernels CUDA que computan la consulta. Idealmente el tiempo total equivale al de la etapa más lenta, con el resto oculto dentro del pipeline.
Compresión híbrida: Cascaded + LZ4 sobre Blackwell

GQE recibe dos beneficios de la compresión: aumenta la capacidad de dataset por unidad de memoria y acelera las transferencias, incluso sobre interconexiones veloces como NVLink C2C. La librería nvCOMP ofrece formatos estándar y optimizados para GPU, y el nuevo Decompression Engine que NVIDIA introdujo en la arquitectura Blackwell descomprime formatos basados en LZ77 como LZ4, Snappy y Deflate sin consumir recursos de SM.
El Decompression Engine en una única GPU B200 alcanza hasta 400 GB/s en aplicaciones de bases de datos. Con un ratio de compresión de 4x, entrega aproximadamente 400 GB/s de throughput efectivo host-to-device dejando libres 100 GB/s de ancho de banda C2C para transferir otros datos, incluidos los que se descomprimen en los SM.
La estrategia híbrida de GQE prueba tanto Cascaded como LZ4 por columna y elige el algoritmo con mejor equilibrio. Cascaded alcanza tasas de compresión cercanas a 500 GB/s en B200, así que la evaluación extra no agrega overhead significativo en la etapa de carga.
Resultados en TPC-H SF1000
En el benchmark TPC-H SF1000, GQE obtiene una aceleración agregada de 7,5x sobre bases de datos CPU state-of-the-art, con ganancias por consulta individual que llegan hasta 25,5x. Estas cifras son la métrica clave que NVIDIA usa para argumentar que la combinación cuDF + nvCOMP + Blackwell DE ya rompe la barrera clásica del ancho de banda CPU-GPU.




