Punto clave de esta nota

NVIDIA GQE acelera consultas SQL 7,5x agregado sobre bases CPU en TPC-H SF1000, con ganancias por consulta que llegan a 25,5x.

Punto clave de esta nota

La arquitectura aprovecha HBM, NVLink-C2C y el Decompression Engine de Blackwell para minimizar el tráfico entre CPU y GPU.

Punto clave de esta nota

GQE usa compresión híbrida Cascaded + LZ4 vía nvCOMP y llega a 400 GB/s efectivos en una sola GPU B200.

NVIDIA GQE: motor SQL 7,5x más rápido en GPUs Blackwell

Al grano

NVIDIA GQE acelera consultas SQL 7,5x agregado sobre bases CPU en TPC-H SF1000, con ganancias por consulta que llegan a 25,5x.
La arquitectura aprovecha HBM, NVLink-C2C y el Decompression Engine de Blackwell para minimizar el tráfico entre CPU y GPU.
GQE usa compresión híbrida Cascaded + LZ4 vía nvCOMP y llega a 400 GB/s efectivos en una sola GPU B200.

Los motores de consulta acelerados por GPU suelen estar limitados por el ancho de banda de memoria e I/O. Los avances de hardware de NVIDIA, entre ellos la memoria de alto ancho de banda (HBM), NVIDIA NVLink-C2C y los motores de descompresión dedicados que trae el NVIDIA GB200 NVL4, ayudan a levantar esos cuellos de botella aumentando la capacidad efectiva de almacenamiento, acelerando el traspaso entre CPU y GPU y agilizando el acceso a datos sin consumir recursos del streaming multiprocessor (SM).

En este artículo la compañía muestra cómo las bases de datos pueden usar estas tecnologías para acelerar la ejecución de consultas en GPU, con técnicas de movimiento eficiente CPU-GPU, compresión, partition pruning y solapamiento de transferencias con cómputo.

¿Qué es exactamente GQE?

GQE (GPU Query Engine) es una arquitectura de referencia diseñada para ejecutar consultas SQL de alto rendimiento sobre grandes datasets en hardware NVIDIA moderno. Internamente utiliza NVIDIA cuDF y otras librerías de CUDA-X, incluidas CCCL, nvCOMP y nvSHMEM.

Las cuatro tareas que GQE busca facilitar en un motor de consultas son mover la ejecución a GPUs, mover la descompresión a nvCOMP, hacer los formatos de datos GPU-friendly y cerrar las brechas de rendimiento end-to-end al correr en GPU.

Figura 1. Una consulta SQL fluye por las tres capas de arquitectura de GQE (consulta, datos y ejecución) para acelerarse en GPU

La capa de consulta complementa el motor de ejecución con un parser SQL y un optimizador. Acepta de forma nativa planes Substrait, un formato abierto de planes de consulta, lo que permite evaluar el beneficio de ejecutar en GPU exportando planes desde una base ya existente y corriéndolos en GQE. Apache DataFusion, por ejemplo, transforma un string SQL en un plan Substrait; GQE lo consume como plan lógico optimizado, le agrega refinamientos propios y lo convierte en plan físico.

La capa de datos almacena y organiza los datos para acceso rápido del ejecutor. El almacenamiento está abstraído en readers especializados que soportan distintos formatos y medios (memoria GPU, memoria CPU y disco). GQE transfiere los datos por chunks bajo demanda, saturando la GPU sin tener el dataset completo en su memoria.

La capa de ejecución corre el plan físico contra los datos y produce el resultado. Los operadores se construyen sobre cuDF, que los implementa en CUDA C++ altamente optimizado. Al llegar los datos por chunks, GQE puede descomponer operadores y ejecutar tareas concurrentemente como streams de CUDA en pipeline.

Diseño del layout y orquestación de transferencias

Figura 2. El formato in-memory de GQE organiza los datos columnares en row groups y particiones para transferirlos eficientemente a la GPU

La tabla se subdivide horizontalmente en row groups. Cada uno contiene columnas y metadatos. Dentro de un row group, GQE guarda las columnas como particiones no contiguas. En una transferencia, la capa de almacenamiento convierte un conjunto de particiones en una columna cuDF, y la capa de datos oculta a la ejecución los detalles de compresión y partition pruning.

Figura 3. El paralelismo en pipeline solapa scheduling, transferencia, descompresión y ejecución en GPU para acelerar el movimiento de datos

La transferencia se compone de cuatro etapas: scheduling en el thread host, transferencia H2D en la GPU, descompresión y, finalmente, ejecución de los kernels CUDA que computan la consulta. Idealmente el tiempo total equivale al de la etapa más lenta, con el resto oculto dentro del pipeline.

Compresión híbrida: Cascaded + LZ4 sobre Blackwell

Figura 4. El formato Cascaded de nvCOMP encadena delta encoding, run-length encoding y bit-packing para comprimir eficientemente datos columnares

GQE recibe dos beneficios de la compresión: aumenta la capacidad de dataset por unidad de memoria y acelera las transferencias, incluso sobre interconexiones veloces como NVLink C2C. La librería nvCOMP ofrece formatos estándar y optimizados para GPU, y el nuevo Decompression Engine que NVIDIA introdujo en la arquitectura Blackwell descomprime formatos basados en LZ77 como LZ4, Snappy y Deflate sin consumir recursos de SM.

El Decompression Engine en una única GPU B200 alcanza hasta 400 GB/s en aplicaciones de bases de datos. Con un ratio de compresión de 4x, entrega aproximadamente 400 GB/s de throughput efectivo host-to-device dejando libres 100 GB/s de ancho de banda C2C para transferir otros datos, incluidos los que se descomprimen en los SM.

La estrategia híbrida de GQE prueba tanto Cascaded como LZ4 por columna y elige el algoritmo con mejor equilibrio. Cascaded alcanza tasas de compresión cercanas a 500 GB/s en B200, así que la evaluación extra no agrega overhead significativo en la etapa de carga.

Resultados en TPC-H SF1000

En el benchmark TPC-H SF1000, GQE obtiene una aceleración agregada de 7,5x sobre bases de datos CPU state-of-the-art, con ganancias por consulta individual que llegan hasta 25,5x. Estas cifras son la métrica clave que NVIDIA usa para argumentar que la combinación cuDF + nvCOMP + Blackwell DE ya rompe la barrera clásica del ancho de banda CPU-GPU.

NVIDIA GQE: motor SQL 7,5x más rápido en GPUs Blackwell

Al grano

Por qué importa

¿Qué es exactamente GQE?

Diseño del layout y orquestación de transferencias

Compresión híbrida: Cascaded + LZ4 sobre Blackwell

Resultados en TPC-H SF1000

Seguir leyendo

NVIDIA baja hasta 5x el costo por token de DeepSeek V4 en Blackwell

AWS EC2 G7 estrena Blackwell con 4.6x mas inferencia que G6

Blackwell barre MLPerf Training 6.0: NVIDIA escala a 8.192 GPU

NVIDIA Blackwell lidera el primer benchmark de IA agéntica

→Al grano

✦Por qué importa

¿Qué es exactamente GQE?

Diseño del layout y orquestación de transferencias

Compresión híbrida: Cascaded + LZ4 sobre Blackwell

Resultados en TPC-H SF1000

Seguir leyendo

NVIDIA baja hasta 5x el costo por token de DeepSeek V4 en Blackwell

AWS EC2 G7 estrena Blackwell con 4.6x mas inferencia que G6

Blackwell barre MLPerf Training 6.0: NVIDIA escala a 8.192 GPU

NVIDIA Blackwell lidera el primer benchmark de IA agéntica

Al grano

Por qué importa