Investigación Google lanza DiffusionGemma, modelo de texto 4 x más rápido en GPU local
Google publica DiffusionGemma, modelo de generación de texto basado en difusión que supera 1 000 tokens por segundo en una NVIDIA H100 y 700 en una RTX 5090, con peso disponible bajo Apache 2.0.
Qué es DiffusionGemma
Google presentó el 10 de junio el modelo experimental DiffusionGemma, una variante de generación de texto que emplea la técnica de difusión, conocida por su uso en generación de imágenes. El modelo está bajo licencia Apache 2.0 y sus pesos están alojados en Hugging Face, lo que permite su descarga libre.
Principios operativos y rendimiento
A diferencia de los modelos autoregresivos tradicionales, que generan tokens secuencialmente, DiffusionGemma inicia con un bloque de 256 tokens aleatorios y los refina en varias iteraciones. Este proceso paralelo incluye atención bidireccional, lo que le permite auto‑corregir errores y resulta útil para tareas como edición en línea, completado de código y formateo de markdown.
El modelo tiene 260 mil millones de parámetros en una arquitectura Mixture of Experts, pero solo activa 38 mil millones durante la inferencia. Con cuantización ocupa 18 GB de VRAM, por lo que puede ejecutarse en GPUs de consumo. En pruebas, una NVIDIA H100 alcanza más de 1 000 tokens por segundo, y una RTX 5090 supera los 700 tokens por segundo.
Implicaciones para la empresa
DiffusionGemma está pensado para entornos locales de bajo tráfico, donde la latencia de respuesta es crítica y los recursos de cloud son limitados. Su velocidad favorece aplicaciones interactivas en clientes o servidores internos, aunque Google advierte que la calidad del texto es inferior a la de Gemma 4, por lo que no es adecuado para procesos que requieran la máxima precisión. En entornos con gran volumen de consultas, los modelos autoregresivos siguen siendo más eficientes en coste.
Recomendaciones de adopción
- Verificar disponibilidad de GPU con al menos 18 GB de memoria.
- Evaluar si la prioridad es velocidad o calidad del texto; para alta calidad, mantener Gemma 4.
- Integrar el modelo mediante vLLM, Transformers, MLX, Unsloth o NVIDIA NeMo, según la infraestructura existente.
- Considerar usar Google Cloud Model Garden o NVIDIA NIM para despliegues híbridos que combinen capacidad local y cloud.
Adoptar DiffusionGemma permite reducir la dependencia de servicios en la nube y acelerar flujos de trabajo que demandan generación rápida de texto, siempre que se acepte una ligera degradación en la calidad de salida.