DiffusionGemma acelera la generación de texto hasta 4 veces

Google lanza DiffusionGemma, modelo experimental de 26 B MoE que genera bloques de 256 tokens en paralelo, alcanzando más de 1 000 tps en H100 y reduciendo la latencia local para flujos interactivos.

Google DeepMind presentó DiffusionGemma, un modelo abierto bajo licencia Apache 2.0 que propone un enfoque de difusión para producir texto. A diferencia de los LLM tradicionales que generan token a token, este modelo de 26 B parámetros (con arquitectura Mixture of Experts) activa sólo 3.8 B durante la inferencia, lo que permite trabajar dentro del límite de 18 GB de VRAM de tarjetas gráficas de consumo cuando se cuantiza.

El mayor aporte es la capacidad de generar 256 tokens simultáneamente, lo que desplaza el cuello de botella de la decodificación de la memoria al cómputo. En pruebas con una NVIDIA H100, el modelo alcanzó más de 1 000 tokens por segundo; en una GeForce RTX 5090, superó los 700 tps. Estos números representan una mejora de hasta cuatro veces respecto a los modelos autoregresivos encadenados.

El diseño incorpora una atención bidireccional, de modo que cada token puede observar a todos los demás dentro del bloque. Esta característica facilita casos como edición en línea, relleno de código, generación de secuencias biológicas o gráficos matemáticos, donde los componentes futuros influyen en los anteriores. Además, el modelo ejecuta un ciclo de autocorrección: evalúa el bloque completo y ajusta los tokens que resultan inconsistentes en tiempo real.

DiffusionGemma está pensado para desarrolladores que requieren respuestas inmediatas en entornos locales, por ejemplo, herramientas de edición colaborativa, prototipos de IA en escritorio o aplicaciones que necesitan iterar rápidamente. En entornos de alta concurrencia en la nube, los modelos autoregresivos siguen siendo más coste‑eficientes porque pueden servir lotes masivos; allí la ventaja de la paralelización disminuye y los costos de infraestructura pueden incrementarse.

La calidad del texto generado es inferior a la de la familia Gemma 4, que sigue siendo la referencia para producción. Para usos donde la precisión y fluidez son críticas, la recomendación es mantener Gemma 4. Sin embargo, DiffusionGemma se puede adaptar mediante fine‑tuning; por ejemplo, el proyecto Unsloth lo ajustó para resolver sudokus, una tarea en la que la dependencia del futuro token dificulta a los modelos tradicionales.

Los pesos están disponibles en Hugging Face y pueden integrarse con herramientas como MLX, vLLM, Transformers o llama.cpp (próximamente). Google colaboró con NVIDIA para optimizar kernels NVFP4 de 4‑bit, garantizando rendimiento tanto en GPUs de consumo (RTX 4090/5090) como en sistemas empresariales (Hopper, Blackwell, DGX). Los usuarios pueden ejecutar el modelo en sus equipos o desplegarlo a través de Gemini Enterprise Agent Platform o NVIDIA NIM.

Para los ejecutivos, la propuesta implica evaluar si la prioridad del negocio es la velocidad de respuesta local frente a la calidad del output. Adoptar DiffusionGemma requiere hardware compatible, potencialmente menos memoria que modelos equivalentes, y una estrategia de fine‑tuning si la aplicación necesita precisión superior. La decisión de sustituir o complementar los modelos actuales debería basarse en la carga de trabajo, el presupuesto de infraestructura y el nivel de latencia aceptable para el usuario final.

Henry González

También te puede interesar

Agents‑K1 y la nueva generación de grafos de conocimiento científico

La IA sombra amenaza la privacidad corporativa y exige una nueva gobernanza

OpenAI compra Ona para dar a Codex entornos seguros y persistentes