DiffusionGemma acelera la generación de texto hasta 4 veces
Google lanza DiffusionGemma, modelo experimental de 26 B MoE que genera bloques de 256 tokens en paralelo, alcanzando más de 1 000 tps en H100 y reduciendo la latencia local para flujos interactivos.