Gemma 4: qué cambia en la nueva familia de modelos abiertos de Google – Brain and code tech

Google DeepMind ha presentado Gemma 4 como su familia de modelos abiertos más capaz hasta la fecha. Según la compañía, esta nueva generación está diseñada para razonamiento avanzado y flujos de trabajo agentic, con un foco claro en ofrecer más capacidad por parámetro y en facilitar su uso sobre hardware diverso.

El lanzamiento combina varios elementos: nuevos tamaños de modelo, mejoras técnicas en razonamiento y contexto, capacidades multimodales, soporte para más de 140 idiomas y una licencia Apache 2.0 con enfoque comercialmente permisivo. La tesis central del anuncio es clara: Gemma 4 busca ampliar el acceso a capacidades avanzadas de IA abierta sin exigir una infraestructura desproporcionada.

Una familia de modelos abierta y orientada a hardware real

Google presenta Gemma 4 como una familia pensada para ejecutarse y ajustarse de forma eficiente en distintos entornos. El mensaje del lanzamiento insiste en esa versatilidad: desde dispositivos Android y GPUs de portátil hasta workstations y aceleradores.

La familia se distribuye en cuatro tamaños:

Effective 2B (E2B)
Effective 4B (E4B)
26B Mixture of Experts (MoE)
31B Dense

Según el texto original, todos los modelos van más allá del uso conversacional básico y están orientados a lógica compleja y flujos agentic. En los modelos de mayor tamaño, Google afirma un rendimiento de referencia dentro de su categoría, con el modelo 31B situado en el puesto número 3 entre modelos abiertos en el leaderboard de texto de Arena AI y el 26B en el puesto número 6.

La compañía subraya además que Gemma 4 supera a modelos hasta 20 veces mayores en ese entorno de evaluación. Su conclusión es que esta mejora en inteligencia por parámetro permite acceder a capacidades de nivel frontier con una carga de hardware significativamente menor.

Qué capacidades incorpora Gemma 4

El anuncio organiza la propuesta de valor de Gemma 4 en varias capacidades concretas. Entre las más destacadas están las siguientes:

Razonamiento avanzado: capacidad para planificación en varios pasos y lógica profunda, con mejoras en benchmarks de matemáticas y seguimiento de instrucciones.
Flujos agentic: soporte nativo para function-calling, salida JSON estructurada e instrucciones de sistema nativas.
Generación de código: soporte para generación de código offline con enfoque local-first.
Visión y audio: todos los modelos procesan de forma nativa vídeo e imágenes, con tareas destacadas como OCR y comprensión de gráficos; los modelos E2B y E4B añaden entrada nativa de audio para reconocimiento y comprensión de voz.
Contexto largo: 128K de contexto en los modelos edge y hasta 256K en los modelos mayores.
Más de 140 idiomas: entrenamiento nativo en más de 140 lenguas.

La presentación insiste en que estas capacidades están pensadas tanto para investigación como para el desarrollo de productos.

Dos líneas claras: modelos grandes y modelos edge

Uno de los rasgos más definidos del anuncio es la diferenciación entre los modelos de mayor tamaño y los orientados a edge.

Modelos 26B y 31B: razonamiento avanzado en equipos personales

Google describe los modelos 26B y 31B como orientados a ofrecer razonamiento de alto nivel para investigadores y desarrolladores en hardware accesible. En el caso de los pesos no cuantizados en bfloat16, la compañía señala que caben de forma eficiente en una sola GPU NVIDIA H100 de 80 GB.

Para configuraciones locales, también menciona versiones cuantizadas que se ejecutan de forma nativa en GPUs de consumo para dar soporte a IDEs, asistentes de código y flujos agentic.

Dentro de este bloque, Google diferencia el enfoque de cada variante:

26B Mixture of Experts (MoE): prioriza la latencia y activa solo 3.8 mil millones de sus parámetros totales durante la inferencia para ofrecer una velocidad especialmente alta en tokens por segundo.
31B Dense: prioriza la calidad bruta y se presenta como una base potente para fine-tuning.

Modelos E2B y E4B: IA multimodal para móvil e IoT

Los modelos E2B y E4B están diseñados desde el inicio para maximizar eficiencia de cómputo y memoria. Según Google, activan una huella efectiva de 2.000 millones y 4.000 millones de parámetros durante la inferencia para preservar RAM y batería.

El texto indica que estos modelos multimodales pueden ejecutarse completamente offline y con latencia casi nula en dispositivos edge como teléfonos, Raspberry Pi y NVIDIA Jetson Orin Nano.

Google también señala que, en colaboración con el equipo de Google Pixel y con fabricantes como Qualcomm Technologies y MediaTek, estos modelos se orientan a ampliar la utilidad on-device más allá del recuento bruto de parámetros.

Licencia Apache 2.0 y foco en flexibilidad

Otro de los ejes del anuncio es la licencia. Google afirma que Gemma 4 se publica bajo una licencia Apache 2.0 comercialmente permisiva, como respuesta al feedback recibido de la comunidad.

La empresa plantea esta decisión como una base para:

Mayor flexibilidad para desarrolladores.
Control sobre datos, infraestructura y modelos.
Despliegue en distintos entornos, tanto on-premises como en la nube.
Apoyo a la soberanía digital.

El texto incluye además una valoración de Clément Delangue, cofundador y CEO de Hugging Face, que define el lanzamiento bajo Apache 2.0 como un hito importante y confirma soporte desde el primer día para la familia Gemma 4 en su plataforma.

Seguridad, fiabilidad y ecosistema disponible desde el lanzamiento

Google sostiene que Gemma 4 se apoya en la misma infraestructura de seguridad rigurosa que sus modelos propietarios. En el texto, esto se presenta como una base de confianza y transparencia para empresas y organizaciones soberanas que necesiten capacidades avanzadas con altos estándares de seguridad y fiabilidad.

A nivel de ecosistema, la compañía pone el acento en la disponibilidad inmediata. El anuncio menciona varias vías para empezar a trabajar con los modelos:

Acceso a Gemma 4 en Google AI Studio para 31B y 26B MoE.
Acceso en Google AI Edge Gallery para E4B y E2B.
Uso en Android Studio para Agent Mode.
Desarrollo de aplicaciones Android con ML Kit GenAI Prompt API.

También destaca compatibilidad desde el primer día con un conjunto amplio de herramientas y entornos, entre ellos Hugging Face, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM, NeMo, LM Studio, Docker, Keras y otros.

Además, señala varias opciones para descargar, adaptar y escalar los modelos:

Descarga de pesos desde Hugging Face, Kaggle u Ollama.
Entrenamiento y adaptación en plataformas como Google Colab, Vertex AI o GPUs de gaming.
Despliegue en producción sobre Google Cloud.
Optimización para distintas plataformas de hardware, incluidas infraestructuras de NVIDIA, GPUs de AMD y TPUs.

Un lanzamiento que combina apertura, rendimiento y despliegue

En conjunto, el anuncio de Gemma 4 presenta una propuesta basada en tres ideas principales: modelos abiertos, rendimiento elevado por parámetro y capacidad de despliegue en una gama amplia de hardware.

Google sitúa esta familia como complemento de sus modelos Gemini y como una combinación de herramientas abiertas y propietarias para desarrolladores. A partir del texto publicado, la compañía quiere posicionar Gemma 4 no solo como una nueva iteración de sus modelos abiertos, sino como una base práctica para construir agentes, productos y flujos de trabajo avanzados con menos fricción de infraestructura.

Fuente

Fuente
Group Product Manager, “Gemma 4: Byte for byte, the most capable open models”, Google DeepMind, 2 de abril de 2026.

Gemma 4: qué cambia en la nueva familia de modelos abiertos de Google DeepMind

Una familia de modelos abierta y orientada a hardware real

Qué capacidades incorpora Gemma 4

Dos líneas claras: modelos grandes y modelos edge

Modelos 26B y 31B: razonamiento avanzado en equipos personales

Modelos E2B y E4B: IA multimodal para móvil e IoT

Licencia Apache 2.0 y foco en flexibilidad

Seguridad, fiabilidad y ecosistema disponible desde el lanzamiento

Un lanzamiento que combina apertura, rendimiento y despliegue

Fuente

Leave a comment

Your cart

Secciones

Choose options