Gemma 4 revoluciona la IA de código abierto
Google acaba de lanzar Gemma 4 en abril de 2026, y esta vez la movida es diferente a la costumbre: son cuatro modelos distintos (2B, 4B, 26B y 31B) con capacidades multimodales nativas, ejecución completamente local, y licencia Apache 2.0 que te permite usarlo comercialmente sin pedir permiso a nadie. El modelo 31B Dense acaba de entrar al top 3 de Arena AI, posicionando a la IA abierta de Google en un lugar que hace un año parecía imposible.
En 30 segundos
- Gemma 4 es el lanzamiento de modelos de IA abiertos de Google con cuatro tamaños: 2B, 4B, 26B MoE y 31B Dense
- Todos soportan multimodal nativo (visión), audio y contexto de 128K a 256K tokens
- El modelo 31B llegó al puesto #3 en Arena AI (ranking de humanos) con 92% en AIME y 84% en GPQA
- Funciona completamente offline en tu máquina con Ollama, LM Studio o directamente en Android con Google AI Edge Gallery
- Licencia Apache 2.0 significa uso comercial libre, modificable y redistribuible
Qué es Gemma 4: el lanzamiento de Google
Gemma 4 es un conjunto de cuatro modelos de lenguaje abiertos desarrollados por Google DeepMind y disponibles bajo licencia Apache 2.0, lo que significa que podés usarlos, modificarlos y redistribuirlos sin restricciones comerciales. Según el anuncio oficial, Google posicionó esta generación como un salto cualitativo en lo que IA local puede hacer, no solo en escala sino en versatilidad.
Lo que hace diferente a Gemma 4 es que no es “un” modelo que se achica o agranda, sino cuatro opciones diseñadas para casos concretos. Si necesitás correr en una Raspberry Pi, tomás el 2B. Si querés razonamiento pesado en un servidor con una GPU decente, el 31B es candidato. (Y acá viene lo bueno: ni siquiera necesitás una GPU profesional, una RTX 3060 de 12GB zarpa sin drama.)
Cuatro tamaños, cuatro necesidades
| Modelo | Parámetros | VRAM mínima | Contexto | Multimodal | Audio nativo |
|---|---|---|---|---|---|
| Gemma 4 2B (E2B) | 2 mil millones | 4-6 GB | 128K tokens | Sí (visión) | Sí |
| Gemma 4 4B (E4B) | 4 mil millones | 8-10 GB | 128K tokens | Sí (visión) | Sí |
| Gemma 4 26B MoE | 26 mil millones | 16-20 GB | 256K tokens | Sí (visión) | No |
| Gemma 4 31B Dense | 31 mil millones | 20-24 GB | 256K tokens | Sí (visión) | No |

La diferencia entre el 26B MoE y el 31B Dense es arquitectura. El MoE (Mixture of Experts) solo activa un subset de capas por token, lo que lo hace más rápido. El Dense es más lento pero más consistente, y es el que pegó en el top 3 de Arena AI.
Multimodal, audio, contexto gigante y agentes
Todos los cuatro modelos Gemma 4 soportan visión de forma nativa, esto es, vos pasás una imagen y el modelo la entiende sin necesidad de preprocessarla con un modelo separado. Eso es importante porque baja latencia y elimina el riesgo de que dos sistemas digan cosas contradictorias.
Los dos modelos chicos (2B y 4B) además tienen audio nativo. Pasás un .wav y te devuelve texto. Ponele que estás construyendo una app de trascripción para usar offline en un dispositivo, el 4B con audio nativo es exactamente lo que necesitás (spoiler: funciona sorprendentemente bien). Esto se conecta con lo que analizamos en ejecutar agentes locales sin depender de APIs.
El contexto de 128K a 256K tokens (dependiendo del modelo) significa que podés meter un documento entero, un código fuente completo, o la historia de una conversación larga sin que el modelo empiece a olvidarse de las primeras oraciones. Según DeepMind, el 31B Dense mantiene coherencia incluso a 256K.
Ahora bien, el feature que menos se habla pero que cambia el juego es el soporte nativo de function calling y agentes. Significa que el modelo sabe cuándo necesita llamar a una función externa (una query a base de datos, un API call, un ejecutable local) y te lo dice en formato JSON. No es que “crea” que lo sabe, es que fue entrenado específicamente para eso.
Benchmarks: número 3 en el ranking que importa
El 31B Dense de Gemma 4 llegó a la posición número 3 en Arena AI, que es el único benchmark que importa porque lo hacen humanos que evalúan calidad de respuesta real, no solo exactitud matemática. Los números específicos son: 92% en AIME (problemas matemáticos del concurso), 84.3% en GPQA (preguntas de ciencia verificadas por expertos), 80% en LiveCodeBench (coding tasks en vivo).
Ojo con esto: Arena es subjuntivo, no objetivo. Mide si un humano prefiere cómo responde Gemma 4 comparado con Claude, GPT-4o o Llama. Eso es mejor que un score absoluto porque refleja lo que importa en la práctica (legibilidad, estructura, confianza), pero no es lo mismo que decir “Gemma 4 es mejor en razonamiento” sin matices.
El 26B MoE llegó a posición 6. El 4B está en el rango de “muy bueno para su peso” pero no compite con los 31B. El 2B es más bien prototipo acelerado que modelo de producción.
Cómo ejecutar Gemma 4 localmente
Hay tres formas principales. La más simple es Ollama: bajás el binario, corrés ollama pull gemma4:31b y en 5 minutos estás chattando localmente. Ollama maneja la quantización (comprensión del modelo) automáticamente, así que sin configurar nada zafa.
Si querés GUI, está LM Studio, que te da una interfaz visual, chat history, y la posibilidad de setear parámetros (temperatura, contexto, etc.) sin editar archivos de config. Es más user-friendly que terminal pero igual requiere un mínimo de 20GB libres en SSD y una GPU con al menos 16GB de VRAM para los modelos grandes.
La tercera opción para el caso uso de dispositivos móviles es Google AI Edge Gallery, que te permite correr Gemma 4 directamente en Android 15+. El modelo quantizado pesa 2GB en el 4B, cabe en cualquier flagship de 2026. Los tiempos de generación en local son algo como 40 segundos la primera respuesta (mientras carga el modelo en VRAM), 20 segundos las subsecuentes.
Gemma 4 versus la competencia: verdades incómodas
Gemma 4 tiene ventajas reales. La privacidad local es innegociable si trabajás con datos sensibles (PII, código propietario, registros médicos). El contexto 256K te deja pasar documentos enteros sin worry. La multimodal nativa corre sin latencia de red. Y Apache 2.0 significa que podés venderlo, modificarlo, lo que sea. Relacionado: privacidad al alojar código en repositorios propios.
Pero donde Gemma 4 no llega (todavía) es en razonamiento complejo. Si tu caso de uso requiere lógica de múltiples pasos, cadenas de pensamiento intrincadas, o math pesada, Claude 3.5 Sonnet sigue siendo más confiable. GPT-4o es mejor en coding, punto. Llama 3.1 405B razona mejor en raw capability (pero pesa 8x más que el 31B). El 31B Dense le gana en Arena porque Arena mide “respuesta que un humano prefiere leer”, no “exactitud del output”.
Hay también algunos bugs iniciales. El modelo a veces “alucina” en visión (describe cosas en una imagen que no están), el soporte multilingüe de Gemma 4 es, digamos, “menos pulido” que en Llama, y no hay mucha documentación aún para casos de uso edge.
Casos de uso reales para equipos LatAm
Ponele que sos startup de ag-tech en Argentina: necesitás analizar fotos de cultivos offline porque no hay conectividad en el campo. Gemma 4 2B con visión nativa, corriendo en una tablet duranguera, resuelve el problema por USD 0 de costo recurrente. El modelo está descargado una vez.
O trabajás en soporte técnico para un ISP pequeño y necesitás un chatbot que no mande datos de clientes a un servidor en USA. Gemma 4 4B en tu infraestructura propia, on-prem, zeroing out el riesgo regulatorio. Exacto.
Agentes autónomos con function calling. Imaginá un script que necesita leer un CSV, hacer queries a la base de datos, escribir un reporte y enviar un email. Antes tenías que hardcodear la lógica. Con Gemma 4, le explicás qué hacer y el modelo decide qué función llamar y con qué parámetros. Se entrena en un día. Más contexto en herramientas y hardware para ejecutar IA localmente.
Contexto 256K abre puerta a análisis de documentos completos sin fragmentar. Tenés un contrato de 50 páginas, mandás todo de una y pedís resumen ejecutivo, riesgos legales y recomendaciones. Gemma 4 31B te lo hace.
Dónde descargar y licencia Apache 2.0
Los cuatro modelos están disponibles en Hugging Face, Kaggle, Ollama, y también directamente en Vertex AI de Google si usás cloud compute. No hay “versión premium” de Gemma 4: todos los modelos son idénticos en capacidad, la única diferencia es si los descargás de un lugar u otro.
Apache 2.0 es licencia permisiva. Eso significa: usás comercialmente sin pedir nada, modificás el código o los pesos, lo redistribuís (con cuidado de mantener el aviso de licencia). Lo que NO podés es patentarlo exclusivamente ni clamar que lo inventaste vos. Pero para todo lo demás, está libre.
Qué está confirmado / Qué no
- Confirmado: Gemma 4 tiene multimodal nativo (Google lo documentó oficialmente)
- Confirmado: El 31B Dense está en posición #3 de Arena AI desde marzo 2026
- Confirmado: Funciona offline sin dependencia de APIs externas
- Confirmado: Licencia Apache 2.0 es comercialmente libre (sin restricciones de uso)
- No confirmado: Si Gemma 4 va a superar a Claude en razonamiento (Arena mide preferencia humana, no exactitud pura)
- No confirmado: Performance en tareas de coding ultra-especializadas (falta benchmarking profundo comparado con GPT-4 code)
- Pendiente: Roadmap oficial para soporte multilingüe mejorado (rumores de mejoras en Q2 2026)
Errores comunes (y cómo no caer)
Error 1: Pensar que “local” significa “gratis en VRAM”
Gemma 4 31B requiere 20-24GB de VRAM. Si tenés una GTX 1080 con 8GB, no va. La cuantización baja el requisito (Ollama lo maneja), pero no mágicamente. Planificar infraestructura antes de descargar.
Error 2: Usar Gemma 4 para razonamiento complejo sin testear antes
Arena AI dice “top 3” pero eso no significa “igual a Claude” en math o lógica formal. Testear con tu dataset real antes de migrar un sistema en producción que hoy corre con Claude o GPT.
Error 3: Ignorar que visión nativa != visión perfecta
El modelo alucina en imágenes (dibuja cosas que no están). Si necesitás OCR precisión médica, no es tu herramienta. Si necesitás “aproximadamente qué hay en la foto”, zarpa. Lo explicamos a fondo en elegir la plataforma de desarrollo más adecuada.
Preguntas Frecuentes
¿Qué es Gemma 4 y cómo funciona?
Gemma 4 es un conjunto de cuatro modelos de lenguaje abiertos de Google (tamaños: 2B, 4B, 26B, 31B) que podés correr en tu máquina sin conectividad a internet. Funciona igual a ChatGPT pero localmente: procesa texto (y imágenes/audio en los modelos chicos), genera respuestas, y soporta function calling nativo para llamar a funciones externas.
¿Puedo usar Gemma 4 completamente sin conexión a internet?
Sí. Una vez descargado el modelo (20-35GB dependiendo de cuál), no necesita internet. Todo corre en tu máquina. Útil para datos sensibles, zonas sin conectividad, o simplemente independencia de APIs externas.
¿Cómo instalo Gemma 4 localmente en mi computadora?
Opción más simple: descargá Ollama, abrí terminal y escribí ollama pull gemma4:31b. En 5 minutos está descargado y podés empezar a usarlo con ollama run gemma4:31b. Si querés GUI, instalá LM Studio y descargá desde ahí. Ambos manejan automáticamente quantización y VRAM.
¿Gemma 4 puede reemplazar a Claude o ChatGPT?
Depende del caso de uso. En Arena AI ganó posición 3, pero eso mide preferencia humana en respuesta, no exactitud pura. Para razonamiento complejo, math, coding ultra-especializado, Claude es más confiable. Para privacidad local, multimodal nativo y libertad comercial, Gemma 4 no tiene rival. Mejor: probá ambos con tu dataset específico.
¿Qué requisitos de hardware necesita Gemma 4?
Mínimo: GPU con 8-10GB para el 4B, 20-24GB para el 31B. Sin GPU: CPU pura funciona pero es lento (30s por token). RAM: 32GB+ en la máquina. SSD: 30-40GB de espacio. Si tenés infraestructura cloud decente o una GPU gaming de 2023+, estás cubierto.
Conclusión
Gemma 4 no vino a cambiar el juego, vino a demostrar que el juego ya cambió. Hace un año, IA local significaba “rápido pero impreciso”. Hoy significa “privado, multimodal, con razonamiento top 3, completamente bajo tu control”. Google lo tiró con Apache 2.0, lo que elimina la fricción de licencias. Para startups, equipos LatAm con datos sensibles, o cualquiera que necesite privacidad + capacidad, es la opción más sensata en 2026. No reemplaza Claude o GPT en todo, pero en muchísimas cosas sí, y sin costo recurrente.
Si trabajás en infraestructura de la web, hosting, o sistemas propios, donweb.com ofrece VPS y servidores donde Gemma 4 zarpa con holgura para producción.






