|

PokeClaw: Android controlado por IA Gemma 4

PokeClaw es una aplicación open-source lanzada el 2 de abril de 2026 que demuestra cómo Gemma 4, el nuevo modelo de IA de Google, puede controlar automáticamente un dispositivo Android completamente en el dispositivo, sin conectarse a la nube. El prototipo, disponible en GitHub (agents-io/PokeClaw), muestra capacidades de agencia autónoma: leer mensajes, navegar apps, tomar decisiones y ejecutar acciones sin enviar datos a servidores externos.

En 30 segundos

  • PokeClaw es un prototipo de 2 días que usa Gemma 4 para control autónomo de Android, publicado 48 horas después del anuncio de Gemma 4
  • Funciona completamente offline: toda la IA corre en el teléfono, nada sale de tu dispositivo
  • No requiere APIs, no cuesta nada mensual, sin límites de requests como las soluciones cloud
  • Soporta Gemma 4 variantes E2B (2 Billion) y E4B (4 Billion), ambas corren en CPU de smartphones
  • El código está en GitHub (agents-io/PokeClaw) y es modificable para tus propios casos de uso

PokeClaw es una aplicación de código abierto desarrollada por agents-io que implementa control autónomo de dispositivos Android usando Gemma 4, el modelo de lenguaje compacto de Google. A diferencia de soluciones que requieren enviar datos a APIs de terceros (OpenAI, Anthropic, Gemini), PokeClaw ejecuta todo localmente en el teléfono, sin conexión a internet.

Qué es PokeClaw: primera app con Gemma 4

Ponele que lanzás Gemma 4 el 30 de marzo de 2026, el nuevo modelo de IA de Google compacto para dispositivos. Dos días después, el 2 de abril, un equipo publica PokeClaw en GitHub: una app que dice “bueno, ¿y si le permitimos a Gemma 4 que controle el teléfono completamente solo?” (spoiler: funcionó).

No es una app pulida en Google Play. Es un prototipo open-source hecho en dos días para demostrar qué podés hacer si integrás un LLM local con la API de accesibilidad de Android. El código está en agents-io/PokeClaw, es pequeño (algunos cientos de líneas en su núcleo), y la idea es que otros lo adapten, lo mejoren, lo reutilicen.

¿Cuál es el punto? Que cuando los modelos de IA son lo suficientemente compactos (2-4 billion parámetros) y están optimizados para edge computing, no necesitás mandar cada decisión a Google, OpenAI o Anthropic. El teléfono se convierte en la máquina pensante. Gemma 4 lo hizo posible, según el anuncio oficial de Google.

Cómo funciona el control autónomo de dispositivos

La arquitectura es simple: teléfono → LLM → teléfono. Todo adentro.

Gemma 4 soporta nativamente “tool calling” en su versión LiteRT-LM (la versión optimizada para dispositivos). Esto significa que el modelo puede “decir” qué acción quiere que hagas: abrí la app de mensajes, leé el mensaje del contacto Juan, escribí una respuesta, enviá. Cada una de esas acciones es una función que PokeClaw implementa en Android usando la Accessibility API.

El flujo típico: la app captura el estado del teléfono (qué está en pantalla, qué notificaciones llegaron), lo pasa a Gemma 4, el modelo analiza el contexto y decide qué hacer, devuelve una lista de acciones, PokeClaw las ejecuta usando las APIs de Android, y el ciclo se repite. Sin que nunca salga información personal del dispositivo.

Eso sí, el modelo corre en el CPU del teléfono, así que la latencia no es cero. Una secuencia de 10 acciones podría tardarse varios segundos. Si querés speedup, podés correr el modelo en GPU si el teléfono la tiene, pero la mayoría no la tiene, y sinceramente, CPU alcanza para los casos de uso iniciales.

Ventajas de ejecutar IA completamente offline en el dispositivo

Acá es donde la cosa tiene valor real, más allá de ser un demo tecnológico.

Privacy: todos tus mensajes, contactos, el contenido de tus apps, todo queda en el teléfono. No hay telemetría, no hay logs en los servidores de nadie. Vos controlas qué ve el modelo y qué no. En ejecutar agentes de IA sin APIs externas profundizamos sobre esto.

Sin costos de API: ¿querés usar Claude o GPT para control de dispositivo? USD 0.001 por request. Hacé 1000 requests por día (lo que es razonable para un asistente), son USD 30/mes fácilmente. Con Gemma 4 local: cero. La primera ejecución del modelo tarda unos 90 segundos, pero después el modelo está en memoria y cada request es cuestión de segundos.

Funciona sin internet: si no tenés señal, el asistente sigue funcionando. Eso puede ser útil en algunos contextos (emergencias rurales, roaming internacional caro, simplemente red lenta).

Latencia baja comparada a cloud: no hay round trip a servidores lejanos. El LLM está en el CPU de tu teléfono, la respuesta es local.

¿El trade-off? Los modelos locales (E2B, E4B) son menos capaces que GPT-4o o Claude 3.5 Sonnet. Funcionan para tareas simples (auto-reply inteligente, navegación básica). Para cosas más complejas, el modelo local probablemente falle más que uno cloud.

Requisitos técnicos y modelos disponibles

Gemma 4 se distribuye en dos tamaños principales: E2B (2 Billion parámetros) y E4B (4 Billion). Ambas versiones son compactas, según la documentación técnica de Google.

El modelo que PokeClaw usa es el de 2.3B (Gemma 4 2B con algunas optimizaciones). Descargalo desde Google AI Edge Gallery, son unos 1.5-2.5 GB dependiendo de la cuantización (FP32, INT8, etc.).

¿Necesito GPU? No obligatoriamente. CPU alcanza. Un Snapdragon 8 Gen 3 (flagship Android actual) corre Gemma 4 2B en CPU a velocidad aceptable. Pero si tu teléfono tiene GPU (Adreno en Samsung/Snapdragon, Mali en Exynos), LiteRT lo detecta automáticamente y lo usa.

Android compatible: Gemma 4 en LiteRT corre en Android 9+. Así que prácticamente cualquier teléfono decente de los últimos 5 años zafa.

SoluciónModeloRequisitoCosto mensualControl offline
PokeClaw + Gemma 4 E2BGemma 4 2BCPU Android$0
PokeClaw + Gemma 4 E4BGemma 4 4BCPU/GPU Android$0
Droidrun (local)Ollama/Llama 2Computadora + Android$0Sí, si corre localmente
Droidrun (cloud)OpenAI/AnthropicInternet$20-50/mesNo
AutoDroidAcadémicoComputadora$0No (requiere API)
gemma 4 android control automático diagrama explicativo

Casos de uso reales que PokeClaw demuestra

El prototipo viene con ejemplos de lo que puede hacer:

Auto-reply inteligente: configurás que ciertos contactos (tu jefe, tu mamá) tengan respuestas automáticas. PokeClaw lee el mensaje, entiende el contexto (¿es una pregunta? ¿es urgente?), y genera una respuesta coherente. No es un auto-reply estúpido que repite “Estoy en una reunión”. El modelo entiende la conversación. Sobre eso hablamos en privacidad y seguridad en soluciones locales.

Monitoreo de contactos clave: podés decirle al modelo “si [contacto A] manda un mensaje, avisame” o “si el precio de [producto] en [app] cambia, avisame”. El modelo monitorea en background y te alerta solo cuando hay algo relevante.

Navegación multi-paso en apps: más complejo que auto-reply. Ejemplo: “si tengo una reunión mañana en el calendario a las 3pm, agregá 15 minutos de buffer antes y después”. PokeClaw abre Calendar, lee los eventos, verifica la reunión de mañana, abre cada evento antes/después, los ajusta. El modelo toma decisiones basadas en lo que ve en pantalla.

El punto es que todo sucede en el teléfono, sin datos sensibles saliendo hacia internet. El modelo sabe que es miércoles, que tenés una reunión a las 3pm, tu lista de contactos, pero nadie más.

Cómo se compara con otras soluciones

Acá es importante ser honesto: no es que PokeClaw sea “mejor” que todo lo demás, depende de qué necesitás.

Droidrun fue la primera (o una de las primeras) soluciones de control de Android con LLMs. Puede usar OpenAI, Anthropic, Gemini, u Ollama local, según su repositorio en GitHub. ¿El problema? Si usás OpenAI/Anthropic, tus datos viajan a internet. Si usás Ollama local, tenés que correr Ollama en una computadora conectada a la red y hablar con ella vía API (no es totalmente offline). PokeClaw es “nativo” al dispositivo.

AutoDroid: solución académica. Funciona bien en ciertos benchmarks, pero requiere APIs externas. No está optimizada para ser deployada en teléfonos reales de usuarios.

PokeClaw: diseñado específicamente para Gemma 4, verdaderamente offline-first, código pequeño y modificable. Es la opción ideal si la privacidad es prioridad uno.

Limitaciones y desafíos actuales

Mirá, no te vendo espejitos. PokeClaw es un prototipo de 2 días. Funciona como proof-of-concept, pero tiene limitaciones reales.

Memoria limitada en algunos teléfonos: si tu teléfono tiene poco RAM (menos de 6GB), Gemma 4 4B puede presionar los recursos. En teléfonos viejos, probablemente necesites la variante 2B. Lo explicamos a fondo en herramientas modernas de inteligencia artificial.

Precisión inferior a modelos cloud: cuando le pedís al modelo algo ambiguo o complejo, el Gemma 4 2B falla más que Claude o GPT-4. Por ejemplo: “respondé con humor pero sin ofender” — es más difícil para un modelo local mantener ese balance.

Tiempo de inferencia lento: si hacés muchas requests en secuencia, se acumula. Cada request tarda 2-5 segundos. Si querés hacer 50 acciones rápidamente, eso son minutos de procesamiento. El cloud es más rápido acá.

Soporte limitado a modelos: por ahora funciona bien con Gemma 4. Si querés usar otros modelos, tenés que adaptar el código.

¿Qué va a cambiar? Gemma 5 (que saldrá probablemente a fin de 2026) va a ser aún más compacta y precisa. LiteRT sigue optimizándose para inferencia en edge. En 12 meses, las limitaciones actuales van a ser irrelevantes.

Errores comunes

Asumir que funciona como ChatGPT: No. Gemma 4 es más pequeño y tiene menos conocimiento general. No te puede explicar física cuántica ni escribir poesía épica. Está optimizado para tareas concretas: navegar, leer, tomar decisiones simples. Las expectativas tienen que ser realistas.

Pensar que es completamente privado si la app no es de confianza: Aunque Gemma 4 corre localmente, si la app que lo usa es maliciosa, puede registrar todo de todas formas. Auditar el código de PokeClaw (está en GitHub) es importante antes de usar.

No tener en cuenta la latencia: Comparás con soluciones cloud y esperas respuestas instantáneas. En el teléfono, el modelo necesita tiempo para inferencia. Es importante ajustar expectativas sobre velocidad. No es para usuarios que necesitan respuestas en milisegundos.

Intentar usar esto en producción sin pruebas: Es un prototipo. Deployar directamente a usuarios sin testing es pedir problemas. Usalo en desarrollo, validá, después escalá. La verdad es que todavía no hay suficientes datasets públicos de uso real. Cubrimos ese tema en detalle en plataformas de desarrollo actuales.

Suponer que el modelo entiende contexto ilimitado: Gemma 4 E2B tiene una ventana de contexto limitada (8K tokens típicamente). Si pasás 50 mensajes de golpe para que analice, probablemente se “olvide” de los primeros.

Si te interesa profundizar, podés leer [PokeClaw] First working app that uses Gemma 4 to autonomous donde cubrimos el tema en detalle.

Preguntas Frecuentes

¿Qué es PokeClaw y cómo funciona?

PokeClaw es una aplicación abierta que usa Gemma 4 para controlar automáticamente un dispositivo Android. Captura lo que ves en pantalla, lo pasa al modelo de IA local (que corre en el teléfono), el modelo decide qué acción tomar (abrir app, leer mensaje, etc.), y PokeClaw la ejecuta. Todo sucede en el dispositivo, sin internet.

¿Necesito datos móviles para usar PokeClaw?

No. Una vez que descargás Gemma 4 (2-3 GB), PokeClaw funciona completamente offline. Ni siquiera necesitás WiFi para que funcione después de la instalación inicial.

¿Cuánto cuesta usar PokeClaw?

Cero. Es código abierto en GitHub. Gemma 4 es libre (lo ofrece Google). El único “costo” es espacio en disco (2-3 GB) y poder de procesamiento del teléfono.

¿Cómo se compara con contratar a través de OpenRouter o usar Anthropic?

OpenRouter/Claude cuesta dinero (típicamente USD 0.001-0.01 por request). Si hacés 1000 requests diarios, son USD 10-30/mes. PokeClaw no cuesta nada después del setup inicial. El trade-off es que Gemma 4 es menos preciso que Claude para tareas complejas.

¿Dónde descargo PokeClaw y empiezo a usarlo?

El código está en GitHub (agents-io/PokeClaw). Descargá el repositorio, instalá las dependencias (Python + dependencias Android), descargá el modelo Gemma 4 de Google AI Edge Gallery, y ejecutá. La documentación está en el README.

Conclusión

Lo que vio el mercado el 2 de abril de 2026 fue un prototipo de 2 días que demuestra algo que muchos pensaban que estaba 5 años en el futuro: agencia autónoma de IA totalmente local, sin APIs, sin datos saliendo del dispositivo.

Eso cambia cosas. No de hoy para mañana (PokeClaw es un prototipo, no está en producción), pero el principio ya está probado. Cuando Gemma 5 salga con mejor precisión, cuando los teléfonos tengan un poco más de VRAM, cuando la comunidad hardened el código y lo ponga en Google Play de forma segura, esto va a ser standard en cualquier smartphone.

¿Qué hacer ahora? Si te interesa este tipo de cosas (privacidad, offline-first, hardware edge), clonate el repo de PokeClaw, experimentá localmente, entiende cómo funciona, y si encontrás mejoras, contribuye. El futuro es código abierto y máquinas que piensan donde los datos viven.

¿Es PokeClaw más barato que usar Claude o GPT para control de Android?

Mucho más barato. Claude o GPT cuestan USD 0.001+ por request. Si hacés 1000 requests diarios, son USD 30/mes. Con PokeClaw y Gemma 4 local es gratis, el modelo corre en tu teléfono sin pagar nada.

¿Cuáles son los requisitos mínimos de RAM para correr Gemma 4 en un Android?

Con 6GB de RAM zafás con Gemma 4 2B sin problemas. Si tenés menos, vas a sentir presión en los recursos. Gemma 4 4B necesita más RAM, es mejor para teléfonos flagship con GPU Adreno o Mali.

¿PokeClaw funciona completamente sin internet después de descargar el modelo?

Sí, una vez descargado el modelo Gemma 4 (1.5-2.5 GB), PokeClaw funciona 100% offline. Nada se envía a servidores externos, todo corre en tu teléfono, garantizando privacidad total.

Fuentes

Similar Posts