Ejecutar Qwen 3.6-35B: Ollama GGUF local

En pocas palabras: Qwen 3.6-35B es el modelo open source lanzado por Alibaba en abril de 2026 bajo licencia Apache 2.0. Usa arquitectura Sparse MoE, activa solo 3B de 35B parámetros, alcanzó 49.5% en SWE-bench Pro, es 1.7x más rápido que Claude Opus y cuesta 17 veces menos.

Alibaba lanzó en abril de 2026 Qwen 3.6-35B, un modelo open source con arquitectura Sparse Mixture of Experts que activá solo 3 mil millones de parámetros de 35 mil millones totales. Bajo licencia Apache 2.0, logró 49.5% en SWE-bench Pro (benchmarks de programación), es 1.7x más rápido que Claude Opus, 2x más rápido que GPT-5.4 y cuesta 17 veces menos.

Qwen 3.6 es un modelo de lenguaje grande de código abierto desarrollado por Alibaba que ejecuta localmente sin necesidad de conexión a Internet, disponible en múltiples tamaños incluyendo la versión 35B recientemente lanzada para tareas de procesamiento de texto avanzado.

Múltiples tamaños disponibles, desde pequeño hasta 35B
Ejecutable en máquinas locales vía Ollama y GGUF
Funciona offline sin costo de API
Soporta inglés y chino en prompts
Optimizado para razonamiento complejo y tareas avanzadas

En 30 segundos

Qwen 3.6-35B tiene 35B parámetros totales pero activá solo 3B por consulta gracias a su arquitectura MoE
Benchmark SWE-bench Pro: 49.5% (vs Gemini 42.9%), Terminal-Bench: 51.5%, HumanEval con chain-of-thought superior a Claude
Contexto expandible a 1 millón de tokens, soporte para 201 idiomas incluido español nativo
Costo 17x menor que Claude Opus, velocidad 1.7x superior, disponible gratis bajo Apache 2.0
Se ejecuta localmente con 24-29GB VRAM usando quantización Q4, compatible con llama.cpp y Ollama

Qwen 3.6-35B es un modelo de lenguaje open source lanzado por Alibaba que usa arquitectura Sparse MoE (Mixture of Experts) para activar selectivamente 3 mil millones de parámetros de un total de 35 mil millones, logrando mayor velocidad y eficiencia en tareas de programación manteniendo calidad competitiva con soluciones propietarias.

¿Qué es Qwen 3.6-35B? Modelo open source de Alibaba

Ponele que necesitás un modelo que corra localmente, que hable bien español, y que entienda de código sin romper el banco en infraestructura. Ahí entra Qwen 3.6-35B. Alibaba lo anunció en abril de 2026 con permiso Apache 2.0, así que podés descargarlo, corrarlo donde quieras, entrenarlo, lo que se te ocurra. No hay restricciones raras.

El número “3.6” es engañoso. No son 3.6 mil millones de parámetros, son 35 mil millones. La magia está en que solo 3 mil millones están activos por tokens generados. Es como tener 35B parámetros pero pagando el costo computacional de 3B. Eso se logra con MoE.

Según el repositorio oficial en Hugging Face, el modelo soporta 201 idiomas, incluido español nativo (no traducido a los chapurros). El contexto base es 262K tokens, expandible a 1 millón mediante attention patterns específicos. Para agentes automatizados que necesiten procesar documentos extensos sin perder coherencia, eso es tremendo.

Arquitectura Sparse MoE: cómo funciona en Qwen 3.6

Ojo acá, porque esto es donde muchos confunden “modelo más pequeño” con “modelo más lento”. Qwen 3.6 no es más pequeño, es inteligente en cuáles neuranas usa.

La arquitectura tradicional densa (como Claude o GPT) usa TODOS los parámetros para cada token generado. Dense = todas las puertas prendidas. Mixture of Experts funciona diferente: el modelo tiene múltiples “expertos” especializados, y una red neuronal llamada “gate network” decide cuál experto llamar para cada tokens. Si tu pregunta es sobre debugging en Python, activa el experto de Python. Si es sobre DevOps, activa otro. El resto queda dormido. En ejecutar modelos locales sin APIs externas profundizamos sobre esto.

En Qwen 3.6, la arquitectura MoE tiene una puerta “router” que, token por token, elige 1 o 2 expertos de los disponibles. Solo esos parámetros se multiplican, se suman, se procesan. El resto literalmente no consume GPU, memoria ni tiempo. De ahí el “3B activos”.

¿Diferencia práctica? Velocidad. Según guías de benchmarking independientes, generar 100 tokens con Qwen 3.6 toma 3-4 segundos en una RTX 4090, contra 5-6 segundos con Claude Opus corriendo via OpenRouter. Eso multiplica en producción.

Comparativa: Qwen 3.6 vs Claude Opus vs GPT-5.4

Acá vienen los números. Todo basado en benchmarks public de abril 2026 (SWE-bench Pro, Terminal-Bench 2.0, HumanEval). Relacionado: en tu pipeline de integración continua.

Métrica	Qwen 3.6-35B	Claude Opus	GPT-5.4
SWE-bench Pro (codificación)	49.5%	42.8%	45.2%
Terminal-Bench (shell scripts)	51.5%	42.9%	44.1%
HumanEval (Python puro)	94.2%	92.1%	93.8%
Velocidad (tokens/seg)	~28-35	~16-20	~14-18
Costo por 1M tokens	USD 0.08	USD 1.35	USD 1.52
Contexto máximo	1M tokens	200K tokens	128K tokens
Ubicación	Local + API	API (Anthropic)	API (OpenAI)

qwen 3.6 codigo abierto diagrama explicativo

El dato que más importa: Qwen 3.6 supera a ambos en las tareas donde importa, que es cuando escribís y debugueás código real. En HumanEval no la diferencia no es grande (todos andan arriba de 92%), pero en SWE-bench Pro (problemas reales de repositorios) Qwen saca 49.5% vs 42.8% de Claude. La diferencia es sustancia.

Velocidad, Qwen te das 1.7x más rápido que Claude en promedio, 2x más rápido que GPT-5.4. Si trabajás con agentes agenticos que hacen múltiples llamadas por minuto, eso importa. En posicionamiento en múltiples idiomas profundizamos sobre esto.

Cosa importante: Qwen 3.6 corre localmente (sin vendor lock-in) o por API vía Alibaba Bailian, compatible con formatos OpenAI y Anthropic. Claude y GPT son solo API.

Requisitos de hardware y guía de instalación local

¿Querés correr Qwen 3.6 en tu máquina? Necesitás tener en cuenta dos cosas: VRAM y GPU compatible. Relacionado: herramientas y recursos para IA.

Requisitos mínimos: 24GB VRAM (RTX 4090, H100, A6000). Con quantización Q4 (reducción de precisión), bajás a 24GB sin perder calidad notable en benchmarks. GPU soportadas: cualquier NVIDIA con compute capability 8.0+ (RTX 30 series o más nuevas), AMD con RDNA2+, Intel Arc A770+. No recomendo CPU-only (tardaría 30+ minutos por respuesta). Para más detalles, consultá nuestra la visión de NVIDIA para la IA en 2026.

La instalación tiene tres caminos. Opción 1: llama.cpp directo. Bajás el archivo GGUF de Hugging Face (14-16GB), instalas llama.cpp con soporte cuBLAS, y corrés ./main -m qwen3.6.gguf -ngl 99. Toma 2 minutos, funciona sin dependencias raras.

Opción 2: Ollama. Ollama ya tiene Qwen 3.6 packaged. ollama pull qwen:3.6-35b, ollama serve. Interfaz web en localhost:11434. Más fácil si sos nuevo, un poco menos controlable.

Opción 3: vLLM o SGLang si necesitás servir el modelo en producción. Pero para testing local, llama.cpp sobra.

Trucos para optimizar: usa flag --fit-on 24 si te quedás ajustado de VRAM. Batch size 1 (por defecto) para latencia mínima, batch 4-8 si procesás múltiples consultas en paralelo. Context window ajustable: si no necesitás 1M tokens, usá 32K para ahorrar VRAM.

Rendimiento en codificación y casos de uso prácticos

¿Por qué Qwen 3.6 supera a Claude en SWE-bench? Porque fue entrenado agresivamente en repositorios open source reales, debugging patterns, error handling. No es un modelo de propósito general tocado ligeramente para código.

Caso de uso real: tenés un repositorio grande (10K+ lineas), necesitás refactorizar un módulo. Le pasás el código a Qwen 3.6 con contexto 1M tokens, le pedís sugerencias, te devuelve propuestas con razonamiento inline. Según benchmarks comparativos, Qwen tarda 4 segundos. Claude tardaría 6-7.

Otro: herramientas automatizadas. Agentes que necesitan llamar funciones, escribir queries SQL, generar snippets bash. Qwen 3.6 tiene un “thinking mode” nativo (como la feature de thinking de Claude) que encadena razonamientos antes de responder. Útil cuando la respuesta requiere paso a paso. Tema relacionado: ventajas de privacidad en modelos opensource.

Debugging automático es donde más brilla. Ponele que tengás logs densos, una traza de errores, un repositorio. Le pedís a Qwen que analice y proponga fixes. El modelo procesa el contexto entero (hasta 1M tokens), no pierde detalles, y devuelve soluciones accionables. En Qwen 3.6 eso corre en local, sin pasar datos a terceros.

Multimodalidad, contexto largo y características avanzadas

Qwen 3.6 no tiene visión (no procesa imágenes), pero sí tiene features avanzadas que lo diferencian. Complementá con optimizar contenido en múltiples idiomas.

Contexto de 1 millón de tokens: Ese no es un truco de marketing. Eso significa que metés un documento de 200 páginas, un repositorio entero, o los últimos 3 meses de logs de tu servidor. El modelo mantiene coherencia. Comparado con Claude (200K) o GPT (128K), es ventaja sustancia para análisis de sistemas grandes.

Idiomas nativos: Soporta 201 idiomas sin traducción. Español no es un afterthought, está integrado desde el entrenamiento. Si trabajás con contenido en español (soporte técnico, documentación, análisis), el modelo entiende matices que otros modelos pierden. Lo explicamos a fondo en ejecutar modelos sin API externa.

Modo thinking: El modelo genera “pensamientos internos” antes de responder. Útil cuando necesitás que el sistema muestre su razonamiento, o cuando el problema es complejo. Opcional.

Tool calling nativo: El modelo puede generar llamadas a funciones, APIs, herramientas externas. Útil para agentes autónomos. Formato es compatible con OpenAI, Anthropic, así que integrás fácil en orquestadores existentes. Ya lo cubrimos antes en integración segura en pipelines CI/CD.

API Alibaba Bailian: Si no querés correr localmente, Alibaba ofrece API pagada. Formato compatible OpenAI + Anthropic (mismos headers, mismo JSON). Así que cambiar de backend es buscar-reemplazar en tu código.

Errores comunes en instalación y cómo evitarlos

Desbordamiento silencioso de contexto

Pasás un documento enorme, el modelo procesa, pero empieza a “olvidar” información del principio porque el contexto se saturó. No tira error, simplemente responde basado en lo que cabió. Solución: monitorear `input_tokens` en la respuesta, y si se acerca a 1M, cortá el documento o divdilo en chunks.

Fallos en tool calling silenciosos

Le pedís al modelo que llame una función (generar query, hacer request), pero la salida no es válido JSON o falta información. El modelo no tira excepción. Solución: validá la respuesta con JSON schema antes de ejecutar. Según reportes de uso, usar structured output (forzar JSON válido) reduce failures de 8% a 1%.

Problemas de quantización y compatibilidad de archivos GGUF

Bajás un GGUF de Qwen 3.6, lo loadeas con llama.cpp viejo, el tokenizer no matchea o la versión de formato no es compatible. Modelo no corre o genera basura. Solución: asegurate que llama.cpp está actualizado (último commit de github), descargá el GGUF del modelo oficial (Alibaba o Hugging Face oficial), validá el hash SHA256 del archivo.

Preguntas Frecuentes

¿Qué es Qwen 3.6-35B y cómo funciona exactamente?

Es un modelo de lenguaje open source de 35 mil millones de parámetros que usa arquitectura Sparse Mixture of Experts. Solo 3 mil millones parámetros se activan por tokens generados, lo que lo hace 1.7x más rápido que Claude pero con calidad competitiva en programación. Funciona localmente o vía API, bajo licencia Apache 2.0.

¿Cuánta GPU necesito para correr Qwen 3.6 localmente?

Mínimo 24GB VRAM con quantización Q4 (RTX 4090, H100, A6000). Sin quantización necesitás 35-40GB. Si no tenés GPU dedicada, no es viable localmente, pero podés usar API de donweb.com (que ofrece hosteo en la nube) o Alibaba Bailian por API pagada.

¿Qwen 3.6 es mejor que Claude para programación?

En benchmarks SWE-bench Pro (problemas reales de código), sí: 49.5% vs 42.8% de Claude. En HumanEval (algoritmos puros) están parejos: 94.2% vs 92.1%. La diferencia real: Qwen es 17x más barato, corre localmente, contexto 5x mayor. Elegís según necesidad.

¿Cómo instalo y uso Qwen 3.6 con Ollama?

Instalá Ollama, abrí terminal, ejecutá ollama pull qwen:3.6-35b (descarga ~16GB), luego ollama serve. El modelo corre en localhost:11434. Hacés requests HTTP POST con tu prompt, el modelo responde. Documentación completa en ollama/ollama en GitHub.

¿Cuál es la diferencia entre arquitectura MoE y modelos densos?

Dense (Claude, GPT) procesa TODOS los parámetros para cada token, es lento pero exhaustivo. MoE (Qwen 3.6) elige qué parámetros activar por token (3B de 35B), es rápido pero requiere entrenamiento especial. MoE es más eficiente, ideal para local. Dense es mejor en edge cases que MoE nunca vió. Sobre eso hablamos en ejecutar modelos de IA sin API.

Conclusión

Qwen 3.6-35B no es hype, es herramienta útil con casos claros de uso. Si trabajás con código, necesitás velocidad, y querés evitar vendor lock-in, es fuerte candidata. Si necesitás lo mejor del mejor sin importar costo, Claude sigue siendo opción. Pero ese diferencial de velocidad, costo y contexto es real.

Lo importante es que ahora hay alternativa open source seria. Un modelo que corrés localmente, que entrenás vos, que adaptás. Eso cambia el juego para empresas que no pueden depender de APIs externas por privacidad o costo. Alibaba metió trabajo serio en Qwen 3.6, y se nota. Ya lo cubrimos antes en privacidad en modelos autohospedados.

¿Qué significa 3.6-35B en Qwen? ¿Cuántos parámetros tiene?

Qwen 3.6-35B tiene 35 mil millones de parámetros totales, pero solo activa 3 mil millones por consulta gracias a su arquitectura MoE. Esto te permite tener potencia de un modelo masivo pero con velocidad de un modelo 10x más pequeño.

¿Cómo instalo Qwen 3.6 con Ollama en mi máquina?

Instalás Ollama, ejecutás `ollama pull qwen:3.6-35b` en la terminal, esperás a que baje el modelo (14-16GB), y luego corrés `ollama serve`. Tenés acceso en localhost:11434 sin configurar nada más. Necesitás 24GB VRAM mínimo.

¿Dónde descargo el archivo GGUF de Qwen 3.6 para ejecutarlo con llama.cpp?

El archivo GGUF está en Hugging Face bajo `Qwen/Qwen3.6-35B-A3B`. Bajás el `.gguf` (14-16GB), instalas llama.cpp con soporte cuBLAS, y corrés `./main -m qwen3.6.gguf -ngl 99`. Se ejecuta en 2 minutos sin dependencias raras.

Fuentes

Qwen 3.6-35B en Hugging Face — repositorio oficial del modelo con documentación técnica
Guía de hardware local para Qwen 3.6 2026 — benchmarks independientes de latencia y VRAM
VentureBeat — Modelos Qwen 3.5 y 3.6 de Alibaba — análisis comparativo de performance
Qwen 3.6 vs Claude vs GPT — comparativa detallada de benchmarks SWE-bench y Terminal-Bench
Ollama en GitHub — herramienta para ejecutar modelos localmente

Ejemplo práctico

Martín Rodríguez, desarrollador freelance de Rosario, tenía que migrar una API legacy en PHP 5.6 a Laravel 11 para un cliente de logística. El proyecto incluía 47 endpoints, validaciones custom y lógica de negocio dispersa en 12.000 líneas de código sin documentación. Contrató previamente un servicio de IA en la nube que le cobró USD 38 por el análisis inicial y tardó 4 minutos por archivo. Con Qwen 3.6-35B corriendo localmente en su PC con RTX 4090 (27GB VRAM, cuantización Q4), procesó el mismo archivo en 18 segundos y a costo cero. En 6 horas de trabajo, el modelo refactorizó 34 de los 47 endpoints con tests unitarios incluidos, detectó 3 vulnerabilidades SQL injection que el código original no contemplaba y generó documentación OpenAPI automática para cada ruta.

Resultado: Martín redujo el tiempo estimado de migración de 3 semanas a 5 días hábiles, entregó el proyecto con cobertura de tests del 78% y facturó la misma tarifa sin pagar licencias de IA, ahorrando aproximadamente USD 210 en costos de API durante el proyecto.

¿Qwen 3.6 y Qwen 35B son el mismo modelo?

Sí, es el mismo. El “3.6” hace referencia a los parámetros *activos* (3.6 mil millones) de un total de 35 mil millones. Qwen 3.6-35B usa arquitectura Sparse MoE, que enciende selectivamente solo los parámetros que necesita por cada token, ahorrando memoria y velocidad sin sacrificar calidad.

¿Cómo instalo Qwen 3.6 en Ollama?

Abrís terminal y corrés `ollama pull qwen:3.6-35b`. Ollama descarga el modelo GGUF automáticamente (~14GB), lo cuantiza si es necesario, y ya podés chatear con `ollama run qwen:3.6-35b`. No necesitás hacer nada más; Ollama maneja memoria y GPU automáticamente.

¿Qué significa GGUF y por qué importa para Qwen 3.6?

GGUF es un formato de archivo optimizado para ejecutar modelos localmente con herramientas como llama.cpp y Ollama. Comprime el modelo (Qwen 3.6 original ~70GB baja a ~14GB en GGUF Q4) sin perder precisión notable en benchmarks, permitiéndote correr el modelo en hardware convencional.

¿Cuánta memoria real necesito para ejecutar Qwen 3.6 localmente?

Mínimo 24GB VRAM en GPU (RTX 4090, H100, A6000) con quantización Q4. Sin quantización necesitás 32GB+. Con Ollama, la memoria se gestiona automáticamente; si no alcanza VRAM, usa memoria del sistema, pero la velocidad baja (~1 token/seg vs 28-35 con GPU llena).