Webclaw: 43k vistas, nuevos SDKs y API beta
Webclaw llegó a los 43.000 views en un mes, lanzó SDKs en TypeScript, Python y Go, y acaba de abrir su API en beta privada. La herramienta de extracción web optimizada para agentes IA sigue ganando tracción entre desarrolladores que necesitan scrapear sin romper prompts con HTML irrelevante.
En 30 segundos
- Webclaw es una herramienta de extracción web local-first, escrita en Rust, que reduce tokens en un 67% comparado con HTML crudo
- Acaba de lanzar SDKs oficiales para TypeScript (
npm @webclaw/sdk), Python (pip install webclaw) y Go - Su API en beta ofrece free tier de 500 páginas/mes y casos premium para sitios con JavaScript o autenticación
- Se integra como MCP server en Claude Desktop, Claude Code y otros clientes compatibles
- Incluye 10 herramientas integradas: scrape, crawl, extract, summarize, diff, map, batch, brand, search, research
Qué es Webclaw: extracción web optimizada para agentes IA
Webclaw es una herramienta de extracción web optimizada para reducir el consumo de tokens en modelos de lenguaje. En lugar de devolver el HTML completo, extrae y limpia contenido, elimina ruido, estructura los datos de forma semántica y devuelve solamente lo relevante. Funciona sin navegador headless (ponele que probás una herramienta que requiere Puppeteer, se te queda colgada 5 segundos esperando a que se levante el navegador), sin overhead de renderizado, puro Rust y velocidad.
Según el repositorio oficial, la herramienta reduce el output en un 67% comparado con scrapear HTML crudo. Para un agente IA que paga por tokens, eso es la diferencia entre extraer 100 páginas sin quebrarte el presupuesto o tener que elegir entre hacerlo y comer.
El proyecto llegó a 43.000 views en GitHub en un mes (spoiler: eso es bastante para una herramienta de nicho). La comunidad de desarrolladores que usan Claude, Cursor y otros clientes MCP la adoptó rápido porque resuelve un problema concreto: necesitás scrapear, pero no querés que tu agente pierda toda la memoria procesando etiquetas div anidadas.
Los nuevos SDKs: TypeScript, Python y Go
Hasta hace poco, Webclaw vivía principalmente en el CLI. Descargás el ejecutable, corrés comandos desde la terminal, listo. Pero si vos estás metido en un proyecto de Node, tenés un microservicio en Python, o construís herramientas en Go, no querés abrir una shell cada vez que necesitás extraer contenido.
Hace poco soltaron tres SDKs oficiales:
- TypeScript/JavaScript:
npm install @webclaw/sdk. Instalás el package, importás, y tenés acceso a toda la API local-first desde tu código Node. - Python:
pip install webclaw. Para los que trabajan con scripts, agentes, o pipelines de datos en Python. - Go:
go get github.com/0xMassi/webclaw-go. Si estás en Go, el SDK te deja usar Webclaw como una librería nativa.
La razón por la que multilanguage importa es porque los desarrolladores vienen de diferentes contextos. Un equipo de frontend en React no va a querer configurar un servidor Rust separado. Un ingeniero de datos en Python necesita algo que se integre en su stack sin fricción. Go es donde viven los microservicios modernos. Entonces, al lanzar SDKs en tres lenguajes a la vez, Webclaw se posicionó para ser utilizable en casi cualquier proyecto que tenga lógica de extracción. Esto se conecta con lo que analizamos en ejecutar agentes sin API.
La API en beta: cuándo conviene la nube
Local está bien, pero hay casos donde conviene tercerizar. Sitios con renderizado JavaScript pesado, autenticación compleja, o IP bans agresivos. Para eso, Webclaw abrió su API en beta privada.
El free tier ofrece 500 páginas/mes. Es suficiente para experimentar, para un bot de moderación, o para un agente que scrape ocasionalmente. Si necesitás más, entran en planes pagos (la empresa aún no publicó precios definitivos en beta, así que tomalo con pinzas).
La API maneja casos que el CLI local no resuelve de forma limpia: JavaScript execution (si el sitio carga contenido con JS después de que se renderiza), cookies y sesiones, rotation de IPs si el sitio bloquea requests repetidos. Desde un agente IA, vos hacés una llamada a la API, esperás el JSON, y seguís. Sin necesidad de mantener navegadores abiertos en tu servidor.
El sitio oficial dice que la beta está abierta a lista de espera. Si sos developer activo, probablemente te acepten rápido.
Integración con agentes IA: MCP server
Lo que hizo que Webclaw despegara no fue solo la herramienta. Fue que la empaquetaron como un MCP server. Ya lo cubrimos antes en convertir herramientas en APIs JavaScript.
MCP = Model Context Protocol. Básicamente, Claude (o cualquier LLM que soporte MCP) puede llamar a Webclaw como si fuera una herramienta integrada, sin que vos tengas que hacer nada especial. Instalás el servidor, lo conectás en Claude Desktop o Claude Code, y listo.
Acá viene lo interesante: cuando vos tenés un agente IA trabajando en un problema que requiere buscar información en la web, descargás el CLI local, probás que funciona, lo integras como MCP, el agente corre un prompt pidiendo “extraé información sobre X”, Webclaw se levanta, scrape, devuelve JSON limpio con solo lo relevante, el agente procesa y actúa. Todo sin que el agente vea una sola línea de HTML.
LobeHub lista a Webclaw como MCP compatible, lo que significa que si usás cualquier cliente que reconozca el protocolo (Cursor, Claude Code, herramientas de IA integradas), podés activarlo sin instalación manual complicada.
Las 10 herramientas integradas
Webclaw no es un simple scraper. Es un conjunto de 10 tools que se pueden encadenar:
- Scrape: extrae contenido limpio de una página, formateado y sin HTML garbage
- Crawl: recorre un sitio entero, respetando robots.txt, y ejecuta lógica en cada página
- Extract: extrae campos específicos (precio, autor, fecha) usando patrones o modelos
- Summarize: resume contenido largo (artículos, reportes) a un resumen conciso
- Map: ejecuta la misma operación en batch sobre múltiples URLs
- Diff: compara dos versiones de una página y devuelve solo lo que cambió
- Batch: cola de procesamiento asincrónico para grandes volúmenes
- Brand: extrae información de marca (logo, descripción, redes sociales)
- Search: busca dentro de un sitio (como si fuera Google site:)
- Research: cadena compleja: busca, scrape, resume, estructura datos
La mayoría de estas 10 herramientas funcionan local-first sin que necesites API key. Si necesitás renderizado JS o debes scrapear un sitio con protecciones agresivas, ahí entra la API. Relacionado: automatizar workflows con IA.
Webclaw vs Firecrawl, ScrapingBee y Apify: comparativa
| Herramienta | Enfoque | Velocidad | Free Tier | Optimización para LLM | Renderizado JS | Modelo |
|---|---|---|---|---|---|---|
| Webclaw | Extracción local-first + API | Muy rápido (Rust) | 500 pág/mes (API) | Sí, 67% menos tokens | Sí (API en beta) | Open source + API premium |
| Firecrawl | API cloud pura | Rápido | No | Sí, optimizado para LLM | Sí, nativo | Empresa (pagado) |
| ScrapingBee | API con proxy + JS | Estándar | 250 requests/mes | No especialmente | Sí, con overhead | Empresa (pagado) |
| Apify | Plataforma completa | Variable | 10 actor runs/mes | No es el enfoque | Sí, full Puppeteer | Empresa (pagado) |

La ventaja de Webclaw es el modelo híbrido: corrés local sin costo (solo necesitás instalar), y escalás a API cloud si lo necesitás, sin estar forzado a pagarle a una empresa desde el primer día.
Firecrawl es más acabado como servicio cloud, pero empezás pagando desde cero. Apify es una plataforma completa, pero es overkill si solo necesitás scrapear una página. ScrapingBee es funcional, pero no optimiza específicamente para LLMs.
Primeros pasos: cómo empezar hoy
Opción 1: CLI local (sin costo)
- Descargá el ejecutable desde las releases oficiales
- Extraé en una carpeta en tu PATH
- Probá:
webclaw scrape https://ejemplo.com - Si funciona, tenés toda la herramienta funcionando sin API keys ni subscripciones
Opción 2: Como MCP en Claude Code o Cursor
- Abrí tu cliente (Claude Code, Cursor, etc.)
- Buscá “Add MCP Server” o equivalente en settings
- Pegá la config de Webclaw desde webclaw.io (el sitio tiene instrucciones para cada cliente)
- Reiniciá. Ahora tu agente IA puede scrapear directamente
Opción 3: SDK en tu proyecto
- Si usás TypeScript:
npm install @webclaw/sdk - Si usás Python:
pip install webclaw - Si usás Go:
go get github.com/0xMassi/webclaw-go - Importá en tu código y usá las funciones directamente
Opción 4: API en beta (requiere solicitud)
- Aplicá a webclaw.io para acceso a beta
- Una vez aceptado, usá tu API key en requests HTTP
- Tenés 500 páginas/mes de prueba
La recomendación: empezá con el CLI. Si necesitás integración automática, pasá a MCP. Si tu volumen crece o el sitio requiere JS, escalá a API.
Errores comunes al usar Webclaw
Error 1: asumir que funciona igual en todo sitio
Webclaw es excelente para HTML estático. Pero si un sitio carga contenido con JavaScript después del renderizado inicial, el CLI local no lo ve (necesitás la API en beta que sí tiene JS execution). Fijate primero qué tipo de sitio estás scrappeando antes de lanzarte a una integración completa. Para más detalles técnicos, mirá testing automatizado de APIs.
Error 2: enviar todo el output a un LLM sin filtrar
Webclaw reduce ruido, pero si extraés 50 páginas y le pasás todo a Claude, igual consumís un montón de tokens. Filtrá manualmente qué es relevante para tu tarea. Los 10 tools (summarize, extract, etc.) están ahí para eso.
Error 3: no respetar robots.txt y bloqueos de IP
Si usás Webclaw para hacer crawl agresivo, va a fallar. La herramienta respeta robots.txt (eso está baked in), pero si la usás desde el CLI local, tu IP puede terminar bloqueada por sitios paranoides. Para esto existe la API con rotation de IPs.
Preguntas Frecuentes
¿Webclaw es software libre?
Sí, el CLI y los SDKs están en GitHub bajo licencia open source. Descargás, modificás, usás sin costo. La API cloud en beta es un servicio pago (con free tier de 500 pág/mes), pero la herramienta local es completamente tuya.
¿Cuánto cuesta Webclaw?
El CLI local es gratis. La API en beta tiene free tier de 500 páginas/mes. Planes pagos aún no tienen precio público (estamos en beta), pero según el sitio oficial, van a ofertar pricing por volumen.
¿Cómo se integra Webclaw con Claude o Cursor?
Como MCP server. Instalás Webclaw, configurás el endpoint en tu cliente (Claude Desktop, Claude Code, Cursor), y listo. Tu agente IA puede scrapear llamando a Webclaw directamente, sin plugins ni middleware especial. Mirá el listado en LobeHub para instrucciones específicas por cliente.
¿Qué ventaja tiene sobre Selenium o Puppeteer?
Velocidad y simplitud. Selenium y Puppeteer te dan control total del navegador, pero es overhead si solo necesitás extrae contenido. Webclaw está optimizado para reducir HTML a datos relevantes sin mantener un navegador en memoria. Para tareas simples de scrape, Webclaw es 10x más rápido.
¿Puedo scrapear sitios con autenticación?
Con el CLI local, no (necesitarías pasar cookies manualmente, es complicado). Pero según el blog oficial, la API en beta maneja autenticación. Eso sí, requiere tener acceso a beta y probablemente un plan pago.
Conclusión
Un mes, 43.000 views, tres SDKs, y una API en beta. Webclaw llegó rápido al problema exacto que tienen los desarrolladores de IA: necesitan scrapear sin bloating de HTML en sus prompts.
El modelo es inteligente. Ofrecé herramienta local gratuita para que experimentes sin fricción. Si necesitás escala, protecciones contra bans, o JS rendering, la API te espera. Y integración como MCP significa que si usás Claude, Cursor o cualquier cliente compatible, tenés Webclaw a un comando de distancia.
Si estás construyendo agentes IA que necesitan información fresca de la web, no está mal ponerlo en tu radar. Y si ya estás usando herramientas como Firecrawl o ScrapingBee, Webclaw te da alternativa local-first sin vendor lock-in.






