|

¿Realmente Anthropic tiene hipocresía con guardrails?

Anthropic rechazó en febrero de 2026 remover los guardrails de seguridad de sus modelos para el Pentágono, citando principios éticos. Ese mismo mes, cambió silenciosamente su política de seguridad. Y en abril, según reportes de TechCrunch, funcionarios del gobierno de Trump alentaban a los bancos más grandes de Wall Street a probar Mythos, el modelo más poderoso de la empresa. La hipocresía de Anthropic en torno a los guardrails de seguridad ya no es una acusación: es una cronología.

En 30 segundos

  • En febrero de 2026, Anthropic rechazó públicamente remover guardrails para el Pentágono, alegando riesgos de armas autónomas.
  • El mismo mes modificó su Responsible Scaling Policy (v3.0), eliminando el compromiso de pausar el entrenamiento si las capacidades superaban la seguridad.
  • Claude Mythos, su modelo de próxima generación, encontró vulnerabilidades de software con 16 y 27 años de antigüedad que ningún humano había detectado.
  • Project Glasswing da acceso exclusivo a Mythos a 40-50 organizaciones: bancos (JPMorgan, Goldman Sachs, Citigroup), big tech (Apple, Microsoft, Amazon, Google) y gobiernos selectos como el del Reino Unido.
  • Los desarrolladores independientes y los equipos de seguridad que mantienen infraestructura crítica quedan afuera.

Anthropic es una empresa de investigación en inteligencia artificial fundada en 2021 que desarrolla modelos de lenguaje grandes, como Claude, enfocados en la seguridad y alineación de sistemas de IA.

¿Qué es Claude Mythos y por qué preocupa a los expertos en seguridad?

Claude Mythos es el modelo de inteligencia artificial más avanzado que Anthropic ha desarrollado. No salió de un paper académico ni de un benchmark sintético: según Infobae, Mythos encontró vulnerabilidades críticas en OpenBSD con 27 años de antigüedad y en FFmpeg con 16 años. Vulnerabilidades que miles de auditores humanos revisaron durante décadas sin detectarlas.

Eso no es un benchmark. Es una demostración de capacidad ofensiva real.

La diferencia con modelos anteriores de Anthropic no es de grado: es de categoría. Claude 3.7 podía ayudar a escribir código. Mythos puede escanear proyectos complejos, razonar sobre su arquitectura histórica, identificar patrones de error no documentados y señalar exactamente dónde están los agujeros. Cualquiera que haya hecho una auditoría de seguridad en serio sabe que eso lleva semanas de trabajo humano (si es que se llega a algo).

¿Y qué pasó cuando esto se filtró? Exacto: Anthropic no anunció el modelo. Lo descubrieron por un leak de datos internos que Fortune reportó en marzo de 2026, describiendo a Mythos como “un cambio de paso en capacidades”. La empresa terminó confirmando su existencia después de que ya circulaba en medios.

La postura públicamente noble: el rechazo al Pentágono

A fines de febrero de 2026, el secretario de Defensa Pete Hegseth se reunió con representantes de Anthropic. El Pentágono quería acceso a los modelos de la empresa para “cualquier uso legalmente permitido”, incluyendo aplicaciones de armas autónomas. CNN reportó que Dario Amodei, CEO de Anthropic, rechazó la propuesta.

La explicación pública fue coherente con la identidad que Anthropic construyó: somos la empresa de IA que se preocupa por los riesgos. No vamos a remover guardrails para aplicaciones militares sin supervisión adecuada. Los modelos más capaces necesitan más control, no menos.

Correcto. Razonable. Incluso valiente, dado el contexto político de 2026.

El problema es lo que pasó en paralelo.

El mismo mes, el giro silencioso en la política de seguridad

Mientras Anthropic rechazaba al Pentágono en público, actualizaba internamente su Responsible Scaling Policy a la versión 3.0. Según CNN, el cambio más significativo fue la eliminación del compromiso explícito de pausar el entrenamiento de modelos si sus capacidades superaban los mecanismos de seguridad disponibles.

En la versión anterior, ese compromiso era el corazón de la política. El argumento: si entrenás algo que no podés controlar, parás. Es la postura que Anthropic usó para diferenciarse de OpenAI y Google.

En v3.0, eso desapareció.

El timing es difícil de ignorar. El mismo mes en que la empresa se para frente al Pentágono y dice “los guardrails no se tocan”, elimina el mecanismo de freno de emergencia de su propia política interna. (Si eso te parece una contradicción, estás leyendo bien.)

Nadie en Anthropic hizo una conferencia de prensa sobre el cambio en la RSP. Se publicó en el sitio. Algunos investigadores de seguridad de IA lo notaron. El resto del mundo estaba mirando el drama con el Pentágono.

Project Glasswing: Mythos para los elegidos

En abril de 2026, NBC News reveló la existencia de Project Glasswing: el programa de acceso anticipado a Mythos. No es un beta público. No es un programa de early adopters para desarrolladores. Es una lista de 40 a 50 organizaciones, seleccionadas por Anthropic, que reciben acceso exclusivo al modelo más poderoso de la empresa.

La lista incluye:

  • Bancos de inversión: JPMorgan Chase, Goldman Sachs, Citigroup, Bank of America, Morgan Stanley
  • Big tech: Apple, Microsoft, Amazon, Google, CrowdStrike
  • Gobiernos: principalmente el del Reino Unido, según Bloomberg

Bloomberg reportó el 16 de abril que Anthropic planea llevar Mythos a los bancos del Reino Unido en cuestión de días, con una inversión de USD 100 millones en créditos de acceso al modelo para las organizaciones seleccionadas.

USD 100 millones en créditos para que los bancos más grandes del mundo prueben gratis el modelo de IA más capaz del mercado para encontrar vulnerabilidades de software.

La contradicción central: Anthropic hipocresía guardrails gobierno

Armemos el argumento de Anthropic tal como lo presentaron: “Los guardrails de seguridad no se pueden remover para el gobierno de Estados Unidos porque Mythos es demasiado poderoso y sus aplicaciones en armas autónomas representan un riesgo inaceptable.” Sobre eso hablamos en como analizamos sus cambios de precios.

Bien. Ahora el argumento que se desprende de sus acciones: “Mythos, ese mismo modelo demasiado poderoso para el Pentágono, sí está disponible para JPMorgan, Goldman Sachs y el gobierno del Reino Unido, con USD 100 millones en créditos, sin ningún mecanismo de supervisión público.”

¿Alguien verificó de forma independiente qué guardrails tienen las versiones de Mythos que acceden los bancos? Todavía no.

La hipocresía de Anthropic con los guardrails de seguridad no está en que dieron acceso a gobiernos. Está en que el criterio de selección nunca fue el riesgo: fue quién tiene el dinero y la influencia para estar en la lista de Glasswing. El Pentágono pidió acceso oficial y se lo negaron. Los bancos de inversión de Wall Street lo obtuvieron a través de un programa silencioso, con subsidios millonarios.

Qué pueden hacer con Mythos que otros no pueden

Ponele que trabajás en el equipo de seguridad de una empresa mediana. Tu stack tiene componentes open source con años de historia. FFmpeg, OpenBSD, libssl. Los mismos proyectos donde Mythos encontró vulnerabilidades de 16 y 27 años.

Vos no tenés acceso a Mythos. Goldman Sachs sí.

La brecha no es filosófica: es operativa. Un banco de inversión con acceso a Mythos puede escanear sus sistemas, identificar vulnerabilidades críticas y parchearlas antes de que alguien las explote. Eso es defensivo y está bien. El problema es que esas mismas capacidades permiten identificar vulnerabilidades en los sistemas de otros, y nada obliga a reportarlas.

No hay un mecanismo de divulgación responsable integrado en Glasswing. No hay un acuerdo público sobre qué pasa cuando un banco encuentra una vulnerabilidad crítica en infraestructura compartida. TechCrunch señaló que funcionarios del gobierno de Trump están alentando activamente a los bancos a usar Mythos, sin que eso venga acompañado de ningún marco regulatorio.

La pregunta incómoda: ¿qué incentivo tiene JPMorgan para reportar una vulnerabilidad que encontró en la infraestructura de un competidor?

Tabla: quién tiene acceso y quién no

OrganizaciónTipoAcceso a MythosVía
JPMorgan ChaseBanco de inversión (EE.UU.)Project Glasswing
Goldman SachsBanco de inversión (EE.UU.)Project Glasswing
CitigroupBanco (EE.UU.)Project Glasswing
Apple, Microsoft, Amazon, GoogleBig techProject Glasswing
CrowdStrikeCiberseguridadProject Glasswing
Gobierno del Reino UnidoGobiernoProject Glasswing
Pentágono / DoD (EE.UU.)Gobierno / DefensaNoRechazado por Anthropic
Desarrolladores independientesIndividuos / PYMEsNoNo incluidos en Glasswing
Equipos de seguridad de empresas medianasSector privado no selectoNoNo incluidos en Glasswing
anthropic hipocresía guardrails diagrama explicativo

Las reacciones en política y seguridad

El debate en círculos de policy en Washington no es menor. Desde la publicación del leak de Mythos, investigadores del Council on Foreign Relations y grupos como la Electronic Frontier Foundation señalaron el mismo problema: Anthropic está tomando decisiones de gobernanza de IA que deberían ser públicas y reguladas, de forma privada y discrecional. Esto se conecta con lo que analizamos en según establece la ley de IA.

La EFF advirtió sobre el riesgo de que modelos con capacidades ofensivas de ciberseguridad queden en manos de actores sin rendición de cuentas pública. No es una crítica abstracta: es exactamente lo que describe Project Glasswing.

Los gobiernos que no están en la lista (la gran mayoría) tampoco tienen visibilidad sobre qué está haciendo Mythos en manos de los que sí están. No hay un marco internacional. No hay un protocolo de notificación. Hay una empresa privada decidiendo quién merece acceso a una herramienta que puede encontrar vulnerabilidades críticas en infraestructura global.

Eso sí: la empresa tiene una política de seguridad muy bien redactada. La versión 3.0.

Qué está confirmado / Qué no está claro

ConfirmadoNo confirmado / Pendiente
Anthropic rechazó remover guardrails para el Pentágono (febrero 2026)Qué guardrails específicos tienen las versiones de Mythos para Glasswing
Anthropic actualizó su RSP a v3.0 el mismo mes, eliminando el compromiso de pausaSi los bancos firmaron algún acuerdo de divulgación responsable de vulnerabilidades
Project Glasswing existe y da acceso a ~40-50 organizacionesLista completa de organizaciones en Glasswing
Mythos encontró vulnerabilidades de 16 y 27 años en OpenBSD y FFmpegCuántas vulnerabilidades encontró Mythos en total y cuántas fueron reportadas
USD 100M en créditos de Mythos para organizaciones seleccionadasCriterios de selección de Anthropic para Glasswing
Funcionarios del gobierno de Trump alentaron a bancos a usar Mythos (TechCrunch, abril 2026)Qué acuerdos existen entre Anthropic y el gobierno de Trump sobre Mythos

Errores comunes al analizar esta situación

Error 1: “Anthropic tiene derecho a elegir a quién le vende sus productos.” Cierto, cualquier empresa privada tiene ese derecho. El problema no es legal: es el contraste entre el discurso público de Anthropic sobre democratización de la IA y la realidad de un programa de acceso exclusivo para los más ricos y poderosos del mundo. Podés elegir a quién le vendés, pero no podés presentarte como guardián ético de la IA mientras hacés eso.

Error 2: “Los guardrails siguen activos, no es lo mismo que darle acceso al Pentágono.” Habría que ver. Nadie fuera de Anthropic verificó qué guardrails tienen las versiones de Mythos que usan los bancos. La empresa que eliminó el compromiso de pausa en entrenamiento es la misma que ahora garantiza que Glasswing es seguro. Tomalo con pinzas.

Error 3: “Es mejor que lo tengan las empresas privadas que los gobiernos militares.” Esa dicotomía es falsa. Un banco de inversión con capacidad para encontrar vulnerabilidades en infraestructura crítica global no es automáticamente más seguro que una agencia de defensa con supervisión congressional. Ambos presentan riesgos distintos y ninguno tiene un mecanismo público de rendición de cuentas en este contexto.

Preguntas Frecuentes

¿Qué es la hipocresía de Anthropic con los guardrails de seguridad?

En febrero de 2026, Anthropic rechazó públicamente dar acceso a sus modelos al Pentágono, argumentando que los guardrails de seguridad no podían removerse para aplicaciones militares. Al mismo tiempo, actualizó su Responsible Scaling Policy para eliminar el compromiso de pausar el entrenamiento si las capacidades superaban la seguridad, y meses después dio acceso exclusivo a Mythos, su modelo más poderoso, a bancos de inversión y gobiernos seleccionados a través de Project Glasswing. La contradicción es entre el discurso público de principios y las decisiones privadas de acceso. Cubrimos ese tema en detalle en tras sus fallos de infraestructura previos.

¿Qué es Project Glasswing y quién tiene acceso?

Project Glasswing es el programa de acceso anticipado a Claude Mythos, el modelo más avanzado de Anthropic. Incluye entre 40 y 50 organizaciones seleccionadas por la empresa, entre ellas JPMorgan Chase, Goldman Sachs, Citigroup, Bank of America, Morgan Stanley, Apple, Microsoft, Amazon, Google, CrowdStrike y el gobierno del Reino Unido. Anthropic ofreció USD 100 millones en créditos de Mythos a estas organizaciones. No hay acceso para desarrolladores independientes ni equipos de seguridad de empresas que no estén en la lista.

¿Qué cambió en la política de seguridad de Anthropic en febrero de 2026?

Anthropic actualizó su Responsible Scaling Policy a la versión 3.0 en febrero de 2026, eliminando el compromiso explícito de pausar el entrenamiento de modelos si sus capacidades de riesgo superaban los mecanismos de seguridad disponibles. Ese compromiso era el diferenciador central de la política anterior, y su eliminación pasó casi desapercibida porque ocurrió al mismo tiempo que el anuncio público del rechazo al Pentágono.

¿Qué puede hacer Claude Mythos que lo hace tan peligroso?

Claude Mythos encontró vulnerabilidades críticas en OpenBSD con 27 años de antigüedad y en FFmpeg con 16 años, fallas que miles de auditores humanos no detectaron en décadas de revisión. Esa capacidad para analizar proyectos de software complejos, razonar sobre su arquitectura histórica e identificar patrones de error no documentados lo convierte en una herramienta con potencial ofensivo significativo, no solo defensivo.

¿Por qué esto importa para equipos de seguridad fuera de las organizaciones seleccionadas?

Los equipos de seguridad de empresas medianas y desarrolladores independientes que mantienen infraestructura crítica no tienen acceso a Mythos, mientras que los bancos de inversión más grandes del mundo sí. Eso crea una brecha operativa: las organizaciones con más recursos pueden encontrar y parchear vulnerabilidades que otros no pueden detectar, y no existe ningún mecanismo público que obligue a reportar lo que encuentren en infraestructura compartida.

Conclusión

Anthropic construyó su reputación sobre una premisa: somos la empresa de IA que se toma en serio los riesgos. Esa reputación justificó miles de millones en financiamiento, cubrió la falta de transparencia en sus modelos y le dio credibilidad para rechazar solicitudes del gobierno de Estados Unidos.

Lo que Project Glasswing y la revisión de la RSP v3.0 muestran es que esa premisa tiene precio. Quién accede al modelo más poderoso de Anthropic no lo decide ningún criterio de riesgo ni ningún principio de democratización: lo decide quién tiene el dinero y la influencia para estar en la lista.

El Pentágono pidió acceso y lo rechazaron. JPMorgan Chase lo tiene gratis, con USD 100 millones en créditos. Si eso no te genera preguntas sobre el criterio real detrás de las decisiones de Anthropic, habría que ver qué criterio estás usando.

Para los equipos de seguridad y los desarrolladores que trabajan con infraestructura crítica, la conclusión práctica es esta: las capacidades que te dejarían en posición de igualdad con los actores más sofisticados del mercado no vas a tenerlas pronto. Y nadie que las tenga está obligado a decirte qué encontró.

Fuentes

Similar Posts