Fuga del Código Claude de Anthropic descubre herramientas de agentes autónomos y modelos no lanzados
El archivo npm expuesto reveló la arquitectura de memoria del Código Claude, características ocultas, nombres de modelos internos y riesgos de seguridad más amplios.
Conclusiones Clave
- El código fuente del Código Claude de Anthropic fue filtrado debido a un archivo mal configurado, exponiendo características críticas y vulnerabilidades.
- La fuga reveló el sistema de memoria de tres niveles del Código Claude y codenombres de modelos propietarios, planteando riesgos competitivos significativos.
Compartir este artículo
Anthropic expuso el código fuente completo del Código Claude tras publicarse un archivo de mapa de fuente mal configurado en npm, ofreciendo una mirada rara dentro de uno de los productos comerciales más importantes de la empresa.
El archivo, empaquetado con la versión 2.1.88, contenía cerca de 60 megabytes de material interno, incluyendo aproximadamente 512,000 líneas de TypeScript en 1,906 archivos. Chaofan Shou, un ingeniero de software en prácticas en Solayer Labs, fue el primero en detectar la fuga, que rápidamente se extendió por X y GitHub mientras los desarrolladores comenzaban a examinar el código base.
La divulgación mostró cómo Anthropic construyó el Código Claude para mantenerse en curso durante largas sesiones de codificación. Uno de los hallazgos más claros fue un sistema de memoria de tres capas centrado en un archivo ligero llamado MEMORY.md, que almacena referencias cortas en lugar de información completa. Las notas detalladas del proyecto se guardan por separado y se traen solo cuando son necesarias, mientras que el historial de sesiones anteriores se busca selectivamente en lugar de cargarse todo de una vez. El código también indica al sistema que verifique su memoria contra el código real antes de tomar acción, un diseño pensado para reducir errores y suposiciones falsas.
La fuente también sugiere que Anthropic ha estado desarrollando una versión más autónoma del Código Claude que lo que los usuarios ven actualmente. Una característica mencionada repetidamente bajo el nombre de KAIROS parece describir un modo daemon en el cual el agente puede continuar operando en el fondo en lugar de esperar indicaciones directas.
Otro proceso, llamado autoDream, parece manejar la consolidación de la memoria durante periodos de inactividad mediante la reconciliación de contradicciones y la conversión de observaciones tentativas en hechos verificados. Los desarrolladores que revisaron el código también encontraron docenas de banderas de características ocultas, incluyendo referencias a la automatización del navegador a través de Playwright.
La fuga también expuso nombres internos de modelos y datos de rendimiento. Según la fuente, Capybara se refiere a una variante de Claude 4.6, Fennec corresponde a un lanzamiento de Opus 4.6, y Numbat sigue en pruebas de prelanzamiento.
Los benchmarks internos citados en el código mostraron que la última versión de Capybara con una tasa de reclamaciones falsas del 29% al 30%, aumentó desde el 16.7% en una iteración anterior. La fuente también mencionó un contrapeso de asertividad diseñado para evitar que el modelo se vuelva demasiado agresivo al refactorizar el código del usuario.
Una de las divulgaciones más sensibles involucró una característica descrita como Modo Encubierto. La solicitud del sistema recuperada sugiere que el Código Claude podría usarse para contribuir a repositorios de código abierto públicos sin revelar que la IA estaba involucrada. Las instrucciones específicamente indican al modelo evitar exponer identificadores internos, incluyendo nombres de código de Anthropic, en mensajes de commit o registros git públicos.
Los materiales filtrados también expusieron el motor de permisos de Anthropic, la lógica de orquestación para flujos de trabajo de varios agentes, sistemas de validación bash, y la arquitectura del servidor MCP, dando a los competidores una mirada detallada a cómo funciona el Código Claude. La divulgación también puede dar a los atacantes un mapa más claro para elaborar repositorios diseñados para explotar el modelo de confianza del agente. El texto pegado dice que un desarrollador ya había comenzado a reescribir partes del sistema en Python y Rust bajo el nombre de Claw Code dentro de las horas de la fuga.
La exposición de la fuente coincidió con un ataque separado a la cadena de suministro que involucró versiones maliciosas del paquete npm axios distribuidas el 31 de marzo. Los desarrolladores que instalaron o actualizaron el Código Claude a través de npm durante ese período también podrían haber incluido la dependencia comprometida, que supuestamente contenía un troyano de acceso remoto. Los investigadores de seguridad instaron a los usuarios a verificar sus archivos de bloqueo, rotar credenciales y, en algunos casos, considerar reinstalaciones completas del sistema operativo en máquinas afectadas.
El incidente marca el segundo caso conocido en aproximadamente trece meses en que Anthropic expuso detalles técnicos internos sensibles, después de un episodio anterior en febrero de 2025 que involucró información de modelos no lanzados.
Tras la última brecha, Anthropic designó su instalador binario independiente como el método preferido para instalar el Código Claude porque evita la cadena de dependencia de npm. A los usuarios que permanecen en npm se les aconsejó fijar a versiones seguras verificadas lanzadas antes del paquete comprometido.
Anthropic, conocido por sus modelos innovadores de IA, enfrentó contratiempos significativos a principios de 2026 cuando sufrió fugas de datos que suscitaron preocupaciones sobre sus protocolos de seguridad de software. En medio de un telón de fondo de rápido crecimiento, impulsado por una ronda de financiación de la Serie G de $30 mil millones que elevó su valoración a $380 mil millones, la compañía luchó por proteger adecuadamente información propietaria crítica. Notablemente, la fuga del código fuente el 31 de marzo expuso detalles sobre el Código Claude, la principal herramienta de codificación de IA de Anthropic, revelando vulnerabilidades exacerbadas por incidentes cibernéticos concurrentes que afectaron paquetes npm ampliamente utilizados, incluido axios. Esta intersección de eventos subraya el estado precario de la seguridad del software en una era marcada por el desarrollo acelerado de tecnologías de IA y su integración en operaciones comerciales vitales.
