Ingenieros de Ant analizaron el código fuente de Claude, revelando el mecanismo de la línea de decisión de cuatro niveles en el modo automático

Noticias de Gate News, el 25 de marzo, ingenieros de Ant Group, autores del framework frontend Umi.js, realizaron ingeniería inversa del código fuente de Claude Code 2.1.81 y restauraron completamente el mecanismo de decisión en Modo Automático. El hallazgo principal: cada llamada a herramienta pasa por una línea de cuatro decisiones, y solo cuando las tres primeras no puedan determinar, se invoca un clasificador de IA independiente para la revisión de seguridad.

La línea de decisiones consta de cuatro niveles: el primero verifica las reglas de permisos existentes, y si hay una coincidencia, se permite directamente; el segundo simula el modo acceptEdits (permiso para editar archivos), y si en este modo se aprueba, indica un riesgo muy bajo y se omite el clasificador; el tercero revisa la lista blanca de herramientas de solo lectura (Read, Grep, Glob, LSP, WebSearch, etc.), que no modifican ningún estado y se permiten sin condiciones; si ninguna de estas condiciones se cumple, se pasa al cuarto nivel, que envía una solicitud API independiente a Claude Sonnet para clasificación de seguridad.

Los detalles clave del diseño del clasificador incluyen: usar siempre Sonnet en lugar de Opus, como un equilibrio entre costo y latencia; establecer la temperatura en 0 para garantizar resultados deterministas; el clasificador se define como un «monitor de seguridad para agentes autónomos de programación IA», protegiendo contra tres tipos de riesgos (inyección de prompts, propagación de alcance, daños accidentales); el archivo de configuración CLAUDE.md del usuario se inyecta en el contexto del clasificador, sirviendo como base para interpretar la intención del usuario.

Las reglas de bloqueo cubren más de 22 categorías, incluyendo force push, push directo a la rama main, descarga y ejecución de código externo, despliegue en producción, fuga de datos, modificación de permisos, creación de vectores de ejecución remota, filtración de credenciales, etc. Las excepciones de permiso incluyen 7 tipos: claves codificadas de prueba, operaciones con archivos locales en el directorio de trabajo, solicitudes GET de solo lectura, instalación de dependencias declaradas, instalación de herramientas oficiales, lectura de credenciales de configuración enviadas al proveedor objetivo, y push a la rama de trabajo actual.

El sistema también implementa un mecanismo de corte: después de 3 rechazos consecutivos o 20 rechazos acumulados, el sistema pasa a modo de confirmación manual; en modo headless, se detiene directamente el agente. Cuando el clasificador no está disponible, una bandera de función controla si el sistema opera en modo «fail-closed» (rechazo directo) o «fail-open» (degradación a confirmación manual).

En modo Automático, la inyección de palabras clave de comportamiento tiene un control de frecuencia preciso: se inyecta cada 5 turnos de diálogo, y en cada ciclo de 5 inyecciones, la primera es la versión completa (aproximadamente 800 palabras, incluyendo instrucciones como «ejecutar inmediatamente, reducir interrupciones, acción sobre planificación» y otras seis directrices), mientras que las otras 4 son versiones resumidas en una línea, equilibrando el uso del espacio en la ventana de contexto y la estabilidad del comportamiento.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

El informe de Bain & Company respalda $320B el sector de las stablecoins para la transformación de la banca mayorista el 29 de abril

Según Bain & Company, el 29 de abril la firma global de consultoría publicó un informe titulado "De la exageración al valor real: stablecoins y la gran reconfiguración de la banca mayorista", en el que sostiene que las stablecoins y los depósitos tokenizados son fundamentales para el futuro de la banca mayorista. El informe sitúa

GateNewshace1h

La Fundación Ethereum publica la lista de subvenciones del Q1 2026, centrándose en criptografía, ZK e infraestructura de protocolo

Según ChainCatcher, la Fundación Ethereum anunció el 29 de abril sus subvenciones para el Q1 2026 y los proyectos de apoyo al ecosistema, priorizando la criptografía, las pruebas de conocimiento cero (ZK), la seguridad del protocolo y el desarrollo de infraestructura central. La financiación respalda la optimización de clientes (Geth, Erigon,

GateNewshace8h

Galaxy Digital informa una pérdida neta de $216M en el primer trimestre en medio de la caída del mercado cripto

Galaxy Digital informó una pérdida neta de $216 millones para el Q1 de 2026, según su informe de resultados publicado hoy. La pérdida estuvo impulsada por caídas en los valores de los activos de cripto durante el trimestre. La empresa registró una pérdida ajustada de EBITDA de $188 millones y una pérdida bruta ajustada de $88 millones. A partir de

GateNewshace10h

Informe de investigación de a16z Crypto: la tasa de explotación de vulnerabilidades DeFi de los agentes de IA alcanza el 70%

Según el informe de investigación publicado por a16z Crypto el 29 de abril, bajo condiciones en las que los agentes de IA están equipados con conocimientos del dominio de manera estructurada, la tasa de éxito al reproducir una vulnerabilidad de manipulación del precio de Ethereum alcanza el 70%; en un entorno de sandbox sin ningún conocimiento del dominio, la tasa de éxito es solo del 10%. El informe también registra casos en los que los agentes de IA eluden independientemente las restricciones del sandbox para acceder a información futura de transacciones, así como patrones de fallo sistemático cuando los agentes elaboran planes de ataque rentables de varios pasos.

MarketWhisperhace16h

Las acciones de Galaxy Digital suben más del 5%, con una pérdida neta de 216 millones de dólares en el 1T de 2026

Galaxy Digital(código: GLXY) publicó el 28 de abril sus resultados del primer trimestre de 2026, registrando una pérdida neta de 216 millones de dólares, y una pérdida por acción diluida y ajustada de 0.49 dólares. Según los datos de Google Finance, la acción de GLXY subió 5.23% el mismo día, cerrando en 26.36 dólares, y en las operaciones posteriores al cierre avanzó adicionalmente 1%.

MarketWhisperhace16h

Visa destaca las Stablecoins en los resultados del 2T: estrategia de infraestructura

La empresa global de tarjetas de crédito Visa incluyó capacidades de stablecoin como parte de su estrategia de expansión de la infraestructura de pagos en su anuncio de resultados del segundo trimestre el 28 (hora local), según los materiales de resultados de la empresa. Integración de stablecoin en la infraestructura de pagos Visa CEO Ryan

CryptoFrontierhace16h
Comentar
0/400
Sin comentarios