🥷 #OpenAI and Paradigm launched EVMbench, a benchmark designed to measure how well #Agentes de IA podem detectar, corrigir e explorar vulnerabilidades em ecossistemas EVM como o Ethereum. O benchmark é construído a partir de 120 vulnerabilidades de alta gravidade selecionadas de 40 auditorias e inclui cenários relacionados à cadeia Tempo. Os testes mostram que o GPT-5.3-Codex obteve uma pontuação de 72,2% no modo "exploração" em comparação com o GPT-5, que atingiu 31,9%, enquanto a cobertura para deteção e correção de vulnerabilidades permanece incompleta. #hack
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
🥷 #OpenAI and Paradigm launched EVMbench, a benchmark designed to measure how well #Agentes de IA podem detectar, corrigir e explorar vulnerabilidades em ecossistemas EVM como o Ethereum. O benchmark é construído a partir de 120 vulnerabilidades de alta gravidade selecionadas de 40 auditorias e inclui cenários relacionados à cadeia Tempo. Os testes mostram que o GPT-5.3-Codex obteve uma pontuação de 72,2% no modo "exploração" em comparação com o GPT-5, que atingiu 31,9%, enquanto a cobertura para deteção e correção de vulnerabilidades permanece incompleta. #hack
#crypto