Resultados da pesquisa por "BUGS"
2026-04-27
05:17

GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como "Spud" e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5. Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos. A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic 77.8%. Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto. O DeepSeek V4 foi avaliado como "acompanhando o ritmo da fronteira, mas não liderando," posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que "Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade," comentando que "Claude venceu o modelo chinês na própria língua. O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por "custo por tarefa" em vez de "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por um milhão de tokens, mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.
Mais
08:33

Anthropic lança /ultrareview para o Claude Code: revisão de código em nuvem com multiagentes

Mensagem do Gate News, 23 de abril — A Anthropic introduziu /ultrareview (research preview), um recurso de revisão de código multiagente baseado em nuvem para o Claude Code. Os usuários podem digitar /ultrareview na CLI para iniciar um grupo de agentes de revisão em um sandbox remoto que trabalham em paralelo para examinar diferenças entre a branch atual e a branch padrão incluindo alterações não confirmadas, ou revisar diretamente PRs do GitHub fornecendo um número de PR. Todo o processo não exige recursos locais e normalmente leva de 5 a 10 minutos, com os resultados retornando à sessão como notificações. A principal distinção em relação à ferramenta local /review está no seu mecanismo de verificação: cada achado é reproduzido e confirmado independentemente por um agente separado, concentrando-se em bugs reais em vez de sugestões de estilo de código. A Anthropic posiciona as duas ferramentas para etapas diferentes do desenvolvimento—/review para feedback rápido durante a codificação, e /ultrareview para uma revisão profunda de mudanças críticas como autenticação ou migração de dadosantes de fazer o merge. Quanto ao preço, /ultrareview usa cobrança adicional de uso e não consome uso incluído no plano. Usuários Pro e Max têm, cada um, 3 utilizações gratuitas antes de 5 de maio uma vez, não renovável, após o que cada revisão custa aproximadamente até dependendo da escala das mudanças. Usuários de Team e Enterprise não têm cota gratuita. O recurso exige autenticação de conta do Claude.ai e não está disponível para Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, ou para organizações com retenção de dados zero habilitada.
Mais
05:31
2

Pi Network Lança Primeira Funcionalidade de Contrato Inteligente na Testnet, Habilitando Pagamentos de Assinatura

A Pi Network lançou sua primeira funcionalidade de Contrato Inteligente na Testnet, permitindo que os usuários configurem pagamentos automáticos de assinatura enquanto mantêm o controle de seus fundos. Isso marca uma mudança em direção à utilidade do ecossistema e estabelece as bases para uma possível implantação na mainnet.
Mais
PI6,3%
08:34

Ethereum Foundation revela 100 operativos norte-coreanos infiltrando empresas de Web3

O programa ETH Rangers da Ethereum Foundation revelou uma grande ameaça de segurança envolvendo agentes norte-coreanos infiltrados em empresas de Web3. A investigação descobriu cerca de 100 operativos, sinalizou 53 projetos e recuperou mais de US$ 5,8 milhões. A fundação pede melhorias nos processos de contratação e cooperação global para aprimorar a segurança.
Mais
ETH-1,89%
12:51
1

Vitalik Buterin prevê que na década de 2030 surgirão códigos sem bugs

Foresight News 消息,以太坊联合创始人 Vitalik Buterin 发表预测称,「bug 是不可避免的,你不可能编写无 bug 代码」这一说法将在 2030 年代不再成立。他认为,虽然许多软件仍会存在 bug(因为在特定用例中,功能收益更为重要),但如果开发者真正希望拥有无 bug 代码,那么在 2030 年代将能够实现这一目标。
Mais