News | Gate.com

2026-04-27

05:17

GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como "Spud" e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5. Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos. A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic 77.8%. Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto. O DeepSeek V4 foi avaliado como "acompanhando o ritmo da fronteira, mas não liderando," posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que "Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade," comentando que "Claude venceu o modelo chinês na própria língua. O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por "custo por tarefa" em vez de "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por um milhão de tokens, mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.

Mais

08:33

Anthropic lança /ultrareview para o Claude Code: revisão de código em nuvem com multiagentes

Agente de IA

Notícias do setor de IA

Mensagem do Gate News, 23 de abril — A Anthropic introduziu /ultrareview (research preview), um recurso de revisão de código multiagente baseado em nuvem para o Claude Code. Os usuários podem digitar /ultrareview na CLI para iniciar um grupo de agentes de revisão em um sandbox remoto que trabalham em paralelo para examinar diferenças entre a branch atual e a branch padrão incluindo alterações não confirmadas, ou revisar diretamente PRs do GitHub fornecendo um número de PR. Todo o processo não exige recursos locais e normalmente leva de 5 a 10 minutos, com os resultados retornando à sessão como notificações. A principal distinção em relação à ferramenta local /review está no seu mecanismo de verificação: cada achado é reproduzido e confirmado independentemente por um agente separado, concentrando-se em bugs reais em vez de sugestões de estilo de código. A Anthropic posiciona as duas ferramentas para etapas diferentes do desenvolvimento—/review para feedback rápido durante a codificação, e /ultrareview para uma revisão profunda de mudanças críticas como autenticação ou migração de dadosantes de fazer o merge. Quanto ao preço, /ultrareview usa cobrança adicional de uso e não consome uso incluído no plano. Usuários Pro e Max têm, cada um, 3 utilizações gratuitas antes de 5 de maio uma vez, não renovável, após o que cada revisão custa aproximadamente até dependendo da escala das mudanças. Usuários de Team e Enterprise não têm cota gratuita. O recurso exige autenticação de conta do Claude.ai e não está disponível para Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, ou para organizações com retenção de dados zero habilitada.

Mais

05:31

Pi Network Lança Primeira Funcionalidade de Contrato Inteligente na Testnet, Habilitando Pagamentos de Assinatura

pi network news

Progresso do projeto

A Pi Network lançou sua primeira funcionalidade de Contrato Inteligente na Testnet, permitindo que os usuários configurem pagamentos automáticos de assinatura enquanto mantêm o controle de seus fundos. Isso marca uma mudança em direção à utilidade do ecossistema e estabelece as bases para uma possível implantação na mainnet.

Mais

PI6,3%

01:01

Relatórios de Bugs Gerados por IA Assolam a Equipe de Manutenção do cURL

Notícias do setor de IA

Os relatórios de bugs gerados por IA estão sobrecarregando o projeto cURL, com um aumento significativo nas submissões que está causando sobrecarga de recursos. Os mantenedores estão respondendo limitando o acesso a modelos de IA e suspendendo programas de recompensa por vulnerabilidade para administrar a enxurrada.

Mais

08:34

Ethereum Foundation revela 100 operativos norte-coreanos infiltrando empresas de Web3

ethereum news

Geopolítica

Ações de fiscalização

Incidentes de segurança

O programa ETH Rangers da Ethereum Foundation revelou uma grande ameaça de segurança envolvendo agentes norte-coreanos infiltrados em empresas de Web3. A investigação descobriu cerca de 100 operativos, sinalizou 53 projetos e recuperou mais de US$ 5,8 milhões. A fundação pede melhorias nos processos de contratação e cooperação global para aprimorar a segurança.

Mais

ETH-1,89%

12:51

Vitalik Buterin prevê que na década de 2030 surgirão códigos sem bugs

ethereum news

Foresight News 消息，以太坊联合创始人 Vitalik Buterin 发表预测称，「bug 是不可避免的，你不可能编写无 bug 代码」这一说法将在 2030 年代不再成立。他认为，虽然许多软件仍会存在 bug（因为在特定用例中，功能收益更为重要），但如果开发者真正希望拥有无 bug 代码，那么在 2030 年代将能够实现这一目标。

Mais