Os modelos chineses caíram para fora do top 10 no último SWE-rebench e foram ridicularizados por "inflacionar pontuações", desta vez ocupando quatro posições.

BlockBeatNews

2026-03-25 06:07:19

De acordo com a monitorização do 1M AI News, o SWE-rebench é um teste de referência em tempo real que extrai mensalmente novas tarefas de engenharia de software (issues + PRs) do GitHub, sem que o modelo possa otimizar previamente para o desafio. O mantenedor Ibragim anunciou uma atualização da tabela em 23 de março, eliminando as demonstrações de exemplo e a limitação de 80 passos, além de adicionar tarefas de avaliação auxiliar.

Classificação dos dez melhores:

Claude Opus 4.6: 65,3%
GPT-5.2 medium: 64,4%
GLM-5: 62,8%
GPT-5.4 medium: 62,8%
Gemini 3.1 Pro Preview: 62,3%
DeepSeek-V3.2: 60,9%
Claude Sonnet 4.6: 60,7%
Claude Sonnet 4.5: 60,0%
Qwen3.5-397B-A17B: 59,9%
Step-3.5-Flash: 59,6%

O modelo de código aberto GLM-5 da Zhipu AI (licença MIT) ocupa o terceiro lugar com 62,8%, sendo o modelo de código aberto mais bem classificado. Quatro modelos chineses estão entre os dez primeiros, além do GLM-5, incluindo o DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B da Alibaba Tongyi Qianwen (nono) e Step-3.5-Flash (décimo). O responsável global da Z.ai, Li Zixuan, comentou que na última atualização do SWE-rebench, todos os modelos chineses ficaram fora do top dez, sendo criticados por “benchmaxing” (pontuação artificial).

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Comentário

0/400

Sem comentários