De acordo com a monitorização do 1M AI News, o SWE-rebench é um teste de referência em tempo real que extrai mensalmente novas tarefas de engenharia de software (issues + PRs) do GitHub, sem que o modelo possa otimizar previamente para o desafio. O mantenedor Ibragim anunciou uma atualização da tabela em 23 de março, eliminando as demonstrações de exemplo e a limitação de 80 passos, além de adicionar tarefas de avaliação auxiliar.
Classificação dos dez melhores:
O modelo de código aberto GLM-5 da Zhipu AI (licença MIT) ocupa o terceiro lugar com 62,8%, sendo o modelo de código aberto mais bem classificado. Quatro modelos chineses estão entre os dez primeiros, além do GLM-5, incluindo o DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B da Alibaba Tongyi Qianwen (nono) e Step-3.5-Flash (décimo). O responsável global da Z.ai, Li Zixuan, comentou que na última atualização do SWE-rebench, todos os modelos chineses ficaram fora do top dez, sendo criticados por “benchmaxing” (pontuação artificial).