HappyHorse lidera anonimamente o AI Video Blind Test, com a Taotian da Alibaba e a Sand.ai sob escrutínio

robot
Geração do resumo em andamento

De acordo com a monitorização da 1M AI News, um modelo anónimo chamado HappyHorse-1.0 liderou a classificação da Video Arena na plataforma de avaliação de vídeo por IA Artificial Analysis na semana passada, garantindo o 1.º lugar tanto nas categorias text-to-video como image-to-video (excluindo áudio). Isto fez com que a Seedance 2.0 da ByteDance passasse para o 2.º lugar. Na categoria de áudio, a Seedance 2.0 continua a liderar ainda que por uma margem reduzida. Não houve conferência de imprensa, não houve blog técnico e não houve atribuição à empresa, e ninguém o reivindicou publicamente ainda.

A classificação da Video Arena baseia-se num sistema de testes cegos com Elo, em que os utilizadores votam no vídeo de que gostam mais entre duas opções geradas, sem conhecer a identidade do modelo. O HappyHorse está na lista há pouco tempo, com uma dimensão de amostra de cerca de 3.500, ou seja, menos de metade da Seedance 2.0, o que resulta num intervalo de confiança amplo (±12-13 pontos). No entanto, a vantagem na categoria sem áudio (aproximadamente 76 pontos para text-to-video e cerca de 48 pontos para image-to-video) supera de forma muito significativa a margem de erro.

Com base na ordem das línguas no website oficial (com chinês e cantonês listados antes do inglês) e na referência “HappyHorse” ao Ano do Cavalo em 2026, especialistas da área especulam que o modelo tem origem num grupo chinês. Existem duas teorias principais: 1. Vários meios de comunicação da indústria afirmam que o modelo vem do Taotian Group do Alibaba’s Future Life Lab, liderado por Zhang Di, que anteriormente foi Vice-Presidente de Tecnologia na Kuaishou e que irá liderar o desenvolvimento da Keling AI a partir de 2024, com um lançamento previsto de Keling 2.0 Master Edition em abril de 2025. Em novembro do mesmo ano, ele regressará ao Alibaba. 2. Um utilizador, Vigo Zhao, realizou uma comparação detalhada e concluiu que o HappyHorse corresponde completamente a vários indicadores de referência do daVinci-MagiHuman, que foi disponibilizado em open-source pela startup de vídeo por IA Sand.ai em março deste ano, e que a estrutura dos websites oficiais também é altamente semelhante.

A Sand.ai foi fundada por Cao Yue, o primeiro autor do Swin Transformer, e é referida na indústria como o “DeepSeek of AI video”. O website oficial do HappyHorse indica que o modelo tem 15 mil milhões de parâmetros, 40 camadas de transformers de self-attention, utiliza uma arquitetura Transfusion (que unifica a previsão autoregressiva de texto e a geração de difusão de áudio do vídeo no mesmo modelo), tem inferência de 8 passos, produz vídeo 1080p com áudio sincronizado e suporta lip-sync em sete línguas: chinês, inglês, japonês, coreano, alemão, francês e cantonês. É totalmente open-source e permite uso comercial.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar