A Bit ByteDance fez uma parceria com a Universidade de Zhejiang para lançar o Vista-LLaMA, um modelo multimodal de linguagem grande projetado para a compreensão de conteúdo de vídeo e capaz de produzir descrições de vídeo de alta qualidade. Através do inovador processamento visual e verbal de tokens, o Vista-LLaMA resolve o problema das “alucinações” no conteúdo de vídeo.
O Vista-LLaMA se destaca em vários benchmarks de perguntas e respostas de vídeo aberto, especialmente nos testes NExT-QA e MSRVTT-QA. Alcançou uma taxa de precisão de 60,7% no teste NExT-QA de tiro zero e 60,5% no teste MSRVTT-QA, superando todos os métodos SOTA atuais. Estes resultados demonstram a eficiência e precisão do Vista-LLaMA na compreensão de conteúdo de vídeo e geração de descrições.