ByteDance y la Universidad de Zhejiang lanzaron conjuntamente Vista-LLaMA, un modelo multimodal de lenguaje grande que puede interpretar contenido de video

WendyCS

2024-01-09 05:19:41

Bit ByteDance se ha asociado con la Universidad de Zhejiang para lanzar Vista-LLaMA, un modelo de lenguaje multimodal de gran tamaño diseñado para la comprensión de contenido de video y capaz de generar descripciones de video de alta calidad. A través de un innovador procesamiento visual y verbal de tokens, Vista-LLaMA resuelve el problema de las “alucinaciones” en el contenido de video.

Vista-LLaMA sobresale en múltiples pruebas de preguntas y respuestas de video abierto, especialmente en las pruebas NExT-QA y MSRVTT-QA. Logró una tasa de precisión del 60,7 % en la prueba NExT-QA de disparo cero y del 60,5 % en la prueba MSRVTT-QA, superando todos los métodos SOTA actuales. Estos resultados demuestran la eficiencia y precisión de Vista-LLaMA en la comprensión del contenido de video y la generación de descripciones.

Ver originales

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

TalkingAboutCurrency

· 2024-03-14 21:37

Stud All in 🙌

Ver originalesResponder0