ByteDance і Чжецзянський університет спільно запустили Vista-LLaMA, мультимодальну велику мовну модель, яка може інтерпретувати відеоконтент

WendyCS

2024-01-09 05:19:41

Bit ByteDance співпрацює з Чжецзянським університетом, щоб запустити Vista-LLaMA, мультимодальну велику мовну модель, розроблену для розуміння відеоконтенту та здатну виводити високоякісні описи відео. Завдяки інноваційній візуальній та вербальній обробці токенів, Vista-LLaMA вирішує проблему «галюцинацій» у відеоконтенті.

Vista-LLaMA чудово справляється з безліччю тестів запитань і відповідей на відкриті відео, особливо в тестах NExT-QA і MSRVTT-QA. Він досяг показника точності 60,7% у тесті NExT-QA з нульовим пострілом і 60,5% у тесті MSRVTT-QA, перевершивши всі сучасні методи SOTA. Ці результати демонструють ефективність і точність Vista-LLaMA в розумінні та генерації опису відеоконтенту.

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

TalkingAboutCurrency

· 2024-03-14 21:37

Стад Олл-ін 🙌

Переглянути оригіналвідповісти на0