Tsinghua KEG Lab і Zhipu AI спільно запустили CogAgent, велику модель для розуміння зображень

WendyCS
VET-0,86%

Bit News Tsinghua KEG Lab нещодавно співпрацювала з Zhipu AI, щоб спільно запустити нове покоління великої моделі CogAgent, що розуміє зображення. Заснована на раніше запущеному CogVLM, модель використовує візуальні модальності замість тексту, щоб забезпечити більш повне і безпосереднє сприйняття інтерфейсу графічного інтерфейсу за допомогою візуального графічного агента для планування і прийняття рішень. Повідомляється, що CogAgent може приймати вхідні дані зображення з високою роздільною здатністю 1120×1120, з візуальними відповідями на питання, візуальним позиціонуванням (Grounding), GUI Agent та іншими можливостями, в 9 класичних списках розуміння зображень (включаючи VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE і т.д.) досяг першого результату в загальних здібностях.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів