清華KEG LabとZhipu AIが共同で大規模画像理解モデル「CogAgent」を発売

WendyCS
VET-1.97%

Bit News Tsinghua KEG Labは最近、Zhipu AIと協力して、新世代の画像理解大規模モデルCogAgentを共同で発売しました。 このモデルは、以前に発表されたCogVLMに基づいており、テキストの代わりに視覚的なモダリティを使用して、計画と意思決定のための視覚的なGUIエージェントを介してGUIインターフェイスのより包括的で直接的な認識を提供します。 CogAgentは、1120×1120高解像度画像入力を受け入れることができ、視覚的な質問応答、視覚的なポジショニング(グラウンディング)、GUIエージェント、およびその他の機能で、9つの古典的な画像理解リスト(VQAv2、STVQA、DocVQA、TextVQA、MM-VET、POPEなどを含む)で、一般的な機能で最初の結果を達成したと報告されています。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし