Source : Qubit
Ali open source grand modèle, et un nouveau ~
Après Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud a lancé le modèle de langage visuel à grande échelle Qwen-VL, et il sera directement open source dès sa mise en ligne.
Plus précisément, Qwen-VL est un grand modèle multimodal basé sur Tongyi Qianwen-7B, qui prend en charge plusieurs entrées telles que des images, du texte et des trames de détection, et prend en charge la sortie de trames de détection en plus du texte.
Par exemple 🌰, nous saisissons une image d’Arnia, sous forme de questions et réponses, Qwen-VL-Chat peut non seulement résumer le contenu de l’image, mais également localiser l’Arnia dans l’image.
Dans la tâche de test, Qwen-VL a démontré la force du “guerrier hexagonal”. Dans l’évaluation standard en anglais des quatre types de tâches multimodales (Zero-shot Caption/VQA/DocVQA/Grounding), il a atteint SOTA.
Dès que la nouvelle de l’open source est sortie, elle a attiré beaucoup d’attention.
Jetons un coup d’œil aux performances spécifiques ~
Jetons un coup d’œil aux caractéristiques des modèles de la série Qwen-VL dans leur ensemble :
En termes de scénarios, Qwen-VL peut être utilisé dans des scénarios tels que la réponse à des questions de connaissances, la réponse à des questions d’images, la réponse à des questions de documents et un positionnement visuel précis.
Par exemple, si un ami étranger qui ne comprend pas le chinois se rend à l’hôpital pour voir un médecin, face à la carte guide avec une tête et deux grandes, et ne sait pas comment se rendre au service correspondant, il peut directement lancer la carte. et des questions à Qwen-VL, et laissez-le suivre les informations de l’image qui agissent comme un traducteur.
Testons la saisie et la comparaison multi-images :
Bien qu’il n’ait pas reconnu Arnia, son jugement émotionnel était en effet assez précis (tête de chien manuelle).
En termes de capacité de positionnement visuel, même si l’image est très compliquée et qu’il y a de nombreux personnages, Qwen-VL peut trouver avec précision Hulk et Spiderman selon les exigences.
En termes de détails techniques, Qwen-VL utilise Qwen-7B comme modèle de langage de base, introduit un encodeur visuel ViT dans l’architecture du modèle et connecte les deux via un adaptateur de langage visuel sensible à la position, de sorte que le modèle prenne en charge l’entrée de signal visuel. .
Le processus de formation spécifique est divisé en trois étapes :
Les chercheurs ont testé Qwen-VL sur des évaluations d’anglais standard dans quatre catégories de tâches multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).
Les résultats montrent que Qwen-VL obtient les meilleurs résultats d’un LVLM open source de même taille.
De plus, les chercheurs ont construit un ensemble de tests TouchStone basé sur le mécanisme de notation GPT-4.
Dans ce test comparatif, Qwen-VL-Chat a atteint SOTA.
Si Qwen-VL vous intéresse, il y a des démos sur Modak Community et huggingface que vous pouvez essayer directement, et le lien est en fin d’article~
Qwen-VL aide les chercheurs et les développeurs à réaliser un développement secondaire, et permet également une utilisation commerciale, mais il convient de noter que pour une utilisation commerciale, vous devez d’abord remplir le questionnaire.
Lien du projet :
-Chat
Adresse papier :