Message de Gate News, 23 avril — Des chercheurs de Google, dont He Kaiming et Xie Saining, ont publié un article présentant Vision Banana, un modèle polyvalent de compréhension visuelle créé grâce à un réglage fin par instruction léger du modèle de génération d’images Nano Banana Pro (Gemini 3 Pro Image) de l’entreprise. L’innovation clé unifie les sorties de toutes les tâches de vision sous forme d’images RGB, permettant la segmentation, l’estimation de profondeur et la prédiction des normales de surface via la génération d’images, sans architectures ou fonctions de perte spécifiques aux tâches.
En segmentation sémantique, Vision Banana a surpassé le modèle spécialisé SAM 3 de 4,7 points de pourcentage sur Cityscapes ; en segmentation par expressions de référence, il a dépassé SAM 3 Agent. En revanche, il a pris du retard sur SAM 3 en segmentation d’instances. Pour les tâches 3D, l’estimation de profondeur métrique a atteint 0,929 de précision moyenne sur quatre ensembles de données standards, dépassant les 0,918 de Depth Anything V3, en n’utilisant que des données synthétiques sans informations de profondeur réelles ni paramètres de caméra lors de l’inférence. L’estimation des normales de surface a obtenu des résultats à l’état de l’art sur trois bancs d’essai en intérieur.
Le réglage fin a impliqué une quantité minimale de données de tâches visuelles mélangées à l’entraînement initial de génération d’images, préservant les capacités de génération du modèle — les performances étaient conformes au Nano Banana Pro original lors de tests de qualité de génération. L’article propose que le préentraînement à la génération d’images en vision soit analogue au préentraînement de la génération de texte en langage : les modèles apprennent les représentations internes nécessaires à la compréhension d’images pendant la génération, et le réglage fin par instruction ne fait que libérer cette capacité.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Les cabinets d’avocats de premier plan facturent plus de 2 000 dollars par heure, des documents judiciaires exposent « des hallucinations d’IA, des erreurs à répétition »
Le cabinet d’avocats de premier plan aux États-Unis Sullivan & Cromwell a présenté, dans des documents judiciaires déposés dans le cadre de l’affaire de faillite à Manhattan concernant Saulivian·Cromwell (Sullivan·Cromwell) , près d’une trentaine d’erreurs générées par une IA, de cas fictifs et de dispositions inventées, et s’est excusé auprès du juge. Bien qu’il existe des honoraires horaires élevés et une politique de formation interne, lors de la préparation, ces contrôles n’ont pas été appliqués ; l’incident a de nouveau relancé le débat sur l’utilisation de l’IA dans le milieu juridique et la responsabilité éthique.
ChainNewsAbmediaIl y a 3m
DeepSeek publie en open source TileKernels, une bibliothèque de noyaux GPU pour l’entraînement et l’inférence de grands modèles
Message de l'actualité Gate News, le 23 avril — DeepSeek a publié en open source TileKernels sous licence MIT, une bibliothèque de noyaux GPU écrite dans TileLang pour l’entraînement et l’inférence de grands modèles de langage. TileLang est un langage spécifique au domaine développé par l’équipe tile-ai pour exprimer des noyaux GPU à haute performance dans
GateNewsIl y a 12m
Samsung SDS étend son partenariat avec Google Cloud pour servir les secteurs réglementés grâce à des services d’IA et de sécurité
Message de Gate News, 23 avril — Samsung SDS a étendu son partenariat avec Google Cloud pour fournir des services d’IA, d’informatique en nuage et de sécurité aux secteurs réglementés, notamment le gouvernement et les services financiers.
Les entreprises déploieront Google Distributed Cloud pour les clients nécessitant une localisation des données
GateNewsIl y a 35m
Sullivan & Cromwell s’excuse pour des hallucinations d’IA dans un acte de procédure comportant 40 citations erronées
Message de Gate News, 23 avril — Sullivan & Cromwell, un important cabinet d’avocats de Wall Street, s’est excusé auprès d’un juge fédéral après avoir soumis un acte de procédure contenant environ 40 citations incorrectes et d’autres erreurs dues à des hallucinations de l’IA. Andrew Dietderich, co-directeur du pôle de restructuration mondiale du cabinet,
GateNewsIl y a 51m
Tencent publie et open-sourçe un aperçu de Hunyuan Hy3 avec 295B de paramètres
Message des actualités Gate, 23 avril — Tencent a dévoilé et a open-sourcé l’aperçu de Hunyuan Hy3, un modèle de langage hybride de type mixture-of-experts avec fusion de la pensée rapide et lente. Le modèle comprend 295 milliards de paramètres au total avec 21 milliards de paramètres actifs, prenant en charge une longueur maximale de contexte de 256K
GateNewsIl y a 1h
La Corée du Sud et le Vietnam signent 70+ MOUs sur l’IA, l’énergie et les infrastructures de données
Message d’actualités Gate, 23 avril — La Corée du Sud et le Vietnam ont signé plus de 70 mémorandums d’entente (MOUs) lors de la visite d’État à Hanoi du président Lee Jae Myung le 23 avril, portant sur l’IA, l’énergie, les infrastructures et les télécommunications. Un forum d’affaires auquel ont assisté plus de 500 dirigeants a discuté de l’écosystème de l’IA et de l’industrie de l’énergie, avec de grands conglomérats coréens, notamment Samsung, SK, LG et Hyundai, représentés. A
GateNewsIl y a 1h