Gate News Meldung, 23. April — Forschende von Google, darunter He Kaiming und Xie Saining, haben eine Arbeit veröffentlicht, die Vision Banana vorstellt, ein allgemeines Modell zum Verstehen von Vision, erstellt durch leichtes Instruction-Fine-Tuning des hauseigenen Nano Banana Pro (Gemini 3 Pro Image)-Bildgenerierungsmodells. Die wichtigste Innovation vereint die Ausgaben aller Vision-Aufgaben als RGB-Bilder und ermöglicht Segmentierung, Tiefenschätzung und die Vorhersage von Oberflächennormalen durch Bildgenerierung, ohne aufgaben-spezifische Architekturen oder Verlustfunktionen.

Bei der semantischen Segmentierung übertraf Vision Banana das spezialisierte Modell SAM 3 um 4,7 Prozentpunkte auf Cityscapes; bei der Segmentierung von Bezugsausdrücken übertraf es SAM 3 Agent. Allerdings lag es bei der Instanzsegmentierung hinter SAM 3 zurück. Bei 3D-Aufgaben erreichte die metrische Tiefenschätzung eine durchschnittliche Genauigkeit von 0,929 über vier gängige Datensätze und übertraf damit Depth Anything V3 mit 0,918 — nur mit synthetischen Daten, ohne echte Tiefeninformationen oder Kamera-Parameter bei der Inferenz. Die Schätzung von Oberflächennormalen erzielte Ergebnisse auf dem Stand der Technik auf drei Indoor-Benchmarks.

Das Fine-Tuning bezog nur minimal Daten zu Vision-Aufgaben ein, die mit dem ursprünglichen Training zur Bildgenerierung vermischt wurden, und bewahrte dadurch die Generierungsfähigkeiten des Modells — die Leistung entsprach dem ursprünglichen Nano Banana Pro in Tests zur Generierungsqualität. Die Arbeit schlägt vor, dass das Pretraining zur Bildgenerierung in der Vision dem Pretraining zur Textgenerierung in der Sprache entspricht: Modelle lernen die internen Repräsentationen, die für das Verstehen von Bildern während der Generierung benötigt werden, wobei das Instruction-Fine-Tuning lediglich diese Fähigkeit freischaltet.

View Source

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

Top-Kanzleien berechnen über 2.000 US-Dollar pro Stunde, Gerichtsdokumente wurden entlarvt: „KI-Halluzinationen, Fehler am Fließband“

AI Industry News

Eine Anwaltskanzlei der Spitzenklasse in den USA, Sullivan & Cromwell, hat sich in einem gerichtlichen Dokument, das in dem Insolvenzverfahren in Manhattan für den Fall eingereicht wurde, bei der Richterin/ dem Richter wegen etwa dreißig Stellen entschuldigt, die KI-generierte Fehler, falsche Fallbeispiele und erfundene Paragraphen enthalten. Obwohl hohe Stundensätze und interne Schulungsrichtlinien vorhanden sind, wurden diese bei der tatsächlichen Vorbereitung nicht umgesetzt und nicht überprüft; der Vorfall hat erneut eine Debatte über den Einsatz von KI in der Rechtsbranche und die ethische Verantwortung ausgelöst.

ChainNewsAbmedia3M her

DeepSeek stellt TileKernels Open Source: GPU-Kernel-Bibliothek für das Training und die Inferenz großer Modelle

Project Progress AI Industry News

Gate News-Meldung, 23. April — DeepSeek hat TileKernels unter der MIT-Lizenz Open Source gestellt: eine GPU-Kernel-Bibliothek, die in TileLang geschrieben ist und für das Training und die Inferenz großer Sprachmodelle entwickelt wurde. TileLang ist eine domänenspezifische Sprache, die vom tile-ai-Team entwickelt wurde, um leistungsstarke GPU-Kernels auszudrücken in

GateNews12M her

Samsung SDS erweitert die Google-Cloud-Partnerschaft, um regulierte Bereiche mit KI- und Sicherheitsdiensten zu bedienen

AI Industry News

Gate News-Meldung, 23. April — Samsung SDS hat seine Partnerschaft mit Google Cloud erweitert, um KI-, Cloud-Computing- und Sicherheitsdienste für regulierte Branchen bereitzustellen, darunter Regierung und Finanzdienstleistungen. Die Unternehmen werden Google Distributed Cloud für Kunden bereitstellen, die Datensouveränität, geringe Latenz und eine robuste Infrastruktur benötigen.

GateNews35M her

Sullivan & Cromwell entschuldigt sich für KI-Halluzinationen in einem Gerichts-Schriftstück mit 40 fehlerhaften Zitaten

AI Industry News

Gate News-Meldung, 23. April — Sullivan & Cromwell, eine große Anwaltskanzlei aus Wall Street, hat sich bei einem Bundesrichter entschuldigt, nachdem sie einen Schriftsatz eingereicht hatte, der etwa 40 falsche Zitate und andere Fehler enthielt, die durch KI-Halluzinationen verursacht wurden. Andrew Dietderich, Co-Leiter des globalen Restrukturierungsteams der Kanzlei,

GateNews51M her

Tencent veröffentlicht und stellt Hunyuan Hy3-Vorschau mit 295B-Parametern Open Source

AI Industry News

Gate-News-Meldung, 23. April — Tencent hat Hunyuan Hy3-Vorschau vorgestellt und Open Source gestellt: ein hybrides Mixture-of-Experts-Sprachmodell mit einer Fusion aus schnellem und langsamen Denken. Das Modell umfasst 295 Milliarden Gesamtparameter mit 21 Milliarden aktiven Parametern und unterstützt eine maximale Kontextlänge von 256K

GateNews1Std her

Südkorea und Vietnam unterzeichnen 70+ Absichtserklärungen zu KI, Energie und Dateninfrastruktur

AI Industry News

Gate News Nachricht, 23. April — Südkorea und Vietnam unterzeichneten mehr als 70 Absichtserklärungen (MOUs) während des Staatsbesuchs von Präsident Lee Jae Myung in Hanoi am 23. April und mit Themen wie KI, Energie, Infrastruktur und Telekommunikation. Auf einem von über 500 Führungskräften besuchten Wirtschaftsforum wurde über KI und Ökosysteme der Energiebranche gesprochen,

GateNews1Std her

Kommentieren

0/400

Keine Kommentare