Vergessen Sie AGI – Top-AI-Modelle haben immer noch Schwierigkeiten mit Mathematik

Decrypt

2026-03-18 12:10:12

Kurzfassung

MATHVISTA, entwickelt mit mehr als 6.000 annotierten Datenpunkten von Sahara AI, testet KI-Modelle auf multimodale mathematische Schlussfolgerungen.
GPT-4V erreichte 49,9 %, das höchste Ergebnis unter 12 getesteten Modellen, lag aber immer noch 10,4 Prozentpunkte unter der menschlichen Leistung.
Forscher sagen, dass der Fortschritt in Richtung AGI weniger vom Modellumfang abhängen könnte als von besseren Trainings- und Bewertungsdaten.

Künstliche Allgemeinintelligenz, oder AGI, wird oft als ein System beschrieben, das in vielen Bereichen so leistungsfähig ist wie Menschen. Ergebnisse des aktuellen MATHVISTA-Benchmark-Tests zeigen jedoch, dass die heutigen Modelle dieses Ziel noch nicht erreicht haben. Forscher von Microsoft Research, Sahara AI und der Emory University testeten Fähigkeiten, die für allgemeine Intelligenz zentral sind, darunter mathematisches Denken, das auf visuellen Informationen basiert, einschließlich Diagrammen, Grafiken und Abbildungen. Unter 12 Grundmodellen, darunter ChatGPT, Gemini und Claude, erreichte GPT-4 Vision mit 49,9 % die höchste Punktzahl. Menschliche Teilnehmer erzielten im Durchschnitt 60,3 %, was eine Lücke zwischen aktuellen KI-Systemen und der breiteren Denkfähigkeit, die oft mit AGI assoziiert wird, aufzeigt.

„Wir wollen, dass die Maschine Dinge tut, die ein normaler, durchschnittlicher Mensch bei seinen täglichen Aufgaben erledigen kann“, sagte Hao Cheng, leitender Forscher bei Microsoft Research, gegenüber Decrypt. „Das ist im Grunde das, was jeder für AGI anstrebt.“ Indem Probleme in Bildern, Diagrammen und Plots dargestellt werden, testet das Projekt, ob Modelle visuelle Informationen genau interpretieren und mehrstufige mathematische sowie logische Probleme lösen können – Fähigkeiten, die über reines Mustererkennen im Text hinausgehen. Modelle haben bei diesen Aufgaben noch Schwierigkeiten, und die Messung dieser Einschränkungen ist schwierig.

Als Chengs Team bestehende Bewertungsdatensätze überprüfte, enthielten viele Probleme, die kein visuelles Denken erforderten. Modelle erreichten oft richtige Antworten, indem sie sich ausschließlich auf Text stützten. „Was nicht ideal ist“, sagte Cheng. MathVista, verfügbar auf GitHub und Hugging Face, wurde im Oktober 2023 veröffentlicht. Seitdem wurde es mehr als 275.000 Mal heruntergeladen, darunter über 13.000 in den letzten Monat, so Microsoft Research. Das Erstellen des Datensatzes erforderte jedoch mehr als nur standardmäßige Datenkennzeichnung. Microsoft Research benötigte Annotatoren, die Probleme in Arithmetik, Algebra, Geometrie und Statistik bearbeiten konnten, während sie tiefergehendes mathematisches Denken, wie das Interpretieren von Grafiken oder das Lösen von Gleichungen, von einfacheren Aufgaben wie Objekte zählen oder Zahlen lesen, unterscheiden konnten. Nach einer Pilotphase wählte Microsoft Sahara AI zur Unterstützung aus. Das Unternehmen stellte geschulte Annotatoren, maßgeschneiderte Arbeitsabläufe und mehrstufige Qualitätskontrollen bereit, um mehr als 6.000 multimodale Beispiele für den Benchmark zu erstellen. Ohne zuverlässige Benchmarks wird es schwierig, Fortschritte in Richtung breiterer maschineller Intelligenz zu messen, sagte Sean Ren, CEO von Sahara AI und außerordentlicher Professor für Informatik an der USC. „Es gibt diese Nuance der Datenkontamination, bei der, sobald wir diesen Datensatz zum Testen verwenden, die Ergebnisse in die nächste Version übernommen werden“, sagte Ren gegenüber Decrypt. „Man weiß also nicht wirklich, ob sie nur ein Datenset lösen oder tatsächlich die Fähigkeit besitzen.“ Wenn Benchmark-Antworten in den Trainingsdaten eines Modells auftauchen, können hohe Punktzahlen eher auf Auswendiglernen als auf echtes Denken hindeuten. Das erschwert die Beurteilung, ob KI-Systeme tatsächlich Fortschritte machen.

Forscher weisen auch auf Grenzen bei den Trainingsdaten hin. Ein Großteil des öffentlich verfügbaren Internets wurde bereits in die Datensätze der Modelle integriert. „Man braucht definitiv eine Möglichkeit, neues Wissen in diesen Prozess einzuspeisen“, sagte Cheng. „Ich denke, diese Art von Fortschritt muss aus hochwertigen Daten kommen, damit wir diese Wissensgrenze wirklich durchbrechen können.“ Ein vorgeschlagener Weg sind simulierte Umgebungen, in denen Modelle interagieren, aus Erfahrung lernen und sich durch Feedback verbessern können. „Man schafft eine Zwillingwelt oder einen Spiegel der echten Welt in einer Sandbox, damit das Modell spielen und viele Dinge tun kann, die Menschen im echten Leben tun, um im Grunde die Grenze des Internets zu überwinden“, sagte Cheng. Ren meinte, dass Menschen nach wie vor eine wichtige Rolle bei der Verbesserung von KI-Systemen spielen könnten. Während Modelle Inhalte schnell generieren können, sind Menschen besser darin, diese zu bewerten. „Diese Lücke zwischen Mensch und KI, was sie gut können und was nicht, kann genutzt werden, um die KI wirklich voranzubringen“, sagte er.

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare