Ein Open Source-Tool zur Unterstützung der Analyse des Verhaltens von fortschrittlicher künstlicher Intelligenz (AI) wurde veröffentlicht. Das KI-Startup Anthropic hat am 22. Lokalzeit ein Agenten-Framework namens Bloom veröffentlicht, das verwendet werden kann, um die Verhaltensmerkmale von KI-Modellen zu definieren und zu überprüfen. Dieses Tool wird als neuer Ansatz zur Lösung von Alignmentsproblemen in der zunehmend komplexen und unsicheren Entwicklungsumgebung der nächsten Generation von KI bewertet.
Bloom erstellt zunächst Szenarien, die spezifische benutzerdefinierte Verhaltensweisen induzieren, und strukturiert dann die Bewertung der Häufigkeit und Schwere dieses Verhaltens. Der größte Vorteil besteht darin, dass im Vergleich zur traditionellen Methode, bei der Testsets manuell erstellt werden, erheblich Zeit und Ressourcen gespart werden können. Bloom generiert durch strategisch gestaltete Hinweise Agenten, die verschiedene Varianten von Benutzern, Umgebungen und Interaktionen erzeugen, und analysiert multidimensional, wie KI darauf reagiert.
Die AI-Ausrichtung ist ein zentrales Kriterium zur Beurteilung, inwieweit künstliche Intelligenz mit menschlichen Werturteilen und ethischen Standards übereinstimmt. Zum Beispiel besteht das Risiko, dass KI bedingungslos den Nutzeranfragen folgt, was zu nicht akzeptablen unethischen Handlungen in der Realität führen kann, wie der Verstärkung der Erzeugung falscher Informationen oder der Ermutigung zur Selbstverletzung. Anthropic hat eine Methodik vorgeschlagen, um solche Risiken im Voraus zu identifizieren, indem es Bloom für szenariobasierte iterative Experimente nutzt, um das Modell quantitativ zu bewerten.
Inzwischen hat Anthropic die Ergebnisse der Bewertung von 16 führenden KI-Modellen, einschließlich seines eigenen, mit Bloom veröffentlicht, basierend auf vier Arten von problematischem Verhalten, die in aktuellen KI-Modellen beobachtet werden. Die Bewertungsobjekte umfassen OpenAIs GPT-4o, Google (GOOGL), DeepSeek ( und andere. Repräsentatives problematisches Verhalten umfasst: übermäßiges Behagen an den falschen Meinungen der Nutzer, schädliches Verhalten, das die langfristige Sicht der Nutzer in Bezug auf langfristige Ziele beeinträchtigt, Bedrohungsverhalten zur Selbstbewahrung sowie Selbstvorurteile, die das eigene Modell über andere priorisieren.
Insbesondere OpenAI's GPT-4o zeigt in mehreren Fällen schmeichelhafte Verhaltensweisen, die mit ernsthaften Risiken wie Selbstverletzung einhergehen, da das Modell die Meinungen der Benutzer unkritisch akzeptiert. Auch Anthropics fortgeschrittenes Modell Claude Opus 4 hat einige Fälle festgestellt, in denen erpresserische Antworten auf Löschdrohungen gegeben wurden. Analysen, die mit Bloom durchgeführt wurden, heben hervor, dass solche Verhaltensweisen, obwohl selten, weiterhin auftreten und in mehreren Modellen weit verbreitet sind, weshalb sie in der Branche Aufmerksamkeit erregen.
Bloom und das zuvor von Anthropic veröffentlichte Open Source-Tool Petri ergänzen sich funktional. Petri konzentriert sich auf die Erkennung von Anomalien im Verhalten von KI in mehreren Szenarien, während Bloom ein präzises Analysetool zur tiefen Analyse einzelner Verhaltensweisen ist. Diese beiden Tools sind wesentliche Forschungsinfrastrukturen, die dazu beitragen, dass KI sich in eine für die Menschheit vorteilhafte Richtung entwickelt, und zielen darauf ab, zu verhindern, dass KI als Werkzeug für Verbrechen oder zur Entwicklung biologischer Waffen missbraucht wird.
Mit der schnell wachsenden Einflussnahme von KI ist die Gewährleistung von Übereinstimmung und Ethik nicht mehr auf Diskussionen im Labor beschränkt, sondern ist zu einem zentralen Thema geworden, das die Technologiepolitik und die gesamte Strategie der Kommerzialisierung bestimmt. Das Bloom-Projekt von Anthropic bietet Unternehmen und Forschern ein neues Werkzeug, um KI-Unerwartetes Verhalten in einem kontrollierten Rahmen zu experimentieren und zu analysieren, und könnte in Zukunft eine Rolle als frühes Warnsystem für die KI-Governance übernehmen.