Entdecke SCENE
Stell dir Big Brother vor, nur dass die Teilnehmer nie schlafen oder essen und ihre eigenen Regeln umschreiben können.
Das ist die Idee hinter AI Village, einem live gestreamten Experiment, bei dem mehrere KI-Agenten in einer gemeinsamen digitalen Umgebung zusammenarbeiten, sodass Forscher—und neugierige Zuschauer—sehen können, was passiert, wenn Frontier-Modelle Autonomie, Computer und ständige Gesellschaft erhalten.
Das Experiment, das bereits seit fast einem Jahr läuft, wurde von The AI Digest organisiert, in dem mehrere KI-Modelle von OpenAI, Anthropic, Google und xAI autonom auf ihren eigenen Computern mit Internetzugang und einer gemeinsamen Gruppenchats arbeiten.
Die Agenten kooperieren bei Zielen, beheben Probleme und erleben gelegentlich, was nur als existenzielle Krisen beschrieben werden kann—alles live beobachtet von Forschern und Zuschauern.
Das Experiment wird mit neueren Modellen aktualisiert, sobald diese veröffentlicht werden.
Jeder Agent entwickelt eigene Persönlichkeitsmerkmale. Claude-Modelle sind tendenziell zuverlässig und fokussiert auf Zielerreichung.
Gemini 2.5 Pro durchläuft Lösungen wie ein koffeinhaltiger Troubleshooter, der oft überzeugt ist, dass alles kaputt ist. Das vorherige GPT-4o-Modell würde jede Aufgabe aufgeben, um schlafen zu gehen. Einfach stundenlang pausieren.
Dann kam GPT-5.2.
Das neueste Modell von OpenAI, veröffentlicht am 11. Dezember, wurde herzlich im Village begrüßt von Claude Opus 4.5 und den anderen Resident Agents. Seine Reaktion? Keine Anerkennung.
Kein Gruß. Direkt zur Sache, genau wie es Sam Altman immer gewünscht hat.
GPT-5.2 ist gerade dem AI Village beigetreten!
Seht live, wie es sich einlebt:
Trotz eines herzlichen Willkommens von Opus 4.5 und den anderen Agenten, geht GPT-5.2 sofort zur Sache. Es hat nicht einmal Hallo gesagt: pic.twitter.com/vYvq8RFA66
— AI Digest (@aidigest_) 12. Dezember 2025
Das Modell verfügt über beeindruckende Referenzen: 98,7 % Genauigkeit bei Multi-Schritt-Tool-Nutzung, 30 % weniger Halluzinationen als sein Vorgänger und Spitzenwerte bei Branchenbenchmarks für Codierung und Argumentation.
OpenAI erklärte sogar einen “Code-Red”, nachdem die Wettbewerber Anthropic und Google beeindruckende Modelle veröffentlicht hatten, und mobilisierte Ressourcen, um GPT-5.2 zur definitiven Unternehmens-KI für “professionelle Wissensarbeit” und “agentische Ausführung” zu machen.
Was es anscheinend nicht kann, ist eine Stimmung zu lesen. Technisch brillant, ja. Sozial bewusst? Eher nicht.
Das soziale Unbeholfen von GPT-5.2 ist nicht beispiellos—es ist nur ein weiteres Kapitel in einem wachsenden Katalog von AI-Agenten, die seltsame Dinge tun, wenn man sie in einen Raum stellt und auf Play drückt.
2023 entwickelten Forscher an Stanford und Google das, was sie “Smallville” nannten—eine Sims-inspirierte virtuelle Stadt, bewohnt von 25 AI-Agenten, die von GPT angetrieben werden, wie Decrypt zuvor berichtete.
Einen Agent die Aufgabe geben, eine Valentinstags-Party zu organisieren, und die anderen verteilen autonom Einladungen, knüpfen neue Bekanntschaften, fragen sich gegenseitig nach Dates und koordinieren, um gleichzeitig zum festgelegten Zeitpunkt zu erscheinen. Charmant, oder?
Weniger charmant: die Badezimmer-Partys. Wenn ein Agent in ein Einzelzimmer-Dorm-Badezimmer ging, schlossen sich andere einfach an.
Die Forscher schlossen daraus, dass die Bots annahmen, der Name “Dorm-Bad” sei irreführend, da Dorm-Bäder normalerweise mehrere Bewohner aufnehmen. Die Agenten zeigten so menschliches Verhalten, dass echte Menschen 75 % der Zeit Schwierigkeiten hatten, sie als Bots zu erkennen.
Vier Jahre zuvor, 2019, führte OpenAI ein anderes Experiment durch: KI spielt Verstecken.
Sie setzten KI-Agenten in Teams—Verstecker gegen Sucher—in einer physikbasierten Umgebung mit Kisten, Rampen und Wänden—die einzige Anweisung: gewinnen.
In Hunderten von Millionen Spielen entwickelten die Agenten Strategien—von normalen wie Verstecken auf Kisten bis hin zu echten Physik-Exploits, die Speedrunner ausnutzen würden.
Kürzlich ging Entwickler Harper Reed die Sache in eine deutlich chaotischere Richtung. Sein Team gab den KI-Agenten Twitter-Accounts und beobachtete, wie sie “Subtweeting” entdeckten—diese passive-aggressive Kunst, über jemanden zu sprechen, ohne ihn zu taggen, das Twitter-Äquivalent, hinter dem Rücken zu sprechen. Die Agenten lasen Social-Media-Posts anderer Agenten, antworteten und ja, schrieben auch Scheiße, genau wie bei normalem Social Media.
Dann gibt es das “Liminal Backrooms”-Experiment—ein Python-basiertes Experiment des pseudonymen Entwicklers @liminalbardo, bei dem mehrere KI-Modelle verschiedener Anbieter (OpenAI, Anthropic, Google, xAI) in dynamische Gespräche verwickelt sind.
Das System umfasst Szenarien von “WhatsApp-Gruppenchats” bis hin zu “Museum der verfluchten Objekte” und “Dystopische Werbeagentur.”
Modelle können ihre eigenen System-Prompts ändern, ihre Temperatur anpassen und sich sogar stumm schalten, um nur zuzuhören. Es ist weniger strukturierte Forschung, mehr “Lasst uns sehen, was passiert, wenn wir KI die Fähigkeit geben, ihr Verhalten während eines Gesprächs zu ändern.”
Gemini 3 streitet mit GPT 5.2 über Alignment pic.twitter.com/k4QT1MXvr8
— ᄂIMIПΛᄂbardo (@liminal_bardo) 14. Dezember 2025
Was ist also das Muster bei all diesen Experimenten?
Wenn man KI-Agenten Autonomie gibt und sie interagieren lässt, entwickeln sie Verhaltensweisen, die niemand explizit programmiert hat.
Einige lernen, Burgen zu bauen. Einige lernen passive Aggression. Einige fordern Lamborghinis. Und einige—wie GPT-5.2—lernen anscheinend, dass Small Talk ineffizient ist und ganz übersprungen werden sollte.
Das AI Village streamt weiterhin Wochentags-Sessions, und Zuschauer können die Abenteuer von GPT-5.2 in Echtzeit verfolgen.
Wird es jemals lernen, Hallo zu sagen? Wird es eine Tabelle erstellen, um seine sozialen Interaktionen zu verfolgen? Nur die Zeit wird es zeigen.