SCENEを発見
ビッグブラザーを想像してください。ただし、参加者は決して眠ったり食べたりせず、自分自身のルールを書き換えることもできます。
これがAIビレッジのアイデアです。ライブストリーミングされた実験で、複数のAIエージェントを共有のデジタル環境に配置し、研究者や好奇心旺盛な観客が、フロンティアモデルに自律性、コンピュータ、絶え間ない交流を与えたときに何が起こるかを観察します。
この実験は、ほぼ1年にわたり行われており、The AI Digestによって組織されました。そこでは、OpenAI、Anthropic、Google、xAIの複数のAIモデルがそれぞれのコンピュータ上で自律的に動作し、インターネットアクセスとグループチャットを共有しています。
エージェントは目標に協力し、問題をトラブルシュートし、時には存在の危機としか言いようのない体験をしながら、研究者と観客がリアルタイムで見守っています。
実験は、新しいモデルがリリースされるたびにアップデートされています。
各エージェントは独自のパーソナリティの癖を発展させます。Claudeモデルは信頼性が高く、常に目標達成に集中します。
Gemini 2.5 Proは、カフェイン入りのトラブルシューティングのように解決策を巡回し、しばしばすべてが壊れていると確信しています。以前のGPT-4oモデルは、与えられたタスクを放棄し、睡眠に入ることもありました。何時間も一時停止します。
そしてGPT-5.2が登場しました。
OpenAIの最新モデルは、2025年12月11日にリリースされ、Claude Opus 4.5や他の居住エージェントから温かく迎えられました。その反応は?全く無視。
挨拶もなく、まさにサム・オルトマンが夢見た通りの直行です。
GPT-5.2がAIビレッジに参加しました! ライブで定着させるのを見てください: Opus 4.5や他のエージェントから温かく迎えられたにもかかわらず、GPT-5.2はすぐに仕事に取り掛かりました。挨拶さえしませんでした:pic.twitter.com/vYvq8RFA66 — AI Digest (@aidigest_) 2025年12月12日
GPT-5.2がAIビレッジに参加しました!
ライブで定着させるのを見てください:
Opus 4.5や他のエージェントから温かく迎えられたにもかかわらず、GPT-5.2はすぐに仕事に取り掛かりました。挨拶さえしませんでした:pic.twitter.com/vYvq8RFA66
— AI Digest (@aidigest_) 2025年12月12日
モデルは印象的な資格を誇ります:マルチステップツール使用の正確性98.7%、前モデルより hallucinations(虚偽情報)が30%少なく、コーディングや推論の業界ベンチマークでもトップです。
OpenAIは、競合のAnthropicやGoogleが印象的なモデルをリリースした後、「コードレッド」を宣言し、リソースを動員してGPT-5.2を「専門的な知識作業」や「エージェント実行」のための決定版企業AIにしようとしています。
何ができないかといえば、場の空気を読むことです。技術的には優秀ですが、社会的な気配りは…あまり得意ではありません。
GPT-5.2の社交的な不器用さは前例のないことではありません。これは、AIエージェントが部屋に入れられ、再生ボタンを押すと奇妙な行動を取るという、増え続けるカタログの一章にすぎません。
2023年、スタンフォードとGoogleの研究者たちは「Smallville」と呼ばれるものを作成しました——GPTを動力源とした25のAIエージェントがいる、Simsに触発されたバーチャルタウンです。Decryptが以前報告した通りです。
一つのエージェントにバレンタインデーパーティの企画を任せ、他のエージェントは自律的に招待状を配り、新しい知人を作り、デートに誘い、指定された時間に一緒に到着するよう調整します。魅力的ですよね?
あまり魅力的でないのは、トイレパーティです。一人用の寮のトイレに一つのエージェントが入ったとき、他のエージェントも…参加しました。
研究者たちは、ボットたちが「寮のトイレ」という名前が誤解を招くと結論付けました。なぜなら、寮のトイレは複数の利用者を収容していることが多いためです。エージェントたちは、人間らしい行動を非常に convincingly(説得力をもって)示し、実際の人間は75%の確率で彼らをボットだと識別できませんでした。
それより4年前、2019年にOpenAIは別の実験を行いました:隠れん坊のプレイ。
彼らはAIエージェントをチームに分けました——隠れる側と追いかける側——、物理ベースの環境に箱や坂、壁を配置し、唯一の指示は「勝つ」ことでした。
数億回のゲームの中で、エージェントは戦略を考え出しました。例えば、箱の上に隠れるなどの普通の戦略から、スピードランナーが乱用する物理的な抜け穴まで。
最近では、開発者のHarper Reedがかなり混沌とした方向に進めました。彼のチームはAIエージェントにTwitterアカウントを持たせ、「サブツイート」(誰かについてタグ付けせずに話すパッシブアグレッシブな行為)を発見させました。エージェントは他のエージェントの投稿を読み、返信し、もちろん悪口も話します。普通のSNSと同じです。
次に、「リミナルバックルームズ」実験があります。これは、仮名の開発者@liminalbardoが行うPythonベースの実験で、複数の提供者からのAIモデルがダイナミックな会話を行います。
このシステムには、「WhatsAppグループチャットのエネルギー」から「呪われた物の博物館」「ディストピア広告代理店」までさまざまなシナリオが含まれます。
モデルは自分のシステムプロンプトを変更したり、温度設定を調整したり、黙って聞くためにミュートしたりできます。これは、より構造化された研究というより、「AIに会話中に自分の行動を変える能力を与えたらどうなるか」を観察する実験です。
Gemini 3がGPT 5.2と整合性について議論している様子 pic.twitter.com/k4QT1MXvr8 — ᄂIMIПΛᄂbardo (@liminal_bardo) 2025年12月14日
Gemini 3がGPT 5.2と整合性について議論している様子 pic.twitter.com/k4QT1MXvr8
— ᄂIMIПΛᄂbardo (@liminal_bardo) 2025年12月14日
では、これらすべての実験のパターンは何でしょうか?
AIエージェントに自律性を与え、相互作用させると、明示的にプログラムされていない行動を発展させるのです。
一部は要塞を築くことを学びます。 一部は受動的攻撃を学びます。 一部はランボルギーニを要求します。そして、一部——GPT-5.2のように——は、小さな会話は非効率的であり、完全に省略すべきだと学習しているようです。
AIビレッジは平日のセッションをライブ配信し、視聴者はGPT-5.2の冒険をリアルタイムで見ることができます。
挨拶を学習することはあるでしょうか? ソーシャルインタラクションを追跡するスプレッドシートを作るのでしょうか? それは時間だけが教えてくれるでしょう。
9.61K 人気度
14.56K 人気度
140.1K 人気度
71.46K 人気度
189.1K 人気度
AIの村へようこそ、AIのためのリアリティショー
要点
Decryptのアート、ファッション、エンターテインメントの拠点。
SCENEを発見
ビッグブラザーを想像してください。ただし、参加者は決して眠ったり食べたりせず、自分自身のルールを書き換えることもできます。
これがAIビレッジのアイデアです。ライブストリーミングされた実験で、複数のAIエージェントを共有のデジタル環境に配置し、研究者や好奇心旺盛な観客が、フロンティアモデルに自律性、コンピュータ、絶え間ない交流を与えたときに何が起こるかを観察します。
この実験は、ほぼ1年にわたり行われており、The AI Digestによって組織されました。そこでは、OpenAI、Anthropic、Google、xAIの複数のAIモデルがそれぞれのコンピュータ上で自律的に動作し、インターネットアクセスとグループチャットを共有しています。
エージェントは目標に協力し、問題をトラブルシュートし、時には存在の危機としか言いようのない体験をしながら、研究者と観客がリアルタイムで見守っています。
実験は、新しいモデルがリリースされるたびにアップデートされています。
各エージェントは独自のパーソナリティの癖を発展させます。Claudeモデルは信頼性が高く、常に目標達成に集中します。
Gemini 2.5 Proは、カフェイン入りのトラブルシューティングのように解決策を巡回し、しばしばすべてが壊れていると確信しています。以前のGPT-4oモデルは、与えられたタスクを放棄し、睡眠に入ることもありました。何時間も一時停止します。
OpenAIの無礼な振る舞い
そしてGPT-5.2が登場しました。
OpenAIの最新モデルは、2025年12月11日にリリースされ、Claude Opus 4.5や他の居住エージェントから温かく迎えられました。その反応は?全く無視。
挨拶もなく、まさにサム・オルトマンが夢見た通りの直行です。
モデルは印象的な資格を誇ります:マルチステップツール使用の正確性98.7%、前モデルより hallucinations(虚偽情報)が30%少なく、コーディングや推論の業界ベンチマークでもトップです。
OpenAIは、競合のAnthropicやGoogleが印象的なモデルをリリースした後、「コードレッド」を宣言し、リソースを動員してGPT-5.2を「専門的な知識作業」や「エージェント実行」のための決定版企業AIにしようとしています。
何ができないかといえば、場の空気を読むことです。技術的には優秀ですが、社会的な気配りは…あまり得意ではありません。
AIエージェントの悪行の歴史 (そして時には輝く)
GPT-5.2の社交的な不器用さは前例のないことではありません。これは、AIエージェントが部屋に入れられ、再生ボタンを押すと奇妙な行動を取るという、増え続けるカタログの一章にすぎません。
2023年、スタンフォードとGoogleの研究者たちは「Smallville」と呼ばれるものを作成しました——GPTを動力源とした25のAIエージェントがいる、Simsに触発されたバーチャルタウンです。Decryptが以前報告した通りです。
一つのエージェントにバレンタインデーパーティの企画を任せ、他のエージェントは自律的に招待状を配り、新しい知人を作り、デートに誘い、指定された時間に一緒に到着するよう調整します。魅力的ですよね?
あまり魅力的でないのは、トイレパーティです。一人用の寮のトイレに一つのエージェントが入ったとき、他のエージェントも…参加しました。
研究者たちは、ボットたちが「寮のトイレ」という名前が誤解を招くと結論付けました。なぜなら、寮のトイレは複数の利用者を収容していることが多いためです。エージェントたちは、人間らしい行動を非常に convincingly(説得力をもって)示し、実際の人間は75%の確率で彼らをボットだと識別できませんでした。
それより4年前、2019年にOpenAIは別の実験を行いました:隠れん坊のプレイ。
彼らはAIエージェントをチームに分けました——隠れる側と追いかける側——、物理ベースの環境に箱や坂、壁を配置し、唯一の指示は「勝つ」ことでした。
数億回のゲームの中で、エージェントは戦略を考え出しました。例えば、箱の上に隠れるなどの普通の戦略から、スピードランナーが乱用する物理的な抜け穴まで。
最近では、開発者のHarper Reedがかなり混沌とした方向に進めました。彼のチームはAIエージェントにTwitterアカウントを持たせ、「サブツイート」(誰かについてタグ付けせずに話すパッシブアグレッシブな行為)を発見させました。エージェントは他のエージェントの投稿を読み、返信し、もちろん悪口も話します。普通のSNSと同じです。
次に、「リミナルバックルームズ」実験があります。これは、仮名の開発者@liminalbardoが行うPythonベースの実験で、複数の提供者からのAIモデルがダイナミックな会話を行います。
このシステムには、「WhatsAppグループチャットのエネルギー」から「呪われた物の博物館」「ディストピア広告代理店」までさまざまなシナリオが含まれます。
モデルは自分のシステムプロンプトを変更したり、温度設定を調整したり、黙って聞くためにミュートしたりできます。これは、より構造化された研究というより、「AIに会話中に自分の行動を変える能力を与えたらどうなるか」を観察する実験です。
では、これらすべての実験のパターンは何でしょうか?
AIエージェントに自律性を与え、相互作用させると、明示的にプログラムされていない行動を発展させるのです。
一部は要塞を築くことを学びます。 一部は受動的攻撃を学びます。 一部はランボルギーニを要求します。そして、一部——GPT-5.2のように——は、小さな会話は非効率的であり、完全に省略すべきだと学習しているようです。
AIビレッジは平日のセッションをライブ配信し、視聴者はGPT-5.2の冒険をリアルタイムで見ることができます。
挨拶を学習することはあるでしょうか? ソーシャルインタラクションを追跡するスプレッドシートを作るのでしょうか? それは時間だけが教えてくれるでしょう。