Medan perang sebenarnya dari AI Agensi: Infrastruktur, bukan skor model

robot
Pembuatan abstrak sedang berlangsung

Self-reporting enhancement dan masalah nyata di tingkat eksekusi

Together AI mengumumkan pada 8 April bahwa melalui pelatihan ulang setelah RL, kemampuan encoding GLM-5 meningkat sebesar 28%. Ini mengalihkan narasi kompetisi dari “penumpukan parameter” ke “penyetelan berkelanjutan”, tetapi masalahnya adalah: tanpa verifikasi benchmark independen, kebutuhan daya komputasi juga meningkat, seberapa besar sebenarnya angka ini? Cloud Native AI mereka mungkin bisa membedakan diri di jalur pipeline serverless, tetapi sejujurnya, bottleneck nyata saat ini adalah stabilitas eksekusi rantai panjang, bukan beberapa poin persentase kemampuan encoding.

Diskusi seputar GLM-5 menunjukkan adanya perbedaan pendapat yang mencolok:

  • Orang yang optimis mengatakan “pemikiran bercabang + pemanggilan alat” sudah mampu menjalankan alur kerja kompleks, bahkan menggunakan contoh dari lebih dari 600 iterasi di arXiv sebagai bukti;
  • Tapi yang diremehkan adalah tingkat stagnasi awal dalam pengujian benchmark: analisis LongCLI-Bench menunjukkan bahwa tingkat keberhasilan proxy di SWE-Bench kurang dari 30%; akar masalahnya adalah perencanaan awal yang terlalu rapuh, melakukan beberapa penyesuaian alat tidak menyelesaikan masalah;
  • Di sisi lain, Anthropic menandatangani kontrak TPU dengan kapasitas GW (daya konsumsi setara dengan penambangan Bitcoin), yang menunjukkan sumber daya komputasi sedang terkonsentrasi ke pemain yang memiliki kemampuan integrasi vertikal. Together harus membuktikan mampu mencapai SLA 99,9% dalam implementasi nyata agar bisa bersaing dengan efek penguncian pelanggan dari AWS dan Azure.

Ketidaksesuaian antara aliran dana dan narasi

  • Pada Q1 2026, total investasi ventura mencapai 300 miliar dolar AS, sekitar 80% di antaranya terkait AI, di mana OpenAI sendiri mendapatkan dana skala besar sebesar 122 miliar dolar;
  • Diskusi di Twitter tentang infrastruktur desentralisasi (misalnya DGrid AI) menunjukkan bahwa pasar masih lambat merespons perubahan narasi dari “model ke infrastruktur”;
  • Dalam tugas kompleks, proses hibrida yang menggabungkan “penyisipan perencanaan” dan intervensi manusia dapat meningkatkan stabilitas sekitar 20% dibanding otomatis murni, tetapi alur kerja semacam ini sangat diremehkan, perusahaan belum menyadari nilai pengawasan pengembang.

Kompetisi, perubahan pasokan, dan solusi yang terlalu tinggi penilaiannya

  • Dari segi kompetisi: GLM-5 menggunakan arsitektur MoE (744 miliar parameter, aktif sekitar 40 miliar), menjadi tantangan bagi pihak tertutup; tetapi Zhipu tidak merespons secara langsung, tampaknya lebih sebagai iterasi peningkatan daripada terobosan revolusioner.
  • Perubahan pasokan: Perusahaan tambang seperti Core Scientific beralih ke AI hosting, menunjukkan kekurangan GPU mungkin tidak sebesar yang diperkirakan; infrastruktur yang dapat digunakan kembali bisa mengganggu pasar serverless, mengurangi ruang premium perusahaan seperti Together.
  • Penyesuaian narasi: Antusiasme berlebihan terhadap “model pemikiran” tidak menyelesaikan masalah mendasar seperti pencemaran data benchmark, kritik LongCLI-Bench sudah menunjukkan hal ini.
Faksi narasi Bukti Dampak Penilaian
Optimis Agentic GLM-5 mencapai 77,8% di SWE-Bench Verified, lebih dari 600 iterasi di arXiv Mengalihkan fokus ke penyetelan berkelanjutan RL, mendorong pilot perusahaan Terlalu tinggi penilaiannya. Keunggulan sebenarnya terletak pada kombinasi pengawasan manusia-mesin, perusahaan konsultan seperti Accenture akan diuntungkan
Skeptis daya komputasi Kontrak TPU GW dari Anthropic, dana AI 300 miliar dolar di Q1 Mengubah kelangkaan menjadi “perang alokasi”, cloud open source ditekan Harga terlalu bias. Peralihan perusahaan tambang ke AI akan menimbulkan kapasitas idle yang merugikan perusahaan seperti Together dalam hal premium tinggi
Pendukung desentralisasi Diskusi di Twitter tentang DGrid/0G, PermawebDAO dan lain-lain Membangun narasi AI Web3 yang dapat diverifikasi, mengurangi perhatian terhadap cloud terpusat Sinyal awal. Respon masyarakat lambat, regulasi juga memperlambat adopsi solusi native kripto
Praktisi bisnis Tingkat stagnasi awal LongCLI-Bench kurang dari 30%, peningkatan 28% tanpa verifikasi independen Mengungkap kekurangan di tingkat eksekusi, menurunkan hype proxy Ini adalah wawasan inti: tim yang mampu membangun umpan balik tertutup akan diuntungkan, seperti praktik pratinjau OpenAI o3

Pandangan ke depan dan logika penetapan harga

  • Jika peningkatan yang dilaporkan self-reporting ini dapat dipercaya (tanpa audit, probabilitas subjektif sekitar 60%), Together dengan pipeline proxy serverless mungkin akan mengerjakan 15%-20% beban kerja Agentic hingga 2027;
  • Tapi regulasi sedang mendorong “cloud yang aman dan sejalan”, ambang kepatuhan dan keandalan akan terus meningkat, ini menguntungkan para raksasa saat ini;
  • Untuk penetapan harga aset dan layanan: keandalan dan SLA akan menjadi indikator utama premium, estimasi peningkatan model titik tunggal harus dikurangi.

Kesimpulan: Investor terlalu antusias terhadap narasi “proxy” GLM-5, tetapi kurang memahami ketergantungan infrastruktur di baliknya. Dalam tugas kompleks, tim yang memprioritaskan “hibrid eksekusi manusia-mesin + umpan balik tertutup” akan mendapatkan pengembalian berlebih, sedangkan model tuning saja nilai cost-performance-nya menurun.

Penting: Tinggi
Klasifikasi: Rilis model, tren industri, wawasan teknologi

Penilaian: Dalam narasi “prioritas infrastruktur”, belum terlambat untuk berinvestasi. Trader jangka pendek sudah melewatkan puncak sentimen, yang akan mendapatkan manfaat utama adalah tim yang mampu mengirim SLA tinggi dan proses hibrid manusia-mesin, serta dana jangka menengah-panjang. Posisi terkait keandalan dan kepatuhan harus ditambah.

GLM-0,07%
BTC1,44%
0G-2,21%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan