Kimi K2 Thinking menciptakan rekor baru dalam penilaian standar untuk menilai kemampuan penalaran, pengkodean, dan agen.

Data Jinshi 8 November, menurut situs resmi Shadow of the Moon, Kimi K2 Thinking mencatat rekor baru dalam penilaian standar kemampuan penalaran, pengkodean, dan agen. K2 Thinking meraih skor SOTA sebesar 44,9% dalam penilaian standar HLE, mencapai 60,2% dalam pengujian BrowseComp, dan 71,3% dalam pengujian SWE-Bench Verified, menunjukkan kemampuan generalisasi yang kuat sebagai model agen berpikir paling canggih.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar