Dari HC ke mHC: Bagaimana DeepSeek Menggunakan Pembatasan Manifold untuk Meningkatkan Pelatihan Model Besar

DeepSeek pada tahun 2025 mengguncang dunia dengan model besar yang sangat efisien dari segi biaya, dan kini memasuki tahun 2026, perusahaan ini terus menunjukkan ketahanan inovasi teknologi. 1 Januari, DeepSeek merilis makalah baru yang mengusulkan arsitektur manifold constrained hyperconnection (mHC), yang secara sistematis memperbaiki masalah stabilitas pada jaringan hyperconnection (HC) yang ada dalam pelatihan model besar. Ini tidak hanya mencerminkan ketekunan DeepSeek terhadap detail teknologi, tetapi juga menandai bahwa desain arsitektur model besar sedang memasuki tahap optimisasi yang lebih rinci.

Masalah Tersembunyi dalam Pelatihan Model Besar

Teknologi jaringan hyperconnection (HC) sendiri adalah ide yang sangat baik, tetapi dalam aplikasi nyata menghadapi masalah utama. Arsitektur HC meningkatkan kinerja model dengan menambah koneksi jaringan, tetapi proses ini merusak sifat identitas mapping—yang merupakan sifat penting dalam pelatihan jaringan saraf, membantu aliran gradien agar lebih baik dan menjaga stabilitas pelatihan.

Akibatnya muncul dua konsekuensi langsung:

  • Pelatihan tidak stabil: aliran gradien terhambat, model sulit dikonvergensi
  • Skalabilitas terbatas: semakin besar model, masalahnya semakin nyata, sulit mendukung pelatihan model skala sangat besar

Bagi perusahaan yang mengincar model yang lebih besar dan lebih kuat, ini adalah hambatan yang tidak bisa diabaikan.

Ide Solusi Arsitektur mHC

Solusi dari DeepSeek sangat langsung: karena HC merusak sifat identitas mapping, maka kita kembalikan lagi.

Inovasi inti dari mHC terletak pada dua aspek:

Secara teori

Memetakan ruang residual connection HC ke manifold tertentu, dan dalam ruang geometris ini memulihkan sifat identitas mapping. Kedengarannya rumit, tetapi pada dasarnya adalah melalui pembatasan matematis, membuat jaringan tetap stabil selama pelatihan sekaligus menambah koneksi.

Secara engineering

Menggabungkan optimisasi infrastruktur yang ketat untuk memastikan efisiensi. Bukan sekadar peningkatan teori, tetapi memastikan arsitektur ini dapat berjalan secara efisien dalam pelatihan nyata.

Menurut penilaian tim makalah, perbaikan ini mencapai “peningkatan kinerja yang signifikan dan skalabilitas yang unggul”—yang berarti model dengan mHC tidak hanya lebih stabil saat pelatihan, tetapi juga dapat diskalakan ke ukuran yang lebih besar.

Mengapa Hal Ini Perlu Diperhatikan

Dari permukaan, ini adalah makalah teknologi. Tetapi ada beberapa poin penting yang patut dipikirkan:

Pengasahan teknologi yang berkelanjutan. DeepSeek tahun lalu mengguncang industri dengan keunggulan biaya, dan makalah baru ini menunjukkan bahwa perusahaan ini tidak berhenti pada keberhasilan komersial, tetapi terus berinvestasi dalam teknologi dasar. Fokus seperti ini sangat jarang.

Pendalaman desain arsitektur. Kompetisi model besar kini beralih dari “siapa yang punya parameter lebih banyak” ke “siapa yang punya arsitektur lebih unggul”. mHC mewakili arah kompetisi yang lebih rinci ini—menggunakan desain yang lebih cerdas untuk mengatasi masalah pelatihan, bukan hanya menumpuk sumber daya.

Arah evolusi model dasar. DeepSeek secara tegas menyatakan dalam makalah bahwa mHC “akan membantu pemahaman yang lebih mendalam tentang desain arsitektur topologi, dan menunjukkan arah yang menjanjikan untuk evolusi model dasar”. Ini menunjukkan mereka memandang perbaikan ini sebagai contoh yang berpotensi untuk pengembangan model besar di masa depan.

Ringkasan

Peluncuran arsitektur mHC menunjukkan bahwa DeepSeek terus berinvestasi dalam inovasi teknologi. Dengan memulihkan sifat identitas mapping dan menggabungkan optimisasi engineering, arsitektur baru ini mengatasi masalah nyata dari teknologi HC dalam pelatihan model besar. Meskipun perbaikan infrastruktur dasar ini tidak seatraktif peluncuran model baru, namun sangat penting untuk mendorong kemajuan teknologi model besar. Dalam konteks persaingan AI global yang semakin ketat, akumulasi teknologi semacam ini sedang menjadi kekuatan kompetitif utama perusahaan.

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)