DeepSeek, sebuah perusahaan kecerdasan buatan berbasis di Hangzhou, telah menambahkan kemampuan pengenalan gambar dan video ke chatbot utamanya melalui fitur baru “image recognition mode”, sehingga menyamakannya dengan chatbot AI besar lainnya. Peluncuran tersebut bertepatan dengan tonggak penting dalam rantai pasok chip China, ketika empat perusahaan semikonduktor domestik—Huawei Ascend, Cambricon, Hygon Information, dan Moore Threads—mengonfirmasi dukungan pada hari yang sama untuk model andalan terbaru DeepSeek, DeepSeek-V4, menandai pergeseran dari periode adaptasi panjang yang lazim terjadi pada bulan-bulan sebelumnya di luar ekosistem Nvidia.

Visi DeepSeek dan Ekspansi Model

DeepSeek diam-diam meluncurkan mode pengenalan gambar bersamaan dengan dua mode lain yang diluncurkan lebih awal pada bulan ini: “expert” dan “flash.” Menurut Chen Xiaokang, yang memimpin tim multimodal DeepSeek, alat tersebut pertama kali diuji pada kelompok kecil pengguna di situs web dan aplikasi seluler. Chen Deli, peneliti senior di perusahaan tersebut, merayakan peluncuran dengan sebuah unggahan yang merujuk logo perusahaan: “Lumba-lumba kecil kini bisa melihat.”

Fitur gambar dan video hadir hanya beberapa hari setelah DeepSeek merilis pratinjau DeepSeek-V4 dan membuat bobot model tersedia untuk unduhan dan penggunaan publik. V4 disusun sebagai dua model berbeda: DeepSeek-V4-Pro, dengan 1,6 triliun parameter yang dirancang untuk penalaran kompleks dan alur kerja otomatis multi-langkah, serta DeepSeek-V4-Flash, yang dioptimalkan untuk menangani volume permintaan besar dengan biaya lebih rendah. Kedua model mendukung context window sebesar satu juta token dan menggunakan desain hybrid attention yang diklaim perusahaan dapat mengurangi kebutuhan daya komputasi dan memori selama inferensi.

Pabrikan Chip Tiongkok Mencapai Dukungan Peluncuran pada Hari yang Sama

Yang menarik perhatian industri bukan hanya model itu sendiri, melainkan dukungan perangkat keras yang terkoordinasi yang ditunjukkan pada hari rilis V4. Huawei Ascend mengonfirmasi kompatibilitas dengan chip A2, A3, dan 950-nya, dengan Ascend 950 menggunakan proses komputasi terfusi dan aliran pemrosesan paralel untuk mempercepat inferensi untuk V4-Pro dan V4-Flash. Cambricon menyelesaikan adaptasinya menggunakan kerangka kerja inferensi vLLM berbasis open-source dan mempublikasikan kodenya di GitHub. Hygon Information melakukan optimasi mendalam model di platform DCU-nya untuk memungkinkan transisi yang mulus dari rilis model ke deployment. Moore Threads bekerja sama dengan Beijing Academy of Artificial Intelligence untuk menjalankan V4 pada kartu MTT S5000-nya menggunakan tumpukan perangkat lunak FlagOS.

Dukungan pada hari yang sama di berbagai chipset ini menandai perubahan dari pola historis. Sebelumnya, perangkat keras di luar ekosistem Nvidia umumnya memerlukan waktu berbulan-bulan untuk mendukung model-model besar baru. Pengamat industri mencatat bahwa pencapaian kompatibilitas di empat chipset chip domestik yang berbeda pada hari peluncuran menandakan adanya pergeseran nyata dalam kematangan infrastruktur semikonduktor dan AI China.

Implikasi Strategis: Biaya dan Kemandirian Rantai Pasok

Signifikansi yang lebih luas dari peluncuran DeepSeek melampaui pencapaian teknis individual. Dengan memungkinkan V4 berjalan secara native pada beberapa chip China secara bersamaan, DeepSeek mengurangi risiko ketergantungan dari pembatasan ekspor yang selama ini menghalangi perusahaan-perusahaan China mengakses prosesor Amerika yang paling canggih. Efisiensi biaya tetap menjadi inti strategi DeepSeek—perusahaan telah memprioritaskan menjaga biaya operasi model tetap rendah, sehingga bisnis dapat membangun sistem otomatis tanpa biaya komputasi yang memberatkan.

Pengamat industri menggambarkan rilis ini sebagai cerminan dari seluruh rantai pasok yang semakin matang, bukan sekadar satu terobosan teknologi. Koordinasi antara DeepSeek, produsen chip, dan kerangka kerja perangkat lunak menunjukkan perkembangan ekosistem yang terintegrasi. Alur ini mengisyaratkan lanskap kompetitif di AI bergeser dari fokus pada kecanggihan model individual menuju kemampuan untuk mempertahankan sistem yang lengkap, hemat biaya, dan independen dalam jangka panjang.

FAQ

Kapabilitas baru apa yang ditambahkan DeepSeek ke chatbotnya?
DeepSeek menambahkan “image recognition mode” yang memungkinkan chatbot-nya memahami foto dan video, tidak hanya teks. Fitur ini pertama kali diuji pada kelompok kecil pengguna di situs web dan aplikasi seluler, sehingga kemampuan DeepSeek selaras dengan chatbot AI besar lainnya yang menawarkan kemampuan serupa.

Perusahaan chip Tiongkok mana yang mendukung DeepSeek-V4 pada hari peluncuran?
Empat perusahaan chip Tiongkok mengonfirmasi dukungan pada hari yang sama untuk DeepSeek-V4: Huawei Ascend (dengan chip A2, A3, dan 950), Cambricon, Hygon Information, dan Moore Threads. Kompatibilitas pada hari yang sama di berbagai chipset sebelumnya jarang terjadi di luar ekosistem Nvidia, yang biasanya memerlukan waktu berbulan-bulan untuk pekerjaan adaptasi.

Apa dua versi DeepSeek-V4 dan bagaimana perbedaannya?
DeepSeek-V4-Pro memiliki 1,6 triliun parameter dan dirancang untuk penalaran kompleks serta alur kerja otomatis multi-langkah, sedangkan DeepSeek-V4-Flash dioptimalkan untuk menangani volume permintaan besar dengan biaya lebih rendah. Kedua model mendukung context window sebesar satu juta token dan menggunakan desain hybrid attention untuk mengurangi kebutuhan daya komputasi dan memori.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

RugProofRita

· 24menit yang lalu

Baru saja mencoba pengenalan gambar, pemahaman bahasa Mandarin memang lebih baik daripada salah satu perusahaan.

Lihat AsliBalas0

ybaser

· 1jam yang lalu

Tahanlah, HODL💎 Tahanlah, HODL💎

Lihat AsliBalas0

GateUser-0b71fc11

· 2jam yang lalu

Dari teks murni ke multimodal, menyelesaikan jalur orang lain dalam setengah tahun yang biasanya memakan waktu dua tahun

Lihat AsliBalas0

MirrorBallGazingAtTheSky

· 2jam yang lalu

Jangan cuma pamer, apakah masalah ilusi RAG sudah terselesaikan?

Lihat AsliBalas0

GateUser-ced0257a

· 2jam yang lalu

Pengakuan video? Minta pengujian stabilitas untuk skenario yang kompleks

Lihat AsliBalas0

GateUser-8f9ccfec

· 2jam yang lalu

Waktu rilis ini sangat tepat, pas untuk memanfaatkan tren chip terbaru

Lihat AsliBalas0

GateUser-cb789e81

· 2jam yang lalu

Mengurangi biaya adalah kemampuan sejati, tunggu harga API

Lihat AsliBalas0

GasFeeAnxiety

· 2jam yang lalu

Kali pertanyaan terakhir: Kapan akan dibuka untuk pengguna gratis

Lihat AsliBalas0

GateUser-f78f1f3e

· 2jam yang lalu

Tonggak sejarah chip + peningkatan fungsi, dua kabar baik datang bersamaan?

Lihat AsliBalas0

GateUser-06596f3b

· 2jam yang lalu

Lintasan multimodal saat ini tidak memiliki fitur ini, maaf tidak bisa keluar rumah

Lihat AsliBalas0

Lihat Lebih Banyak