Akurasi LLM melonjak sebesar 27%! Google DeepMind mengusulkan teknologi baru "langkah mundur" yang mendorong

巴比特_

Sumber asli: Zhiyuan Baru

Sumber gambar: Dihasilkan oleh Unbounded AI

Beberapa waktu lalu, Google DeepMind mengusulkan metode “Step-Backing” baru, yang secara langsung membuat teknologi membuka otak.

Sederhananya, itu adalah membiarkan model bahasa besar mengabstraksi masalah dengan sendirinya, memperoleh konsep atau prinsip dimensi yang lebih tinggi, dan kemudian menggunakan pengetahuan abstrak sebagai alat untuk bernalar dan mendapatkan jawaban atas masalah tersebut.

Alamat:

Hasilnya juga sangat baik, karena mereka bereksperimen dengan model PaLM-2L dan membuktikan bahwa teknik baru ini dilakukan dengan sangat baik dalam menangani tugas dan masalah tertentu.

Misalnya, MMLU memiliki peningkatan 7% dalam kinerja fisik dan kimia, peningkatan 27% dalam TimeQA, dan peningkatan 7% dalam MuSiQue.

Diantaranya, MMLU adalah himpunan data tes pemahaman bahasa multi-tugas berskala besar, TimeOA adalah himpunan data uji pertanyaan sensitif waktu, dan MusiQue adalah himpunan data Tanya Jawab multi-hop yang berisi 25.000 pertanyaan 2-ke-4-hop.

Diantaranya, masalah multi-hop mengacu pada pertanyaan yang hanya dapat dijawab dengan menggunakan jalur inferensi multi-hop yang dibentuk oleh beberapa triple.

Di bawah ini, mari kita lihat bagaimana teknologi ini diterapkan.

Mundur!

Setelah membaca pendahuluan di awal, pembaca mungkin tidak terlalu memahaminya. Apa artinya bagi LLM untuk mengabstraksi masalah itu sendiri dan mendapatkan konsep atau prinsip dimensi yang lebih tinggi?

Mari kita ambil contoh spesifik.

Misalnya, jika pengguna ingin mengajukan pertanyaan yang berkaitan dengan “gaya” dalam fisika, maka LLM dapat mundur ke tingkat definisi dasar dan prinsip gaya ketika menjawab pertanyaan seperti itu, yang dapat digunakan sebagai dasar untuk alasan lebih lanjut tentang jawabannya.

Berdasarkan ide ini, ketika pengguna pertama kali masuk, kira-kira seperti ini:

Anda sekarang ahli dalam pengetahuan dunia, mahir berpikir dengan hati-hati dan menjawab pertanyaan langkah demi langkah dengan strategi pertanyaan mundur.

Melangkah mundur adalah strategi berpikir untuk memahami dan menganalisis masalah atau situasi tertentu dari perspektif yang lebih makro dan mendasar. Dengan demikian lebih baik menjawab pertanyaan asli.

Tentu saja, contoh fisika yang diberikan di atas hanya menggambarkan satu kasus. Dalam beberapa kasus, strategi back-down memungkinkan LLM untuk mencoba mengidentifikasi ruang lingkup dan konteks masalah. Beberapa masalah mundur sedikit lagi, dan beberapa jatuh lebih sedikit.

Tesis

Pertama, para peneliti menunjukkan bahwa bidang pemrosesan bahasa alami (NLP) telah mengantarkan revolusi terobosan dengan LLM berbasis Transformer.

Perluasan ukuran model dan peningkatan korpus pra-terlatih telah membawa peningkatan signifikan dalam kemampuan model dan efisiensi pengambilan sampel, serta kemampuan yang muncul seperti inferensi multi-langkah dan mengikuti instruksi.

Gambar di atas menunjukkan kekuatan penalaran mundur, dan metode “penalaran abstrak” yang diusulkan dalam makalah ini telah membuat perbaikan signifikan dalam berbagai tugas sulit yang membutuhkan penalaran kompleks, seperti sains, teknologi, teknik dan matematika, dan penalaran multi-hop.

Beberapa tugas sangat menantang, dan pada awalnya, PaLM-2L dan GPT-4 hanya 40% akurat pada TimeQA dan MuSiQue. Setelah menerapkan penalaran mundur, kinerja PaLM-2L telah meningkat di seluruh papan. Ini meningkat sebesar 7% dan 11% dalam fisika dan kimia MMLU, 27% di TimeQA, dan 7% di MuSiQue.

Tidak hanya itu, para peneliti juga melakukan analisis kesalahan, dan mereka menemukan bahwa sebagian besar kesalahan yang terjadi ketika menerapkan penalaran mundur adalah karena keterbatasan yang melekat pada kemampuan inferensi LLM, dan tidak terkait dengan teknologi baru.

Abstraksi lebih mudah bagi LLM untuk belajar, sehingga menunjukkan jalan menuju pengembangan lebih lanjut dari penalaran mundur.

Sementara kemajuan telah dibuat, penalaran multi-langkah yang kompleks dapat menjadi tantangan. Ini berlaku bahkan untuk LLM paling maju.

Makalah ini menunjukkan bahwa pengawasan proses dengan fungsi verifikasi langkah demi langkah adalah obat yang efektif untuk meningkatkan kebenaran langkah-langkah penalaran menengah.

Mereka memperkenalkan teknik seperti Chain-of-Thought prompts untuk menghasilkan serangkaian langkah inferensi menengah yang koheren, meningkatkan tingkat keberhasilan mengikuti jalur decoding yang benar.

Ketika berbicara tentang asal-usul teknologi PROMP ini, para peneliti menunjukkan bahwa ketika dihadapkan dengan tugas-tugas yang menantang, manusia cenderung mengambil langkah mundur dan abstrak, sehingga dapat memperoleh konsep dan prinsip tingkat tinggi untuk memandu proses penalaran.

Pada bagian atas gambar di atas, mengambil fisika SMA MMLU sebagai contoh, melalui abstraksi mundur, LLM memperoleh prinsip pertama dari hukum gas ideal.

Pada paruh kedua, ada contoh dari TimeQA, di mana konsep tingkat tinggi dari sejarah pendidikan adalah hasil abstraksi LLM berdasarkan strategi ini.

Dari sisi kiri seluruh diagram kita dapat melihat bahwa PaLM-2L tidak berhasil menjawab pertanyaan asli. Rantai pemikiran menunjukkan bahwa di tengah langkah penalaran, LLM membuat kesalahan (disorot dengan warna merah).

Dan di sebelah kanan, PaLM-2L, dengan penerapan teknologi terbelakang, berhasil menjawab pertanyaan itu.

Di antara banyak keterampilan kognitif, pemikiran abstrak ada di mana-mana untuk kemampuan manusia untuk memproses sejumlah besar informasi dan memperoleh aturan dan prinsip umum.

Untuk beberapa nama, Kepler menyaring ribuan pengukuran ke dalam Tiga Hukum Kepler tentang Gerak Planet, yang secara akurat menggambarkan orbit planet di sekitar matahari.

Atau, dalam pengambilan keputusan kritis, manusia juga menemukan abstraksi bermanfaat karena memberikan pandangan yang lebih luas tentang lingkungan.

Fokus dari makalah ini adalah bagaimana LLM dapat menangani tugas-tugas kompleks yang melibatkan banyak detail tingkat rendah melalui pendekatan abstraksi dan penalaran dua langkah.

Langkah pertama adalah mengajarkan LLM untuk mengambil langkah mundur dan memperoleh konsep abstrak tingkat tinggi dari contoh konkret, seperti konsep dasar dan prinsip pertama dalam suatu domain.

Langkah kedua adalah menggunakan keterampilan penalaran untuk mendasarkan solusi pada konsep tingkat tinggi dan prinsip pertama.

Para peneliti menggunakan sejumlah kecil contoh pada LLM untuk melakukan inferensi mundur. Mereka bereksperimen dalam serangkaian tugas yang melibatkan penalaran khusus domain, pemecahan masalah intensif pengetahuan, penalaran akal sehat multi-hop yang membutuhkan pengetahuan faktual.

Hasilnya menunjukkan bahwa kinerja PaLM-2L meningkat secara signifikan (hingga 27%), yang membuktikan bahwa inferensi mundur sangat efektif dalam menangani tugas-tugas kompleks.

Selama percobaan, para peneliti bereksperimen dengan berbagai jenis tugas berikut:

(1)BATANG

(2) Pengetahuan QA

(3) Penalaran multi-hop

Para peneliti mengevaluasi aplikasi dalam tugas-tugas STEM untuk mengukur efektivitas pendekatan baru dalam penalaran di bidang yang sangat khusus. (Artikel ini hanya akan membahas pertanyaan-pertanyaan seperti itu)

Jelas, masalah dalam tolok ukur MMLU membutuhkan penalaran yang lebih dalam dari pihak LLM. Selain itu, mereka membutuhkan pemahaman dan penerapan formula, yang seringkali merupakan prinsip dan konsep fisik dan kimia.

Dalam hal ini, peneliti pertama-tama mengajarkan model yang akan diabstraksikan dalam bentuk konsep dan prinsip pertama, seperti hukum gerak pertama Newton, efek Doppler, dan energi bebas Gibbs. Pertanyaan langkah mundur yang tersirat di sini adalah, “Apa prinsip dan konsep fisik atau kimia yang terlibat dalam menyelesaikan tugas ini?”

Tim memberikan demonstrasi yang mengajarkan model untuk menghafal prinsip-prinsip pemecahan tugas dari pengetahuan mereka sendiri.

Tabel di atas menunjukkan kinerja model menggunakan teknik inferensi mundur, dan LLM dengan teknologi baru berkinerja baik dalam tugas STEM, mencapai tingkat paling maju di luar GPT-4.

Tabel di atas adalah contoh dari sejumlah kecil sampel dan menunjukkan kinerja yang kuat dengan berbagai ukuran sampel.

Pertama, seperti yang dapat kita lihat dari grafik di atas, inferensi mundur sangat kuat untuk sejumlah kecil contoh yang digunakan sebagai demonstrasi.

Selain satu contoh, hal yang sama akan berlaku untuk menambahkan lebih banyak contoh.

Ini menunjukkan bahwa tugas mengambil prinsip dan konsep yang relevan relatif mudah dipelajari, dan contoh demonstrasi sudah cukup.

Tentu saja, selama percobaan, masih akan ada beberapa masalah.

Lima jenis kesalahan yang terjadi pada semua makalah, kecuali kesalahan prinsip, terjadi pada langkah penalaran LLM, sedangkan kesalahan prinsip menunjukkan kegagalan langkah abstraksi.

Seperti yang dapat Anda lihat di sisi kanan gambar di bawah ini, kesalahan prinsip sebenarnya hanya menyumbang sebagian kecil dari kesalahan model, dengan lebih dari 90% kesalahan terjadi pada langkah inferensi. Dari empat jenis kesalahan dalam proses penalaran, kesalahan penalaran dan kesalahan matematika adalah tempat utama di mana kesalahan berada.

Hal ini sejalan dengan temuan dalam studi ablasi bahwa hanya beberapa contoh yang diperlukan untuk mengajarkan LLM bagaimana abstrak. Langkah inferensi masih menjadi hambatan bagi inferensi mundur untuk menyelesaikan tugas yang memerlukan inferensi kompleks, seperti MMLU.

Hal ini terutama berlaku untuk MMLU Fisika, di mana penalaran dan keterampilan matematika adalah kunci keberhasilan pemecahan masalah. Ini berarti bahwa bahkan jika LLM mengambil prinsip-prinsip pertama dengan benar, masih harus melalui proses penalaran multi-langkah yang khas untuk sampai pada jawaban akhir yang benar, yang mengharuskan LLM untuk memiliki penalaran yang mendalam dan keterampilan matematika.

Para peneliti kemudian mengevaluasi model pada set tes TimeQA.

Seperti yang ditunjukkan pada gambar di bawah ini, model dasar GPT-4 dan PaLM-2L masing-masing mencapai 45, 6% dan 41, 5%, menyoroti kesulitan tugas.

CoT atau TDB diterapkan nol kali (dan sekali) pada model dasar tanpa perbaikan apa pun.

Sebaliknya, akurasi model dasar yang ditingkatkan dengan augmentasi pengambilan reguler (RAG) meningkat menjadi 57,4%, menyoroti sifat tugas yang intensif fakta.

Hasil Step-Back + RAG menunjukkan bahwa LLM kembali ke langkah konsep lanjutan sangat efektif dalam inferensi mundur, yang membuat tautan pengambilan LLM lebih andal, dan kita dapat melihat bahwa TimeQA memiliki akurasi 68,7% yang mencengangkan.

Selanjutnya, para peneliti membagi TimeQA menjadi dua tingkat kesulitan: mudah dan sulit yang disediakan dalam dataset asli.

Tidak mengherankan, LLM semua berkinerja buruk pada tingkat yang sulit. Sementara RAG mampu meningkatkan akurasi dari 42,6% menjadi 67,8% pada tingkat mudah, peningkatannya jauh lebih kecil untuk tingkat keras, dengan data hanya menunjukkan peningkatan dari 40,4% menjadi 46,8%.

Dan di sinilah teknik penalaran mundur masuk, karena mengambil fakta tentang konsep tingkat tinggi dan meletakkan dasar untuk penalaran akhir.

Penalaran mundur ditambah RAG semakin meningkatkan akurasi menjadi 62,3%, melampaui GPT-4 42,6%.

Tentu saja, masih ada beberapa masalah dengan teknologi ini ketika datang ke TimeQA.

Gambar di bawah ini menunjukkan keakuratan LLM di bagian percobaan ini, dan probabilitas kesalahan yang terjadi di sebelah kanan.

Sumber daya:

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar