GPT-4 menjadi lebih bodoh, dan terungkap bahwa riwayat cache menjawab: lelucon diceritakan 800 kali, dan saya tidak mendengarkan yang baru

2023-11-02 06:40:51

Sumber asli: qubits

Sumber gambar: Dihasilkan oleh Unbounded AI

Beberapa netizen menemukan bukti lain bahwa GPT-4 telah menjadi “bodoh”.

Dia mempertanyakan:

OpenAI akan menyimpan respons historis, memungkinkan GPT-4 untuk secara langsung menceritakan kembali jawaban yang dihasilkan sebelumnya.

Contoh paling jelas dari hal ini adalah menceritakan lelucon.

Bukti menunjukkan bahwa bahkan ketika ia menaikkan nilai suhu model, GPT-4 mengulangi respons “ilmuwan dan atom” yang sama.

Ini adalah “Mengapa para ilmuwan tidak mempercayai atom?” Karena semuanya dibuat-buat" oleh mereka".

Di sini, masuk akal bahwa semakin tinggi nilai suhu, semakin mudah bagi model untuk menghasilkan beberapa kata yang tidak terduga, dan lelucon yang sama tidak boleh diulang.

Tidak hanya itu, tetapi bahkan jika kita tidak memindahkan parameter, ** mengubah kata-kata **, dan menekankan agar itu menceritakan lelucon ** baru, berbeda **, itu tidak akan membantu.

Menurut penemu:

Ini menunjukkan bahwa GPT-4 tidak hanya menggunakan caching, tetapi juga clustered queries daripada mencocokkan pertanyaan dengan tepat.

Manfaatnya terbukti dengan sendirinya, dan kecepatan responsnya bisa lebih cepat.

Namun, karena saya membeli keanggotaan dengan harga tinggi, saya hanya menikmati layanan pengambilan cache seperti itu, dan tidak ada yang senang.

Beberapa orang merasa setelah membacanya:

Jika itu masalahnya, bukankah tidak adil bahwa kita terus menggunakan GPT-4 untuk mengevaluasi jawaban dari model besar lainnya?

Tentu saja, ada juga orang yang tidak berpikir bahwa ini adalah hasil dari cache eksternal, dan mungkin pengulangan jawaban dalam model itu sendiri sangat tinggi **:

Penelitian sebelumnya telah menunjukkan bahwa ChatGPT mengulangi 25 lelucon yang sama 90% dari waktu.

Bagaimana Anda mengatakan itu?

Bukti Real Hammer GPT-4 dengan Cache Balas

Tidak hanya dia mengabaikan nilai suhu, tetapi netizen ini juga menemukan:

Tidak ada gunanya mengubah nilai _p atas model, GPT-4 melakukan hal itu.

(top_p: Ini digunakan untuk mengontrol keaslian hasil yang dikembalikan oleh model, dan nilainya diturunkan jika Anda menginginkan jawaban yang lebih akurat dan berbasis fakta, dan jawaban yang lebih beragam muncul)

Satu-satunya cara untuk memecahkannya adalah dengan menarik parameter keacakan n sehingga kita bisa mendapatkan jawaban “non-cache” dan mendapatkan lelucon baru.

Namun, itu datang dengan “biaya” tanggapan yang lebih lambat, karena ada keterlambatan dalam menghasilkan konten baru.

Perlu disebutkan bahwa orang lain tampaknya telah menemukan fenomena serupa pada model lokal.

Telah disarankan bahwa “hit awalan-pertandingan” di tangkapan layar tampaknya membuktikan bahwa cache memang digunakan.

Jadi pertanyaannya adalah, bagaimana tepatnya model besar itu menyimpan informasi obrolan kita?

Pertanyaan bagus, dari contoh kedua yang ditunjukkan di awal, jelas bahwa ada semacam operasi “pengelompokan”, tetapi kami tidak tahu bagaimana menerapkannya pada percakapan multi-putaran yang mendalam.

Terlepas dari pertanyaan ini, beberapa orang melihat ini dan mengingat pernyataan ChatGPT bahwa “data Anda disimpan bersama kami, tetapi begitu obrolan berakhir, konten percakapan akan dihapus”, dan tiba-tiba menyadari.

Ini tidak bisa membantu tetapi membuat beberapa orang mulai khawatir tentang keamanan data:

Apakah ini berarti bahwa obrolan yang kami mulai masih disimpan dalam database mereka?

Tentu saja, beberapa orang mungkin terlalu memikirkan masalah ini:

Mungkin hanya karena penyematan kueri dan cache jawaban kami disimpan.

Jadi, seperti yang dikatakan penemunya sendiri:

saya tidak terlalu khawatir tentang caching itu sendiri.
saya khawatir OpenAI sangat sederhana dan kasar untuk meringkas pertanyaan kami untuk dijawab, terlepas dari pengaturan seperti suhu, dan secara langsung mengumpulkan petunjuk dengan arti yang jelas berbeda, yang akan berdampak buruk dan dapat “memo” banyak aplikasi (berbasis GPT-4).

Tentu saja, tidak semua orang setuju bahwa temuan di atas membuktikan bahwa OpenAI benar-benar menggunakan balasan cache.

Alasan mereka adalah bahwa kasus yang diadopsi oleh penulis kebetulan adalah lelucon.

Lagi pula, pada bulan Juni tahun ini, dua sarjana Jerman menguji dan menemukan bahwa 90% dari 1.008 hasil ChatGPT yang menceritakan lelucon acak adalah variasi dari 25 lelucon yang sama.

“Ilmuwan dan atom” muncul paling sering khususnya, dengan 119 kali.

Jadi Anda dapat memahami mengapa sepertinya jawaban sebelumnya di-cache.

Oleh karena itu, beberapa netizen juga mengusulkan untuk menggunakan jenis pertanyaan lain untuk diuji dan kemudian dilihat.

Namun, penulis bersikeras bahwa itu tidak harus menjadi masalah, dan mudah untuk mengetahui apakah itu di-cache hanya dengan mengukur latensi.

Akhirnya, mari kita lihat pertanyaan ini dari “perspektif yang berbeda”:

Apa yang salah dengan GPT-4 menceritakan lelucon sepanjang waktu?

Bukankah kita selalu menekankan perlunya model besar untuk menghasilkan jawaban yang konsisten dan dapat diandalkan? Tidak, seberapa patuh itu (kepala anjing manual).

Jadi, apakah GPT-4 memiliki cache atau tidak, dan apakah Anda mengamati hal serupa?

Link Referensi:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.