GPT-4 став дурнішим, і з'ясувалося, що історія кешу відповіла: 800 разів розповіли анекдот, а новий я не слухав

巴比特_

2023-11-02 06:40:51

Першоджерело: кубіти

Джерело зображення: Створено Unbounded AI

Деякі користувачі мережі знайшли ще один доказ того, що GPT-4 став “дурним”.

Він запитав:

OpenAI кешуватиме історичні відповіді, дозволяючи GPT-4 безпосередньо переказувати раніше згенеровані відповіді.

Найяскравіший приклад цього – розповідати анекдоти.

Докази показують, що навіть коли він підвищив значення температури моделі, GPT-4 повторив ту саму реакцію «вчених і атомів».

Це питання: «Чому вчені не довіряють атомам?». Тому що все вигадують «їм».

Тут зрозуміло, що чим вище значення температури, тим легше моделі генерувати якісь несподівані слова, і один і той же жарт не повинен повторюватися.

Мало того, навіть якщо ми не перенесемо параметри, змінимо формулювання і наголосимо на тому, що він розповість новий, інший жарт, це не допоможе.

За словами шукача:

Це показує, що GPT-4 використовує не тільки кешування, але й кластерні запити, а не точний збіг із запитанням.

Переваги цього очевидні, а швидкість реакції може бути вищою.

Однак, оскільки я придбав членство за високою ціною, я отримую задоволення лише від такого сервісу пошуку кешу, і ніхто не задоволений.

Деякі люди відчувають, прочитавши її:

Якщо це так, то чи не є несправедливим те, що ми продовжуємо використовувати GPT-4 для оцінки відповідей інших великих моделей?

Звичайно, є й такі люди, які не думають, що це результат зовнішнього кешу, і, можливо, повторюваність відповідей у самій моделі настільки висока**:

Попередні дослідження показали, що ChatGPT повторює ті самі 25 жартів у 90% випадків.

Як ви це скажете?

Докази Real Hammer GPT-4 з кеш-відповіддю

Мало того, що він проігнорував значення температури, так ще й цей користувач мережі виявив:

Марно змінювати верхнє_p значення моделі, GPT-4 саме так і робить.

(top_p: Використовується для контролю автентичності результатів, що повертаються моделлю, і значення знижується, якщо ви хочете отримати більш точні та засновані на фактах відповіді, а відповіді, які є більш різноманітними, будуть перевернуті)

Єдиний спосіб зламати його - підтягнути параметр випадковості n, щоб ми могли отримати “некешовану” відповідь і отримати новий жарт.

Однак це відбувається «ціною» повільніших відповідей, оскільки існує затримка у створенні нового контенту.

Варто згадати, що інші, схоже, знайшли подібне явище на місцевій моделі.

Було висловлено припущення, що “префіксний збіг” на скріншоті, схоже, доводить, що кеш дійсно використовується.

Отже, питання полягає в тому, як саме велика модель кешує інформацію нашого чату?

Гарне запитання, з другого прикладу, показаного на початку, зрозуміло, що є якась операція «кластеризації», але ми не знаємо, як її застосувати до глибоких багатораундових розмов.

Незалежно від цього питання, деякі люди побачили це і згадали заяву ChatGPT про те, що «ваші дані зберігаються у нас, але як тільки чат закінчиться, вміст розмови буде видалено», і раптом зрозумів.

Це не може не змусити деяких людей почати турбуватися про безпеку даних:

Чи означає це, що чати, які ми ініціюємо, все ще зберігаються в їхній базі даних?

Звичайно, деякі люди можуть надмірно замислюватися над цим питанням:

Можливо, справа просто в тому, що наші кеші вбудовування запитів і відповідей зберігаються.

Отже, як говорив сам першовідкривач:

Я не дуже переживаю за саме кешування.
Я стурбований тим, що OpenAI настільки простий і грубий, щоб узагальнити наші запитання, щоб відповісти, незалежно від налаштувань, таких як температура, і безпосередньо агрегувати підказки з очевидно різними значеннями, що матиме поганий вплив і може «утилізувати» багато програм (на основі GPT-4).

Звичайно, не всі згодні з тим, що наведені вище висновки доводять, що OpenAI дійсно використовує кешовані відповіді.

Вони міркують тим, що випадок, прийнятий автором, виявляється жартом.

Адже в червні цього року двоє німецьких вчених провели тестування і виявили, що 90% з 1008 результатів ChatGPT розповідають випадковий анекдот є варіаціями тих самих 25 жартів.

Зокрема, «вчені та атоми» з’являються найчастіше – 119 разів.

Так ви зможете зрозуміти, чому виглядає так, ніби попередня відповідь кешована.

Тому деякі користувачі мережі також запропонували використовувати інші типи запитань, щоб перевірити, а потім побачити.

Однак автори наполягають на тому, що це не повинно бути проблемою, і що легко визначити, чи кешується він, просто вимірявши затримку.

Нарешті, давайте подивимося на це питання з «іншої точки зору»:

Що поганого в тому, що GPT-4 постійно розповідає анекдоти?

Хіба ми не завжди наголошували на необхідності великих моделей для отримання послідовних і надійних відповідей? Ні, наскільки вона слухняна (мануальна собача голова).

Отже, чи є у GPT-4 кеш чи ні, і чи спостерігали ви щось подібне?

Посилання на джерела:

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.