Точність LLM злетіла на 27%! Google DeepMind пропонує нову технологію підказок «крок назад»

巴比特_

2023-12-01 05:28:12

Першоджерело: Новий Чжиюань

Джерело зображення: Створено Unbounded AI

Деякий час тому Google DeepMind запропонував новий метод «Step-Backing», який безпосередньо зробив технологію відкриттям мозку.

Простіше кажучи, це дозволити великій мовній моделі абстрагувати проблему саму по собі, отримати концепцію або принцип вищої розмірності, а потім використовувати абстрактні знання як інструмент для міркувань і отримання відповіді на проблему.

Адреса:

Результати також були дуже хорошими, оскільки вони експериментували з моделлю PaLM-2L і довели, що ця нова техніка дуже добре справляється з певними завданнями та проблемами.

Наприклад, MMLU має покращення фізико-хімічних показників на 7%, TimeQA на 27%, MuSiQue – на 7%.

Серед них MMLU — це великомасштабний багатозадачний тестовий набір даних для розуміння мови, TimeOA — тестовий набір із чутливими до часу запитаннями, а MusiQue — це набір даних із кількома переходами запитань і відповідей, що містить 25 000 запитань від 2 до 4 стрибків.

Серед них, задача з кількома стрибками відноситься до питання, на яке можна відповісти лише за допомогою шляху виведення кількох стрибків, утвореного кількома трійками.

Нижче розглянемо, як реалізується ця технологія.

Відступи!

Прочитавши вступ на початку, читачі можуть не надто зрозуміти його. Що означає для LLM абстрагуватися від проблеми самостійно і отримати концепцію або принцип вищої розмірності?

Розглянемо конкретний приклад.

Наприклад, якщо користувач хоче задати питання, пов’язане з «силою» у фізиці, то ЛЛМ може відступити до рівня основного визначення і принципу сили при відповіді на таке питання, що може бути використано як основа для подальших міркувань про відповідь.

Виходячи з цієї ідеї, коли користувач вперше вводить, це приблизно так:

Тепер ви експерт зі світових знань, вмієте ретельно думати та відповідати на запитання крок за кроком за допомогою стратегії зворотних запитань.

Крок назад – це стратегія мислення, спрямована на розуміння та аналіз певної проблеми чи ситуації з більш макро, фундаментальної точки зору. Таким чином, краще відповісти на початкове питання.

Звичайно, приклад з фізики, наведений вище, ілюструє лише один випадок. У деяких випадках стратегія відступу може дозволити LLM спробувати визначити масштаб і контекст проблеми. Деякі проблеми відступають трохи більше, а деякі менше.

Дисертації

По-перше, дослідники зазначають, що сфера обробки природної мови (NLP) започаткувала проривну революцію з LLM на основі трансформаторів.

Розширення розміру моделі та збільшення попередньо навченого корпусу принесли значне покращення можливостей моделі та ефективності вибірки, а також нові можливості, такі як багатоетапне висновування та слідування інструкціям.

Наведений вище малюнок показує силу зворотного міркування, а метод «абстрактного міркування», запропонований у цій роботі, значно покращив різноманітні складні завдання, що вимагають складних міркувань, таких як наука, техніка, інженерія та математика, а також міркування з кількома стрибками.

Деякі завдання були дуже складними, і спочатку PaLM-2L і GPT-4 були точними лише на 40% на TimeQA і MuSiQue. Після застосування зворотних міркувань продуктивність PaLM-2L покращилася в усіх напрямках. Він покращився на 7% та 11% у фізиці та хімії MMLU, на 27% у TimeQA та на 7% у MuSiQue.

Мало того, дослідники також провели аналіз помилок, і вони виявили, що більшість помилок, які виникають при застосуванні зворотних міркувань, пов’язані з невід’ємними обмеженнями здатності LLM до висновків і не пов’язані з новими технологіями.

Абстракція легше засвоюється LLM, тому вона вказує шлях до подальшого розвитку зворотного мислення.

Незважаючи на те, що прогрес був досягнутий, складні багатокрокові міркування можуть бути складними. Це справедливо навіть для найбільш просунутих LLM.

У даній роботі показано, що нагляд за процесом з функцією покрокової перевірки є ефективним засобом для підвищення правильності проміжних кроків міркування.

Вони представили такі методи, як підказки Chain-of-Thought, щоб згенерувати послідовну серію проміжних кроків висновування, підвищуючи рівень успіху слідування правильному шляху декодування.

Говорячи про походження цієї технології PROMP, дослідники зазначили, що, стикаючись зі складними завданнями, люди, як правило, роблять крок назад і абстрагуються, щоб вивести високорівневі концепції та принципи, які керують процесом міркування.

У верхній частині малюнка вище, взявши за приклад фізику середньої школи ММЛУ, шляхом зворотної абстракції, LLM отримує перший принцип закону ідеального газу.

У другій половині наводиться приклад з TimeQA, де високорівнева концепція історії освіти є результатом абстракції LLM на основі цієї стратегії.

З лівого боку всієї діаграми видно, що PaLM-2L не зміг відповісти на початкове питання. Ланцюжок думок вказує на те, що в середині кроку міркування LLM допустив помилку (виділено червоним кольором).

А праворуч PaLM-2L із застосуванням зворотної технології успішно відповів на питання.

Серед безлічі когнітивних навичок повсюдно використовується абстрактне мислення через здатність людини обробляти великі обсяги інформації та виводити загальні правила та принципи.

Наприклад, Кеплер вклав тисячі вимірювань у «Три закони руху планет» Кеплера, які точно описують орбіти планет навколо Сонця.

Або ж у прийнятті критичних рішень люди також вважають абстракцію корисною, оскільки вона забезпечує ширший погляд на навколишнє середовище.

Основна увага в цій статті зосереджена на тому, як LLM можуть справлятися зі складними завданнями, пов’язаними з безліччю низькорівневих деталей, за допомогою двоступеневого підходу абстракції та міркування.

Перший крок полягає в тому, щоб навчити LLM робити крок назад і виводити високорівневі абстрактні концепції з конкретних прикладів, таких як фундаментальні концепції та перші принципи в домені.

Другим кроком є використання навичок міркування, щоб засновувати рішення на концепціях високого рівня та перших принципах.

Дослідники використовували невелику кількість прикладів на LLM для виконання зворотного висновування. Вони експериментували в серії завдань, пов’язаних з предметно-специфічними міркуваннями, наукомістким розв’язанням проблем, багатострибковими міркуваннями здорового глузду, які вимагали фактичних знань.

Результати показують, що продуктивність PaLM-2L значно покращується (до 27%), що доводить, що зворотне висновування дуже ефективно при вирішенні складних завдань.

Під час експериментів дослідники експериментували з наступними різними видами завдань:

(1)СТЕБЛО

(2) Знання QA

(3) Міркування з декількома стрибками

Дослідники оцінили застосування в STEM-завданнях для вимірювання ефективності нового підходу в міркуваннях у вузькоспеціалізованих галузях. (У цій статті ми розглянемо лише такі питання)

Очевидно, що проблема в бенчмарку MMLU вимагає більш глибоких міркувань з боку LLM. Крім того, вони вимагають розуміння і застосування формул, які часто є фізичними і хімічними принципами і поняттями.

У цьому випадку дослідник спочатку вчить модель абстрагуватися у вигляді понять і перших принципів, таких як перший закон руху Ньютона, ефект Доплера, вільна енергія Гіббса. Тут мається на увазі запитання: «Які фізичні або хімічні принципи та концепції беруть участь у вирішенні цього завдання?»

Команда провела демонстрації, які навчили модель запам’ятовувати принципи вирішення завдань на основі власних знань.

Наведена вище таблиця показує продуктивність моделі з використанням техніки зворотного висновування, і LLM з новою технологією добре показав себе в завданнях STEM, досягнувши найбільш просунутого рівня за межами GPT-4.

Наведена вище таблиця є прикладом невеликої кількості зразків і демонструє надійну продуктивність при різних розмірах вибірки.

По-перше, як ми бачимо з наведеного вище графіка, зворотне висновування є дуже стійким до невеликого числа прикладів, які використовуються як демонстрації.

На додаток до одного прикладу, те ж саме буде справедливо і для додавання більшої кількості прикладів.

Це говорить про те, що завдання пошуку відповідних принципів і концепцій відносно легко засвоїти, і досить демонстраційного прикладу.

Звичайно, в ході експерименту все одно виникнуть деякі проблеми.

П’ять типів помилок, які зустрічаються у всіх роботах, за винятком принципових помилок, зустрічаються на етапі міркування LLM, тоді як основні помилки вказують на невдачу кроку абстракції.

Як ви можете бачити в правій частині малюнка нижче, основні помилки насправді становлять лише невелику частку помилок моделі, причому понад 90% помилок виникають на етапі виведення. З чотирьох типів помилок в процесі міркувань помилки в міркуваннях і математичні помилки є основними місцями, де локалізуються помилки.

Це узгоджується з висновками абляційних досліджень про те, що потрібно лише кілька прикладів, щоб навчити LLM абстрагуватися. Крок логічного висновку все ще є вузьким місцем для зворотного висновування для виконання завдань, які вимагають складного висновку, таких як MMLU.

Це особливо актуально для MMLU Physics, де міркування та математичні навички є ключовими для успішного вирішення проблем. Це означає, що навіть якщо LLM правильно засвоїть перші принципи, він все одно повинен пройти типовий багатоетапний процес міркування, щоб прийти до правильної остаточної відповіді, що вимагає від LLM глибоких міркувань і математичних навичок.

Потім дослідники оцінили модель на тестовому наборі TimeQA.

Як показано на малюнку нижче, базові моделі GPT-4 і PaLM-2L досягли 45,6% і 41,5% відповідно, що підкреслює складність завдання.

CoT або TDB застосовувалися нуль разів (і один раз) на базовій моделі без будь-яких поліпшень.

На противагу цьому, точність базової моделі, підвищена за рахунок регулярного пошуку (RAG), зросла до 57,4%, що підкреслює фактомісткий характер завдання.

Результати Step-Back + RAG показують, що крок повернення LLM до розширених концепцій є дуже ефективним у зворотному висновуванні, що робить посилання на пошук LLM більш надійним, і ми бачимо, що TimeQA має дивовижну точність 68,7%.

Далі дослідники розділили TimeQA на два рівні складності: легкий і складний, передбачений в оригінальному наборі даних.

Не дивно, що всі LLM погано працюють на складному рівні. У той час як RAG зміг підвищити точність з 42,6% до 67,8% на легкому рівні, покращення було набагато меншим для жорсткого рівня, дані показали лише збільшення з 40,4% до 46,8%.

І тут на допомогу приходить техніка зворотного міркування, оскільки вона витягує факти про концепції вищого рівня та закладає основу для остаточного міркування.

Зворотні міркування плюс RAG ще більше підвищили точність до 62,3%, перевищивши 42,6% GPT-4.

Звичайно, з цією технологією все ще є деякі проблеми, коли справа доходить до TimeQA.

На малюнку нижче показана точність LLM в цій частині експерименту і ймовірність виникнення помилки справа.

Ресурси:

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів