Міркування GPT-4 більше схоже на людину! Академія наук Китаю запропонувала «Мисливу комунікацію», аналогічне мислення повністю перемагає CoT, plug and play

2023-10-10 08:47:04

Перше джерело: Xinzhiyuan

Джерело зображення: створено Unbounded AI

Нині з’явилися гігантські моделі нейронних мереж, такі як GPT-4 і PaLM, які продемонстрували дивовижні можливості навчання на кількох зразках.

Отримавши прості підказки, вони можуть міркувати про текст, писати історії, відповідати на запитання, програмувати…

Проте LLM часто програє людям у складних, багатоетапних завданнях міркування та бореться безрезультатно.

У зв’язку з цим дослідники з Академії наук Китаю та Єльського університету запропонували нову структуру «розповсюдження думки», яка може покращити міркування LLM за допомогою «аналогічного мислення».

Адреса паперу:

«Поширення думок» надихається людським пізнанням, яке полягає в тому, що коли ми стикаємося з новою проблемою, ми часто порівнюємо її з подібними проблемами, які ми вже вирішили, щоб вивести стратегії.

Тому суть цього методу полягає в тому, щоб дозволити LLM досліджувати «схожі» проблеми, пов’язані з вхідними даними, перш ніж розв’язувати вхідну проблему.

Нарешті, їхні рішення можна використовувати з коробки або отримувати інформацію для корисного планування.

Можна передбачити, що «розумне спілкування» пропонує нові ідеї щодо властивих обмежень логічних можливостей LLM, що дозволяє великим моделям використовувати «аналогію» для вирішення проблем, як люди.

Багатоетапне міркування LLM, переможене людьми

Очевидно, що LLM добре справляється з основними міркуваннями, заснованими на підказках, але все ще відчуває труднощі при роботі зі складними багатоетапними проблемами, такими як оптимізація та планування.

Люди, з іншого боку, спираються на інтуїцію з подібного досвіду для вирішення нових проблем.

Великі моделі не можуть цього зробити через властиві їм обмеження.

Оскільки знання LLM походять виключно з шаблонів у навчальних даних, вони не можуть справді зрозуміти мову чи концепції. Тому, як статистичні моделі, вони складні для виконання складних комбінаторних узагальнень.

Найважливішим є те, що LLM не має здібностей до систематичних міркувань і не може міркувати крок за кроком, як люди, для вирішення складних проблем.

Крім того, міркування великих моделей є локальними та «недалекоглядними», тому LLM важко знайти найкраще рішення та підтримувати послідовність міркувань протягом тривалого періоду часу.

Коротше кажучи, недоліки великих моделей у математичних доказах, стратегічному плануванні та логічних міркуваннях в основному походять із двох основних проблем:

**- Неможливість повторно використовувати інформацію з попереднього досвіду. **

Люди накопичують багаторазові знання та інтуїцію з практики, які допомагають вирішувати нові проблеми. Навпаки, LLM підходить до кожної проблеми «з нуля» і не запозичує попередні рішення.

**- Складні помилки в багатоетапному міркуванні. **

Люди відстежують власні ланцюжки міркувань і за необхідності змінюють початкові кроки. Але помилки, зроблені LLM на ранніх стадіях міркування, посилюються, оскільки вони ведуть наступні міркування хибним шляхом.

Зазначені вище недоліки серйозно перешкоджають застосуванню LLM для вирішення складних завдань, які вимагають глобальної оптимізації або довгострокового планування.

У зв’язку з цим дослідники запропонували абсолютно нову комунікацію, що передбачає розробку рішень.

TP Framework

Завдяки аналогічному мисленню LLM може міркувати більше, як люди.

На думку дослідників, міркування з нуля не може повторно використовувати ідеї, отримані від вирішення подібних проблем, і помилки будуть накопичуватися на проміжних етапах міркування.

«Поширення думок» може досліджувати схожі проблеми, пов’язані з проблемою введення, і черпати натхнення з рішень подібних проблем.

На малюнку нижче показано порівняння між “Поширенням думки” (TP) та іншими репрезентативними технологіями. Для вхідної проблеми p, IO, CoT і ToT будуть міркувати з нуля, щоб прийти до рішення s.

Зокрема, ТП включає три етапи:

**1. Ставте схожі запитання: **LLM генерує набір подібних запитань, які мають схожість із введеним запитанням за допомогою підказок. Це допоможе моделі отримати потенційно відповідний попередній досвід.

**2. Вирішуйте подібні проблеми: ** Дозвольте LLM вирішувати кожну подібну проблему за допомогою існуючої технології підказок, такої як CoT.

**3. Узагальнення рішень: **Існує 2 різні підходи: безпосереднє визначення нових рішень проблеми введення на основі аналогічних рішень; отримання планів або стратегій високого рівня шляхом порівняння аналогічних рішень проблеми введення.

Це дозволяє великим моделям повторно використовувати попередній досвід і евристики, а також перехресно перевіряти свої початкові міркування аналогічними рішеннями для вдосконалення цих рішень.

Варто зазначити, що «розповсюдження думки» не має нічого спільного з моделлю і може виконати один крок вирішення проблеми на основі будь-якого підказкового методу.

Ключова новизна цього методу полягає в стимулюванні аналогічного мислення LLM для керування складними процесами міркування.

Чи зможе «розумне спілкування» зробити LLM більш схожим на людину, залежить від фактичних результатів.

Дослідники з Китайської академії наук і Єльського університету провели оцінку в 3 завданнях:

**- Обґрунтування найкоротшого шляху: **Потреба знайти найкращий шлях між вузлами на графі вимагає глобального планування та пошуку. Навіть на простих графіках стандартні методи не працюють.

**- Творче написання: ** Створення послідовних, творчих історій є відкритим завданням. Коли LLM отримує підказки високого рівня, часто втрачає послідовність або логіку.

- Агентське планування LLM: агентам LLM, які взаємодіють із текстовими середовищами, важко було розробити довгострокові стратегії. Їхні плани часто «злітають» або зациклюються.

Міркування про найкоротший шлях

У задачі міркування найкоротшого шляху проблеми, з якими стикаються існуючі методи, не можуть бути розв’язані.

Хоча графік у (a) дуже простий, оскільки висновок починається з 0, ці методи дозволяють LLM лише знаходити неоптимальні рішення (b, c) або навіть неодноразово відвідувати проміжний вузол (d).

Нижче наведено приклад поєднання TP і ToT.

ToT (b) не може вирішити проблему в (a) через накопичення помилок на проміжних етапах міркування. Базуючись на розв’язках подібних задач, TP © уточнює початкове неоптимальне рішення та врешті-решт знаходить оптимальне рішення.

Порівнюючи з базовою лінією, продуктивність TP у обробці завдання найкоротшого шляху значно покращилася на 12%, створюючи оптимальні та ефективні найкоротші шляхи.

Крім того, завдяки найнижчому OLR ефективний шлях, створений TP, є найближчим до оптимального в порівнянні з базовим.

У той же час дослідники додатково вивчали вплив кількості шарів TP на складність і продуктивність завдання найкоротшого шляху.

За інших налаштувань вартість маркера TP рівня 1 подібна до ToT. Проте TP рівня 1 досяг дуже конкурентоспроможних результатів у пошуку оптимального найкоротшого шляху.

Крім того, підвищення продуктивності TP рівня 1 також є дуже значним порівняно з TP рівня 0 (IO). На малюнку 5(a) показано збільшення вартості токена для TP рівня 2.

Креативне письмо

Таблиця 2 нижче показує продуктивність TP і базову лінію в GPT-3.5 і GPT-4. За консистенцією ТП перевищує базовий рівень. Крім того, у дослідженнях користувачів TP підвищив перевагу людей у творчому письмі на 13%.

агентське планування LLM

Під час третьої оцінки завдання дослідники використали ігровий набір ALFWorld для створення екземпляра завдання планування агента LLM у 134 середовищах.

TP збільшує швидкість виконання завдань на 15% у плануванні агента LLM. Це демонструє перевагу рефлексивного ТП для успішного планування при виконанні подібних завдань.

Наведені вище експериментальні результати показують, що «розповсюдження думок» можна узагальнити для різноманітних завдань міркування та добре справляється з усіма цими завданнями.

Ключі до вдосконаленого висновку LLM

Модель «розповсюдження думок» надає нову технологію для складних LLM міркувань.

Аналогічне мислення є відмінною рисою людських здібностей розв’язувати проблеми та може призвести до низки системних переваг, таких як більш ефективний пошук і виправлення помилок.

Подібним чином LLM може також краще подолати власні слабкі сторони, такі як відсутність багаторазового використання знань і каскад локальних помилок, спонукаючи до аналогічного мислення.

Однак у цих висновків є деякі обмеження.

Ефективно генерувати корисні аналогічні питання нелегко, і довші ланцюжки аналогічних міркувань можуть стати громіздкими. У той же час, контроль і координація багатокрокових ланцюжків міркувань залишається складним.

Проте «розповсюдження думок» все ще надає нам цікавий метод творчого вирішення недоліків міркування LLM.

З подальшим розвитком аналогічне мислення може зробити міркування LLM ще більш потужними. І це також вказує шлях до досягнення більш схожого на людину міркування у великих мовних моделях.

Про автора

Ran He

Він є професором Національної експериментальної ключової лабораторії розпізнавання образів Інституту автоматизації Академії наук Китаю та Університету Академії наук Китаю, співробітник IAPR і старший член IEEE.

Раніше він отримав ступінь бакалавра та магістра в Даляньському технологічному університеті та захистив докторську ступінь в Інституті автоматизації Китайської академії наук у 2009 році.

Його дослідницькі інтереси — біометричні алгоритми (розпізнавання та синтез обличчя, розпізнавання райдужної оболонки ока, повторна ідентифікація особи), репрезентативне навчання (мережі попереднього навчання з використанням слабкого/самоконтрольованого або трансферного навчання), генеративне навчання (генеративні моделі, генерація зображень, трансляція зображень). ).

Він опублікував понад 200 статей у міжнародних журналах та на конференціях, у тому числі у відомих міжнародних журналах, таких як IEEE TPAMI, IEEE TIP, IEEE TIFS, IEEE TNN та IEEE TCSVT, а також на провідних міжнародних конференціях, таких як CVPR, ICCV, ECCV та NeurIPS.

Він є членом редакційних колегій IEEE TIP, IEEE TBIOM і Pattern Recognition, а також працював регіональним головою міжнародних конференцій, таких як CVPR, ECCV, NeurIPS, ICML, ICPR і IJCAI.

Джунчі Ю（俞UN驰）

Ю Цзюньчі є студентом четвертого курсу докторантури в Інституті автоматизації Китайської академії наук, а його керівником є професор Херан.

Раніше він проходив стажування в лабораторії штучного інтелекту Tencent і працював з доктором Тінг’янг Сю, доктором Ю Ронгом, доктором Ятао Бянь і професором Цзюньчжоу Хуангом. Зараз він є студентом за обміном на факультеті комп’ютерних наук Єльського університету, де навчається у професора Рекса Інга.

Його мета — розробити методи Trustworthy Graph Learning (TwGL) з хорошою інтерпретабельністю та портативністю та дослідити їх застосування в біохімії.

Література:

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків