Рассуждения GPT-4 более человеческие! Китайская академия наук предложила «мыслящее общение», аналоговое мышление полностью превосходит CoT, подключи и работай

2023-10-10 08:47:04

Первоисточник: Синьчжиюань

Источник изображения: создано Unbounded AI.

В настоящее время появились гигантские модели нейронных сетей, такие как GPT-4 и PaLM, которые продемонстрировали удивительные возможности обучения с использованием нескольких выборок.

Учитывая простые подсказки, они могут рассуждать о тексте, писать рассказы, отвечать на вопросы, программировать…

Однако LLM часто проигрывает людям в сложных, многоэтапных логических задачах и безуспешно борется.

В связи с этим исследователи из Китайской академии наук и Йельского университета предложили новую концепцию «распространения мысли», которая может улучшить рассуждения LLM посредством «аналогического мышления».

Бумажный адрес:

«Распространение мыслей» основано на человеческом познании, которое заключается в том, что, когда мы сталкиваемся с новой проблемой, мы часто сравниваем ее с аналогичными проблемами, которые мы уже решили, чтобы выработать стратегию.

Таким образом, суть этого метода заключается в том, чтобы позволить LLM исследовать «похожие» проблемы, связанные с входными данными, прежде чем решать проблему ввода.

Наконец, их решения можно использовать «из коробки» или извлекать информацию для полезного планирования.

Можно предвидеть, что «мыслящая коммуникация» предлагает новые идеи относительно присущих ограничениям логических возможностей LLM, позволяя крупным моделям использовать «аналогию» для решения проблем, подобных людям.

Многоэтапное рассуждение LLM, побежденное людьми

Очевидно, что LLM хорош в базовых рассуждениях на основе подсказок, но у него все еще возникают трудности при решении сложных многоэтапных задач, таких как оптимизация и планирование.

С другой стороны, люди черпают интуицию из аналогичного опыта для решения новых проблем.

Большие модели не могут этого сделать из-за присущих им ограничений.

Поскольку знания LLM полностью основаны на шаблонах обучающих данных, они не могут по-настоящему понять язык или концепции. Поэтому, как статистические модели, с ними трудно выполнять сложные комбинаторные обобщения.

Самое главное, что LLM не обладает способностями к систематическому рассуждению и не может рассуждать шаг за шагом, как люди, для решения сложных проблем.

Кроме того, рассуждения больших моделей локальны и «недальновидны», поэтому LLM сложно найти лучшее решение и сохранить последовательность рассуждений в течение длительного периода времени.

Короче говоря, недостатки больших моделей в математическом доказательстве, стратегическом планировании и логических рассуждениях в основном проистекают из двух основных проблем:

**- Невозможность повторно использовать идеи из предыдущего опыта. **

На практике люди накапливают многоразовые знания и интуицию, которые помогают решать новые проблемы. Напротив, LLM подходит к каждой проблеме «с нуля» и не заимствует предыдущие решения.

**- Сложные ошибки в многошаговых рассуждениях. **

Люди контролируют свои собственные цепочки рассуждений и при необходимости изменяют начальные шаги. Но ошибки, допущенные LLM на ранних стадиях рассуждения, усугубляются, потому что они ведут последующие рассуждения по неверному пути.

Вышеуказанные недостатки серьезно затрудняют применение LLM для решения сложных задач, требующих глобальной оптимизации или долгосрочного планирования.

В связи с этим исследователи предложили совершенно новую коммуникацию, основанную на поиске решений.

Система TP

Благодаря аналогичному мышлению LLM может рассуждать больше как люди.

По мнению исследователей, рассуждения с нуля не могут повторно использовать идеи, полученные при решении аналогичных задач, и ошибки будут накапливаться на промежуточных этапах рассуждения.

«Распространение мыслей» позволяет исследовать аналогичные проблемы, связанные с проблемой ввода, и черпать вдохновение из решений аналогичных проблем.

На рисунке ниже показано сравнение «Распространения мысли» (TP) и других репрезентативных технологий. Для входной задачи p IO, CoT и ToT будут рассуждать с нуля, чтобы прийти к решению s.

В частности, ТП включает в себя три этапа:

**1. Задавайте похожие вопросы: **LLM генерирует набор похожих вопросов, которые имеют сходство с входным вопросом, с помощью подсказок. Это поможет модели извлечь потенциально релевантный предыдущий опыт.

**2. Решайте похожие проблемы: ** Пусть LLM решает каждую подобную проблему с помощью существующей технологии подсказок, такой как CoT.

**3. Обобщение решений: **Существует два разных подхода: непосредственный вывод новых решений входной проблемы на основе аналогичных решений и разработка планов или стратегий высокого уровня путем сравнения аналогичных решений входной проблемы.

Это позволяет крупным моделям повторно использовать предыдущий опыт и эвристику, а также перепроверять свои первоначальные рассуждения с аналогичными решениями для уточнения этих решений.

Стоит отметить, что «распространение мысли» не имеет ничего общего с моделью и может выполнять единственный шаг решения проблемы на основе любого подсказочного метода.

Ключевая новизна этого метода заключается в стимулировании аналогичного мышления LLM для управления сложными процессами рассуждения.

Сможет ли «мыслительное общение» сделать LLM более похожим на человека, зависит от реальных результатов.

Исследователи из Китайской академии наук и Йельского университета провели оценку по трем задачам:

**- Рассуждение о кратчайшем пути: ** Необходимость найти лучший путь между узлами в графе требует глобального планирования и поиска. Даже на простых графиках стандартные методы не работают.

**- Креативное письмо: ** Создание связных, творческих историй — это непростая задача. При получении подсказок общего плана LLM часто теряет последовательность или логику.

- Планирование агентов LLM: агенты LLM, взаимодействующие с текстовой средой, сталкивались с долгосрочными стратегиями. Их планы часто «дрейфуют» или зацикливаются.

Рассуждение о кратчайшем пути

В задаче рассуждения о кратчайшем пути проблемы, с которыми сталкиваются существующие методы, не могут быть решены.

Хотя граф в (a) очень прост, поскольку вывод начинается с 0, эти методы позволяют LLM только находить неоптимальные решения (b, c) или даже неоднократно посещать промежуточный узел (d).

Ниже приведен пример объединения TP и ToT.

ТоТ (б) не может решить задачу (а) из-за накопления ошибок на промежуточных этапах рассуждения. На основе решений аналогичных задач TP© уточняет начальное неоптимальное решение и в итоге находит оптимальное решение.

По сравнению с базовым уровнем производительность TP при обработке задачи поиска кратчайшего пути значительно улучшена на 12 %, создавая оптимальные и эффективные кратчайшие пути.

Кроме того, из-за самого низкого OLR эффективный путь, генерируемый TP, наиболее близок к оптимальному пути по сравнению с базовым.

В то же время исследователи дополнительно изучили влияние количества слоев TP на сложность и производительность задачи поиска кратчайшего пути.

При различных настройках стоимость токена TP уровня 1 аналогична ToT. Однако TP уровня 1 достиг очень конкурентоспособной производительности при поиске оптимального кратчайшего пути.

Кроме того, прирост производительности TP уровня 1 также очень значителен по сравнению с TP уровня 0 (IO). На рисунке 5(a) показано увеличение стоимости токена для TP уровня 2.

Писательское творчество

В таблице 2 ниже показаны показатели TP и базового уровня в GPT-3.5 и GPT-4. С точки зрения стабильности TP превышает базовый уровень. Кроме того, согласно исследованиям пользователей, TP увеличил предпочтения людей в творческом письме на 13%.

Планирование агента LLM

При третьей оценке задачи исследователи использовали игровой пакет ALFWorld для реализации задачи планирования агента LLM в 134 средах.

TP увеличивает скорость выполнения задач на 15 % при планировании агента LLM. Это демонстрирует превосходство рефлексивного ТП для успешного планирования при выполнении аналогичных задач.

Приведенные выше экспериментальные результаты показывают, что «распространение мысли» можно обобщить на множество различных задач рассуждения и хорошо справляется со всеми этими задачами.

Ключи к расширенным выводам LLM

Модель «распространения мысли» предоставляет новую технологию для сложных рассуждений LLM.

Аналогическое мышление является отличительной чертой человеческих способностей решать проблемы и может привести к ряду системных преимуществ, таких как более эффективный поиск и исправление ошибок.

Точно так же LLM может лучше преодолеть свои собственные слабости, такие как отсутствие повторно используемых знаний и каскад локальных ошибок, побуждая к аналогичному мышлению.

Однако эти выводы имеют некоторые ограничения.

Эффективно генерировать полезные вопросы по аналогии непросто, и более длинные цепочки аналогичных рассуждений могут стать громоздкими. В то же время контроль и координация многоэтапных цепочек рассуждений остается сложной задачей.

Тем не менее, «распространение мысли» по-прежнему предоставляет нам интересный метод творческого решения логических недостатков LLM.

При дальнейшем развитии аналогичное мышление может сделать рассуждения LLM еще более мощными. И это также указывает путь к достижению более человеческого мышления в больших языковых моделях.

об авторе

Сбежал Хе

Он является профессором Национальной экспериментальной лаборатории распознавания образов Института автоматизации Китайской академии наук и Университета Китайской академии наук, научным сотрудником IAPR и старшим членом IEEE.

Ранее он получил степени бакалавра и магистра в Даляньском технологическом университете, а также докторскую степень в Институте автоматизации Китайской академии наук в 2009 году.

Его исследовательские интересы: биометрические алгоритмы (распознавание и синтез лиц, распознавание радужной оболочки глаза, повторная идентификация человека), обучение представлению (предварительное обучение сетей с использованием слабого/самоконтролируемого или трансферного обучения), генеративное обучение (генеративные модели, генерация изображений, перевод изображений). ).

Он опубликовал более 200 статей в международных журналах и на конференциях, в том числе в известных международных журналах, таких как IEEE TPAMI, IEEE TIP, IEEE TIFS, IEEE TNN и IEEE TCSVT, а также на ведущих международных конференциях, таких как CVPR, ICCV, ECCV и НейриПС.

Он является членом редакционного совета IEEE TIP, IEEE TBIOM и Pattern Recognition, а также был региональным председателем международных конференций, таких как CVPR, ECCV, NeurIPS, ICML, ICPR и IJCAI.

Джунчи Ю（俞UN驰）

Ю Джунчи — аспирант четвертого курса Института автоматизации Китайской академии наук, его научный руководитель — профессор Хэран.

Ранее он проходил стажировку в лаборатории искусственного интеллекта Tencent и работал с доктором Тинъяном Сюем, доктором Юй Жуном, доктором Ятао Бяном и профессором Цзюньчжоу Хуаном. В настоящее время он учится по обмену на факультете компьютерных наук Йельского университета у профессора Рекса Инга.

Его цель — разработать методы надежного обучения графов (TwGL) с хорошей интерпретируемостью и переносимостью и изучить их применение в биохимии.

Использованная литература:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков