По данным мониторинга Beating, OpenAI опубликовала обзор проблем, связанных с «гоблином» — загадочной метафорой, которая стала причиной множества вопросов к серии GPT. Начиная с GPT-5.1, модель всё чаще вставляла в ответы сравнения с фантастическими существами вроде гоблинов и маленьких эльфов, что вызывало постоянные жалобы пользователей. После запуска GPT-5.1 частота использования слова «goblin» в диалогах ChatGPT выросла на 175%. К версии GPT-5.4 проблема достигла своего пика. Причина кроется в функции настройки личности ChatGPT «Нерд» (Nerdy). В системных подсказках этой личности модель должна «использовать юмор в языке, чтобы смягчить серьёзность» и «признавать странности мира и получать от этого удовольствие». Во время обучения сигнал награды, усиливающий стиль этой личности, давал более высокие оценки выводам, содержащим слова о фантастических существах, и в 76,2% случаев в датасетах наблюдалась такая склонность.

BlockBeatNews

2026-04-30 04:06:26

Согласно мониторингу Beating, OpenAI опубликовала обзор проблем, связанных с «гоблинами», которые беспокоили несколько поколений серии GPT. Начиная с GPT-5.1, модель всё чаще вставляла в ответы метафоры с фантастическими существами вроде гоблинов и маленьких эльфов, что вызывало постоянные жалобы пользователей. После запуска GPT-5.1 частота появления слова «goblin» в диалогах ChatGPT выросла на 175%. К версии GPT-5.4 проблема полностью вышла из-под контроля.

Истоки проблемы кроются в функции настройки личности ChatGPT «Нерд» (Nerdy). В системной подсказке этой личности требовалось, чтобы модель «использовала интересный язык для серьезных ответов» и «признавала странности мира и наслаждалась ими». Во время обучения сигнал поощрения, усиливающий этот стиль личности, давал более высокие оценки выводам, содержащим слова о фантастических существах; в 76,2% датасетов наблюдалась такая склонность.

Проблема в том, что сигнал поощрения действует только при «личности Нерд», но обучение с подкреплением не гарантирует, что приобретенное поведение останется только в рамках этого условия. Как только модель получает награду за определенный стиль речи в одном случае, эта привычка распространяется на другие сценарии через последующее обучение. Пути распространения очевидны: сигнал поощрения стимулировал выводы с гоблинами, которые затем появлялись в данных для последующей контрольной дообучения (SFT), и модель всё больше привыкала к такому стилю, создавая положительную обратную связь. По данным, «личность Нерд» составляет всего 2,5% всех ответов ChatGPT, но отвечает за 66,7% упоминаний гоблинов. В GPT-5.4 частота появления гоблинов у «личности Нерд» выросла на 3881% по сравнению с GPT-5.2.

GPT-5.5 начал обучение до выяснения причин, и гоблины уже проникли в данные SFT. В марте OpenAI отключила «личность Нерд», убрав сигнал поощрения, связанный с фантастическими существами, и отфильтровала обучающие данные. Для уже запущенного GPT-5.5 в подсказках разработчиков Codex добавили команду подавления. OpenAI заявила, что это расследование привело к созданию нового инструмента аудита поведения моделей.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
385.78K Популярность
#
#FedHoldsRateButDividesDeepen
11.82K Популярность
#
IsraelStrikesIranBTCPlunges
36.37K Популярность
#
#DailyPolymarketHotspot
713.28K Популярность
#
BitcoinSpotVolumeNewLow
162.66M Популярность

Закрепить

Карта сайта

OpenAI выяснила, откуда взялись «гоблины»: сигнал поощрения характера загрязнил всю цепочку обучения

Популярные темы

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Закрепить