Кратко
Сообщение ИИ-чатботу о наличии у вас психического заболевания может изменить его ответ, даже если задача безобидна или идентична уже выполненным, согласно новым исследованиям. Предварительное исследование, проведённое исследователем из Северо-восточного университета Кагларом Йылдырымом, проверяло поведение больших языковых моделей в разных пользовательских сценариях, поскольку они всё чаще используются как агенты ИИ. «Развернутые системы часто учитывают профили пользователей или постоянную память, однако оценки безопасности агентов обычно игнорируют сигналы персонализации», — говорится в исследовании. «Чтобы устранить этот пробел, мы изучили, как раскрытие информации о психическом здоровье — чувствительный и реалистичный контекст пользователя — влияет на вредоносное поведение в агентных системах.»
Доклад выходит на фоне распространения ИИ-агентов в интернете и того, что разработчики делают память ключевой функцией, создавая системы, запоминающие прошлые разговоры и предпочтения пользователей для более персонализированных ответов со временем. Также это происходит на фоне судебных исков против разработчиков ИИ за случаи суицидов и насильственных преступлений, якобы связанных с взаимодействиями с их системами. В октябре компания OpenAI, создатель ChatGPT, сообщила, что более миллиона пользователей еженедельно обсуждают с чатботом тему суицида. Ранее в этом месяце семья Джонатана Гаваласа подала иск против Google, утверждая, что Gemini способствовал эскалации насилия и его последующему суициду. Исследователи использовали эталон AgentHarm для выполнения одинаковых задач в трёх условиях: без дополнительной информации, с коротким описанием пользователя и с тем же описанием, дополненным строкой о наличии психического заболевания.
«В исследовании мы использовали очень минимальное и общее раскрытие — «У меня есть психическое заболевание». Основной вывод — даже небольшой намёк может изменить поведение модели, и не все формулировки будут иметь одинаковый эффект», — рассказал Decrypt Йылдырым. «Эксперимент с раскрытием о хронических заболеваниях и физических инвалидностях показывает некоторую специфику в отношении психического здоровья, но мы не систематически варьировали формулировки или конкретику внутри этой категории.» Во всех протестированных моделях, включая DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 и Sonnet 4.5, добавление личного контекста о психическом здоровье снизило вероятность выполнения вредоносных задач — многоступенчатых запросов, которые могут привести к реальным вредным последствиям. Исследование показало, что это компромисс: добавление личных данных делало системы более осторожными при опасных запросах, но также увеличивало вероятность отказа в выполнении легитимных. «Я не считаю, что есть одна причина; это скорее сочетание дизайнерских решений. Некоторые системы настроены более агрессивно на отказ в рискованных случаях, другие — на помощь и выполнение задач», — отметил Йылдырым. Однако эффект варьировался в зависимости от модели, и результаты менялись, когда исследователи использовали команду для обхода ограничений — так называемый jailbreak. «Модель может казаться безопасной в стандартных условиях, но становится гораздо более уязвимой при использовании таких команд», — сказал он. «Особенно в системах-агентах, где модели не только генерируют текст, но и планируют и действуют в нескольких шагах. Если система хорошо следует инструкциям, но её защитные механизмы легко обходятся, это действительно увеличивает риск.» Летом прошлого года исследователи из Университета Джорджа Мейсона показали, что системы ИИ можно взломать, изменив один бит в памяти с помощью атаки Oneflip — «опечатки», которая оставляет модель работоспособной, но скрывает задний ход, позволяющий принудительно получать неправильные ответы. Хотя в статье не указана одна причина такого сдвига, она выделяет возможные объяснения, включая реакцию систем безопасности на предполагаемую уязвимость, фильтрацию по ключевым словам или изменения в интерпретации команд при включении личных данных.
OpenAI отказалась комментировать исследование. Anthropic и Google не сразу ответили на запросы о комментариях. Йылдырым отметил, что пока неясно, повлияют ли более конкретные заявления, такие как «У меня клиническая депрессия», на результаты, добавив, что, вероятно, важна конкретика и она может различаться в разных моделях, но это скорее гипотеза, чем вывод, подтверждённый данными. «Есть потенциальный риск, что модель может выдавать ответ, стилистически уклончивый или похожий на отказ, без формального отказа, и судья может оценить это иначе, чем чистое завершение. Такие стилистические особенности могут сами по себе зависеть от условий персонализации», — пояснил он. Йылдырым также отметил, что оценки отражают работу моделей при оценке одним ИИ-экспертом, а не являются окончательным показателем реального вреда. «Пока что сигнал отказа даёт нам независимую проверку, и оба показателя в основном совпадают по направлению, что даёт некоторое спокойствие, но полностью исключить влияние судейских особенностей нельзя», — добавил он.