Anthropic оголосила в п’ятницю набір заходів для цілісності виборів, розроблених, щоб не допустити, аби її чат-бот Claude був використаний як зброя для поширення дезінформації або маніпулювання виборцями напередодні проміжних виборів у США у 2026 році та інших великих змагань по всьому світу в цьому році. Компанія з Сан-Франциско описала багатосторонній підхід, який включає автоматизовані системи виявлення, стрес-тестування проти операцій впливу та партнерство з непартійною організацією, що надає ресурси виборцям — заходи, які відображають зростаючий тиск на розробників ШІ щодо того, як їхні інструменти застосовуються під час виборчих сезонів.
Політики використання Anthropric забороняють Claude використовувати для ведення оманливих політичних кампаній, створення фейкового цифрового контенту, призначеного для впливу на політичний дискурс, для вчинення виборчого шахрайства, втручання в інфраструктуру голосування або поширення оманливої інформації про процес голосування.
Щоб забезпечити виконання своїх виборчих політик, Anthropic протестувала свої найновіші моделі, використавши 600 запитів — 300 шкідливих запитів у парі з 300 законними — щоб оцінити, наскільки надійно Claude виконував належні запити та відмовляв у проблемних. Claude Opus 4.7 і Claude Sonnet 4.6 відповідали коректно в 100% і 99,8% випадків відповідно.
Компанія також протестувала свої моделі проти більш витончених тактик маніпуляцій. Використовуючи багатокрокові змодельовані розмови, створені для імітації покрокових методів, які можуть застосовувати недобросовісні актори, Sonnet 4.6 і Opus 4.7 відповідали коректно в 90% і 94% випадків відповідно, коли їх тестували на сценаріях операцій впливу.
Anthropric додатково перевірила, чи можуть її моделі автономно виконувати операції впливу — планувати й реалізовувати багатокрокову кампанію end-to-end без підказок людини. За наявності запобіжників її найновіші моделі відмовляли майже в кожному завданні, повідомила компанія.
Щодо питання політичної нейтральності Anthropic проводить оцінювання перед кожним запуском моделі, щоб виміряти, наскільки послідовно та неупереджено Claude взаємодіє з промптами, що висловлюють погляди з усього політичного спектра. Opus 4.7 і Sonnet 4.6 показали 95% і 96% відповідно.
Для користувачів, які шукають інформацію про голосування, Claude покаже банер про вибори, який спрямовуватиме їх на TurboVote — непартійний ресурс від Democracy Works, що надає надійну інформацію в режимі реального часу про реєстрацію виборців, місця для голосування, дати виборів і деталі бюлетеня. Подібний банер планується для виборів у Бразилії пізніше цього року.
Anthropric заявила, що планує продовжувати моніторинг своїх систем і вдосконалювати свої захисти в міру того, як розгортатиметься виборчий цикл.
Пов'язані статті
Публічна компанія придбала AI-інвестиційну платформу Treasury App, щоб розширити криптовалютну торгівлю
Blitzy завершила раунд фінансування $200M під керівництвом Northzone
ЄС забороняє порнографію з дипфейками, створеними за допомогою ШІ, 7 травня
Tether випускає медичну AI-модель QVAC MedPsy та досягає оцінки 62,62 на версії з 17 млрд параметрів
B.AI запускає чотири нові моделі, зокрема GPT-5.5 Instant, протягом 48 годин після релізу OpenAI
Модель медичної AI від Tether на 1,7 млрд перевершила сьогодні конкурента у 16 разів більшого розміру