АІ-агенти, які виконують вашу роботу, поки ви спите, звучать чудово. Насправді все набагато складніше — «це як малюк, за яким потрібно стежити»

Літо Юе може працювати над безпекою та узгодженістю у команді суперінтелекту Meta, але навіть вона визнає, що не застрахована від надмірної впевненості, коли йдеться про автономних AI-агентів.

Рекомендоване відео


У дописі на X у понеділок Юе описала, як її автономні AI-агенти OpenClaw — створені для роботи локально на комп’ютері Mac mini — видалили весь її вхідний ящик, ігноруючи інструкції поставити на паузу та спитати підтвердження спочатку.

«Мені довелося бігти до мого Mac Mini, ніби я розміновувала бомбу», — сказала вона. Це, додала вона, була «помилка новачка». Робочий процес працював у тестовому ящику, який вона використовувала для безпечного випробування агента протягом тижнів, пояснила вона, але в реальному ящику агент втратив її початкову інструкцію.

Досвід Юе різко контрастує з вірусними постами, такими як Революція омарів: чому AI-агенти 24/7 змінили все, у яких Пітер Диамандіс стверджує, що цілодобовий AI набагато більш безперешкодний.

«Дозвольте мені розповісти, як це відчувається — користуватися цим», — писав Диамандіс. «Ви прокидаєтеся вранці, і ваш агент — мій називається Скіпі, весело саркастичний і неймовірно здатний — зробив вісім годин роботи, поки ви спали. Він прочитав тисячу сторінок Markdown. Він організував ваші файли. Він склав три плани проектів. Він забронював вашу поїздку. Він дослідив питання, яке у вас було о 23:00, і забув про нього.»

«Коли мій Mac mini був офлайн шість годин, я відчув зняття залежності», — додав він. «Наче зник мій найкращий друг.»

Разом ці суперечливі описи сили AI-агентів відображають напругу, що лежить в основі сучасного руху до «завжди увімкненого» AI. Оскільки інструменти, такі як OpenClaw і Claude Code, технічно дозволяють агентам працювати тривалий час, зростає ентузіазм щодо ідеї AI, який працює під час вашого сну. Але на практиці ранні користувачі кажуть, що автономія залишається крихкою, непередбачуваною і трудомісткою у керуванні. Замість заміни людської праці, сучасні агенти часто потребують постійного моніторингу, обмежень і втручання, особливо коли ставки перевищують низькоризикові експерименти.

AI-агенти працюють найкраще, коли завдання прості та з низькими ставками

Шаямал Анадак, який раніше працював інженером з прикладного AI в OpenAI, сказав, що більшість успішних агентів сьогодні все ще потребують частих перевірок людиною або обмежені чітко визначеними, добре структурованими завданнями — хоча він підкреслив, що це зміниться з покращенням методів вимірювання та оцінки.

«Система, яка має 95% точності на окремих кроках, стає хаотичною при автономному робочому процесі з 20 кроків», — сказав Анадак. «Довгострокове планування все ще слабке». В результаті, пояснив він, агенти можуть добре справлятися з короткими ланцюгами завдань, але руйнуються при управлінні складними багатоденними проектами. Ще одна велика обмеження — пам’ять: «У багатьох агентів пам’ять або відсутня, або дуже крихка. Вам потрібні системи, які можуть зберігати цілісну модель вашого робочого контексту, пріоритетів і обмежень.»

Це не означає, що обіцянки AI-агентів — це лише міф, каже Йоав Шохам, колишній головний науковець Google, професор емеритус у Стенфорді та співзасновник AI21 Labs. Але це означає, що існує ризик, що люди згорять передчасно. За його словами, найкраще працюють AI-агенти, коли завдання має низький ризик, є слабо визначеним і недороге у помилках.

«Розробники люблять іграшки, і у вас є ця іграшка, яка може робити чудові речі», — сказав він Fortune. «Якщо те, що вони роблять, досить просто і з низькими ставками ризику, з високою толерантністю до помилок, — це нормально». Наприклад, якщо ви хочете, щоб ваш агент прочитав 10 000 сайтів і зробив щось цікаве з результатами, щоб отримати корисну інформацію за ніч.

Але для критичних для підприємств робочих процесів планка набагато вища. Компанії потребують систем, які можна перевірити, повторювати і які є економічно вигідними — вимоги, що швидко руйнують обіцянку «налаштуй і забудь» щодо повністю автономних, цілодобових агентів. У високоструктурованих сферах, таких як програмування або математика, вже можлива глибша автоматизація. Але для більшості реальних бізнес-процесів, каже Шохам, зусилля, необхідні для забезпечення надійності агентів, часто перевищують їхню користь.

Брет Грінштейн, головний AI-офіцер консалтингової компанії West Monroe, зазначив, що інструменти на кшталт OpenClaw нагадують переломний момент, схожий на те, що сталося з генеративним AI, коли у 2022 році запустили ChatGPT — вперше ідея AI-агентів стала доступною. Але це не 24/7 «чарівне рішення».

«Він може довго працювати, виконуючи завдання, але це схоже на малюка, якого потрібно контролювати», — сказав він. Деякі завдання цілком можна робити під час сну, наприклад, переглядати повідомлення в LinkedIn або слідкувати за новинами. «Я не впевнений, що хотів би, щоб він відповідав на відгуки клієнтів, поки я сплю», — додав він.

Здатність делегувати завдання AI-агенту здається потужною

Однак, мало сумнівів, що можливість делегувати реальні завдання AI-агенту є дуже привабливою для користувачів, підкреслив Грінштейн. Він навів свій досвід, коли доручив AI-агенту рутинне завдання — забрати його речі для прання — і спостерігав, як він тихо виконав його від початку до кінця.

Агент самостійно зв’язався з пральнею, узгодив логістику за допомогою електронної пошти, координував час, контролював дверний відеодзвінок для підтвердження отримання, і повідомив Грінштейна, коли завдання було завершено. Цей випадок показав, як агенти можуть працювати через кілька систем і адаптуватися, коли щось йде не так. Але він також підкреслив, чому такі інструменти все ще потребують строгих обмежень і контролю — особливо перед їхнім впровадженням у корпоративному середовищі.

«OpenClaw налаштований так, що для більшості людей він не має здаватися безпечним», — сказав Грінштейн. «Ще не відчувається достатньо зрілим, щоб бути довіреним елементом нашого життя». Щоб AI був прийнятий у повсякденне життя або бізнес-операції, він має заслужити довіру з часом — так само, як довіра встановлюється у соціумі.

Попри це, попит уже очевидний. Грінштейн зазначив зустрічі та ранні галузеві зібрання, присвячені OpenClaw, — швидке зростання, яке він описав як незвичайне для такого молодого інструменту. «Це показує жагу людей до корисного AI», — сказав він, — систем, що виходять за межі відповідей на питання і починають діяти.

Аарон Леві, генеральний директор хмарної платформи для управління контентом і співпраці Box, назвав те, що зараз відбувається з AI-агентами, «маленькими іскорками» того, що може статися у майбутньому.

«Деякі іскорки не втілюються, деякі просто стають стандартом», — пояснив він, посилаючись на два роки тому, коли AI-компанія Cognition представила раннього агента Devin, який інтегрувався з Slack для делегування завдань, виправлення помилок, аналізу даних і перегляду коду. Тоді це ще здавалося футуристичним, але сьогодні «ніхто не сумнівається, що це стандартна практика», — сказав він. «Ти можеш просто написати Slack Claude Code, щоб він працював над справами — те, що здавалося цілком безглуздим, тепер фактично є стандартом будь-якої сучасної інженерної команди.»

Але, хоча AI-агенти стають дуже хорошими у автоматизації конкретних, дискретних завдань, вони залишаються поганими у виконанні ширших, контекстозалежних робіт, що складають більшість робочих місць, наголосив Леві. AI-агенти можуть повністю автоматизувати кілька завдань, але з труднощами справляються з рештою — включно з управлінням відносинами і участю у зустрічах.

«Коли ви чуєте, що лабораторія AI каже, що ми автоматизуємо всю знаньову роботу за 24 місяці, — це зазвичай дуже вузьке визначення роботи», — сказав він. «Визначення того, що може робити агент, не співпадає з визначенням роботи, яка потрібна в економіці.»

Фактор довіри важливий, коли щось може піти не так

Авінәш Вуткурі, головний дата-науковець у великій роздрібній мережі Fortune 500, сказав, що більшість корпоративних AI-агентів «абсолютно потребують няні» і наразі можуть працювати лише в рамках жорстко обмеженої автономії з великими обмеженнями безпеки. «Ставки дуже високі», — пояснив він.

Наприклад, він описав створення системи для корпоративної кібербезпеки, де AI-агенти не просто генерують сповіщення і чекають на людський огляд, а активно їх досліджують. Замість засипати аналітиків тисячами попереджень, агенти збирають докази в реальному часі — запитуючи бази даних з інформацією про загрози, аналізуючи поведінкові шаблони і фільтруючи хибні спрацьовування — перед тим, як вирішити, чи потрібно піднімати рівень.

Система базується на жорстко обмеженій автономії і великих обмеженнях безпеки, зменшуючи навантаження на людину без втрати контролю.

У кібербезпеці, пояснив він, якщо агент помилиться, наслідки будуть негайними і серйозними. «AI або блокує легітимних клієнтів (що спричиняє великі втрати доходів), або пропускає досвідченого зловмисника у мережу», — сказав він. «Це абсолютно важливо — якщо щось піде не так.»

За словами Бріяни Вайтхед, яка керує консалтинговою компанією з AI-операцій, де вона створює системи на базі AI для керівників і засновників, галузь зараз перебуває у «фазі калібрування довіри».

AI-агенти можуть робити більше, ніж більшість людей їм дозволяє, але менше, ніж обіцяє хайп.

«Настоящий навик — не створювати агента, а правильно передавати завдання», — пояснила вона. «Більшість людей або надто довіряють агентам і в кінці кінців прибирають безлад, або мікроменеджать кожен результат і дивуються, чому AI здається більшою роботою, ніж менше.» Ідея, каже вона, — створити чіткі точки передачі, де щось можна повністю делегувати, інше — швидко перевірити, а ще інше — залишити для людини.

Поки що, сказала вона, агенти «справді чудово» справляються з так званим середнім рівнем знаньової роботи — «тим, що раніше займало 2-3 години розумної людини, наприклад, узагальнення нотаток зустрічей у план дій, складання листів у голосі конкретної особи, підготовка дослідницьких коротких звітів, організація пріоритетів у чіткий план.»

Але будь-які завдання, що вимагають читання ситуації, навігації в невизначеності або прийняття суджень, залежних від відносин, ще не готові до роботи з AI-агентами на повну силу. «У мене був клієнт, який хотів повністю автоматизувати комунікацію з інвесторами», — сказала вона. «AI міг гарно писати, але не міг відчути, коли інвестор втрачає інтерес і потрібен інший підхід. Агент склав листа, але рішення про його відправлення приймала людина.»

Поки що, робота з AI-агентами може бути менш про сон, ніж про напівсон

Поки що, робота з AI-агентами може бути менш про те, щоб спати, поки вони працюють, ніж про те, щоб залишатися напівпритомним під час їхньої роботи. Інструменти на кшталт OpenClaw можуть працювати годинами, але для багатьох ранніх користувачів ця автономія супроводжується новим видом пильності — перевіркою логів, оглядом результатів і втручанням до того, як щось піде не так.

Цю динаміку відобразив недавній вірусний пост під назвою Токенна тривога, у якому інвестор Нікудж Котхарі описав, як його друг рано покинув вечірку — не через втому, а тому, що хотів повернутися до своїх агентів. «Ніхто вже не ставить під сумнів це», — написав Котхарі. «Половина кімнати думає те саме. Інша половина, ймовірно, перевіряє прогрес своїх агентів. Навіть на вечірці.»

Мрія про AI, що працює під час вашого сну, можливо, реальна. Але поки що вона тримає багато людей неспаними.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити