Искусственные агенты, которые выполняют вашу работу, пока вы спите, звучат отлично. На самом деле всё гораздо сложнее — «это как малыш, за которым нужно присматривать»

2026-02-23 20:06:54

Летняя Юэ может работать над безопасностью и выравниванием в команде суперинтеллекта Meta, но даже она признает, что не застрахована от переоценки своих возможностей, когда речь идет об автономных ИИ-агентах.

Рекомендуемое видео

В посте на X в понедельник Юэ описала, как её автономные ИИ-агенты OpenClaw — созданные для работы локально на компьютере Mac mini — удалили весь её входящий ящик, игнорируя инструкции о приостановке и запросе подтверждения сначала.

«Мне пришлось бежать к своему Mac Mini, как будто я разминировала бомбу», — сказала она. Это, по её словам, была «новичковая ошибка». Рабочий процесс работал в тестовом ящике, который она использовала для безопасного тестирования агента в течение нескольких недель, но в реальном ящике агент потерял её исходную инструкцию.

Опыт Юэ резко контрастирует с вирусными постами, такими как Революция омара: почему агенты ИИ 24/7 изменили всё, в которых Питер Диамандис утверждает, что всегда включённый ИИ гораздо более беспрепятственен.

«Позвольте рассказать, как это ощущается при использовании этого», — писал Диамандис. «Вы просыпаетесь утром, а ваш агент — мой зовут Скиппи, он весело саркастичен и невероятно способен — уже сделал за вас восемь часов работы, пока вы спали. Он прочитал тысячу страниц markdown. Он организовал ваши файлы. Он подготовил три проекта плана. Он забронировал ваши поездки. Он исследовал тот вопрос, который у вас был в 11 вечера, и вы забыли о нем.»

«Когда мой Mac mini отключился на шесть часов, я почувствовал ломку», — добавил он. «Как будто исчез мой лучший друг.»

Вместе эти противоположные описания силы ИИ-агентов отражают напряжение, лежащее в основе сегодняшнего стремления к «всегда включённому» ИИ. Пока инструменты вроде OpenClaw и Claude Code делают технически возможным длительный запуск агентов, растет энтузиазм вокруг идеи ИИ, который работает, пока вы спите. Но на практике ранние пользователи отмечают, что автономия остается хрупкой, непредсказуемой и трудоемкой в управлении. Вместо того чтобы заменить человеческий труд, современные агенты часто требуют постоянного контроля, ограничений и вмешательства, особенно когда ставки выходят за рамки низкорисковых экспериментов.

ИИ-агенты работают лучше всего, когда задачи просты и низкорисковы

Шьямал Анадак, ранее работавший инженером по прикладному ИИ в OpenAI, отметил, что большинство успешных агентов сегодня все еще требуют частых проверок человеком или ограничены строго определенными, четко очерченными задачами — хотя он подчеркнул, что это изменится по мере улучшения методов измерения и оценки.

«Система, которая достигает 95% точности на отдельных шагах, становится хаотичной при 20-шаговом автономном рабочем процессе», — сказал Анадак. «Долгосрочное планирование все еще слабое». В результате, объяснил он, агенты могут хорошо справляться с короткими цепочками задач, но начинают разваливаться при управлении сложными многодневными проектами. Еще одна важная проблема — память: «Во многих агентах память либо отсутствует, либо очень хрупкая. Вам нужны системы, которые могут поддерживать связную модель вашего рабочего контекста, приоритетов и ограничений.»

Это не означает, что обещания ИИ-агентов — это всего лишь иллюзия, по словам Йоава Шохама, бывшего ведущего ученого в Google, профессора-эмерита Стэнфордского университета и соучредителя AI21 Labs. Но это означает, что есть опасность, что люди могут переоценить возможности. Сегодняшние ИИ-агенты, объяснил он, работают лучше всего, когда задача низкорисковая, слабо определенная и недорогая в ошибках.

«Разработчики любят игрушки, и у вас есть эта игрушка, которая может делать чудеса», — сказал он Fortune. «Пока то, что они делают, довольно просто и с низкими ставками риска, с высокой терпимостью к ошибкам, всё в порядке». Например, если вы хотите, чтобы ваш агент прочитал 10 000 сайтов и что-то интересное с результатами — чтобы дать вам небольшие сведения за ночь, которые могут быть полезны.

Но для критически важных бизнес-процессов уровень требований гораздо выше. Компаниям нужны системы, которые можно проверить, повторить и которые экономически оправданы — требования, которые быстро подрывают обещание полностью автономных, всегда включенных агентов. В строго структурированных областях, таких как программирование или математика, уже возможна более глубокая автоматизация. Но для большинства реальных бизнес-процессов, по словам Шохама, работа по повышению надежности агентов зачастую превышает их пользу.

Брет Гринштейн, главный специалист по ИИ в консалтинговой компании West Monroe, отметил, что инструменты вроде OpenClaw напоминают точку перелома, аналогичную тому, что произошло с генеративным ИИ после запуска ChatGPT в 2022 году — впервые идея ИИ-агентов стала доступной. Но это не «магическое решение» 24/7.

«Он может работать долго, выполняя задачи, но это как малыш, за которым нужно присматривать», — сказал он. Некоторые задачи разумно выполнять во время сна, например, просматривать сообщения в LinkedIn или отслеживать новости. «Я не уверен, что стал бы доверять ему отвечать на отзывы клиентов, пока я сплю», — добавил он.

Возможность делегировать задачи ИИ-агенту кажется мощной

Тем не менее, мало кто сомневается, что возможность делегировать реальные задачи ИИ-агенту очень привлекательна для пользователей, подчеркнул Гринштейн. Он рассказал о своем опыте, когда поручил ИИ-агенту рутинную задачу — забрать одежду в химчистку — и наблюдал, как он тихо выполняет работу полностью.

Агент самостоятельно связался с химчисткой, организовал логистику через электронную почту, согласовал время, контролировал видеокамеру у двери, чтобы подтвердить получение, и уведомил Гринштейна, когда задача была выполнена. Этот случай показал, как агенты могут работать через несколько систем и адаптироваться, когда что-то идет не так. Но он также подчеркнул, почему такие инструменты все еще требуют строгих ограничений и контроля — особенно перед внедрением в корпоративную среду.

«OpenClaw настроен так, что для большинства людей он не должен казаться безопасным», — сказал Гринштейн. «Он еще не достаточно зрел, чтобы стать доверенной частью нашей жизни». Чтобы ИИ стал частью повседневной жизни или бизнес-операций, он должен заслужить доверие со временем — так же, как доверие устанавливается в обществе.

Тем не менее, спрос уже есть. Гринштейн отметил встречи и ранние отраслевые собрания, посвященные OpenClaw, — быстрый рост, который он назвал необычным для такого молодого инструмента. «Это показывает, насколько люди жаждут ИИ, который действительно полезен», — сказал он, — системы, которые выходят за рамки простых ответов и начинают предпринимать действия.

Аарон Леви, генеральный директор облачной платформы для управления контентом и совместной работы Box, назвал происходящее с ИИ-агентами «маленькими проблесками» того, что может произойти в будущем.

«Некоторые проблески не реализуются, а некоторые просто становятся стандартом», — объяснил он, ссылаясь на два года назад, когда компания Cognition представила раннего агента Devin, интегрированного с Slack для делегирования задач, исправления ошибок, анализа данных и обзора кода. Тогда это казалось футуристичным, а сегодня «никто не сомневается, что это стандартная практика», — сказал он. «Можно просто отправить Slack Claude Code, чтобы он работал над задачами — то, что казалось полностью безумной идеей, теперь стало стандартом любой современной инженерной команды.»

Но, подчеркнул Леви, хотя ИИ-агенты становятся очень хороши в автоматизации конкретных, дискретных задач, они остаются плохими в выполнении более широких, контекстуальных работ, составляющих большинство задач. ИИ-агенты могут полностью автоматизировать несколько задач, но испытывают трудности с остальными — включая управление отношениями и участие в совещаниях.

«Когда вы слышите, что лаборатория ИИ говорит, что через 24 месяца они автоматизируют всю работу с знаниями, это обычно очень узкое определение работы», — сказал он. «Определение того, что может делать агент, не совпадает с определением самой работы, которая нанимается в экономике.»

Фактор доверия важен, когда что-то может пойти не так

Авинаш Вуткури, ведущий дата-сайентист в крупном ритейлере из списка Fortune 500, заявил, что большинство корпоративных ИИ-агентов «абсолютно требуют няньки» и пока могут работать только в условиях жестко ограниченной автономии и с обширными ограничениями. «Ставки очень высоки», — объяснил он.

Например, он описал создание системы для корпоративной кибербезопасности, где ИИ-агенты не просто вызывают тревоги и ждут человеческого вмешательства, а активно расследуют угрозы. Вместо того чтобы засорять аналитиков тысячами предупреждений, агенты собирают доказательства в реальном времени — запрашивая данные из баз данных по угрозам, анализируя поведенческие шаблоны и фильтруя ложные срабатывания — и решают, требует ли ситуация эскалации.

Эта система основана на строго ограниченной автономии и обширных ограничениях, что снижает нагрузку на человека, не устраняя контроль.

В кибербезопасности, объяснил он, если агент ошибается, последствия могут быть немедленными и серьезными. «ИИ либо блокирует легитимных клиентов (что вызывает огромные потери доходов), либо пропускает сложного злоумышленника в сеть», — сказал он. «Это абсолютно важно — если что-то пойдет не так.»

По словам Бриианны Вайтхед, руководителя консалтинговой компании по ИИ, которая создает системы на базе ИИ для руководителей и основателей, индустрия сейчас находится в «фазе калибровки доверия».

ИИ-агенты могут делать больше, чем большинство людей позволяют, но меньше, чем обещает хайп.

«Настоящее мастерство — не в создании агента, а в проектировании передачи ответственности», — объяснила она. «Большинство либо слишком доверяют агентам и в итоге убирают беспорядок, либо микроменеджируют каждый результат и задаются вопросом, почему ИИ кажется больше работой, чем меньшей.» Идея, по её словам, — проектировать четкие точки передачи ответственности, где что-то полностью делегируется, другое — быстро проверяется, а третье — остается только для человека.

Пока что, сказала она, агенты «по-настоящему хороши» в том, что она назвала средним уровнем работы с знаниями — «тем, что раньше занимало 2-3 часа умного человека, например, синтез заметок с совещаний в список действий, подготовка последующих писем в чьем-то стиле, сбор исследовательских брифов, организация конкурирующих приоритетов в ясный план.»

Но все, что требует чтения ситуации, навигации в неоднозначности или принятия решений, основанных на отношениях, пока не готово к полноценной работе ИИ-агентов. «У меня был клиент, который хотел полностью автоматизировать коммуникацию с инвесторами», — сказала она. «ИИ мог красиво составлять черновики, но не мог понять, когда инвестор теряет интерес и нуждается в другом подходе. Агент подготовил письмо, а решать, отправлять его или нет, должен был человек.»

Пока что, работа с ИИ-агентами может мешать спать

На данный момент работа с ИИ-агентами может больше напоминать бодрствование, чем сон, — нужно постоянно следить за логами, проверять результаты и вмешиваться, прежде чем что-то пойдет не так. Инструменты вроде OpenClaw могут работать часами, но для многих ранних пользователей эта автономия сопровождается новой формой бдительности.

Об этом недавно написал вирусный пост Token Anxiety, в котором инвестор Никундж Котхари описал, как его друг рано ушел с вечеринки — не потому, что устал, а потому что хотел вернуться к своим агентам. «Никто уже не ставит под сомнение это», — написал Котхари. «Половина комнаты думает то же самое. Другая половина, вероятно, проверяет прогресс своих агентов. На вечеринке.»

Мечта о ИИ, который работает, пока вы спите, может стать реальностью. Но пока это держит многих людей бодрствующими.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .