Тест: современные ИИ-агенты не могут выполнять вашу работу — itWeek

Разработчик инструментов для блокчейнов крупной международной компании поделился опытом внедрения нестандартных решений … Тест: современные ИИ-агенты не могут выполнять вашу работу 05.11.2025 Новое исследование свидетельствует об очень низком уровне готовности агентов искусственного интеллекта к выполнению реальных задач, сообщает портал The Neuron. Ажиотаж: ИИ-агенты автоматизируют все рабочие процессы! Заменят фрилансеров! Будут выполнять сложные задачи от начала до конца! Реальность: жалкие 2-3% выполненных задач. Scale AI и CAIS только что опубликовали Remote Labor Index — тестирование, в котором ИИ-агенты пытались выполнить реальные задачи фрилансеров. Самая эффективная модель заработала всего 1810 долл. из 143 991 долл. доступной работы, выполнив лишь 2-3% заданий. Этот тест — столь необходимая проверка реальности для отраслей, тратящих невообразимые миллиарды, как злодеи из фильмов о Бонде, на гипотезу, что ИИ автоматизирует всю работу. И он позволил получить полезные данные. Исследователи протестировали реальные задачи с фриланс-платформ. Не игрушечные проблемы или академические тесты, а реальные задания, за выполнение которых людям платят: написание текстов, исследования, ввод данных и дизайнерские задачи. С чем агенты испытывают трудности: • многоэтапные рабочие процессы с неясными передачами; • неясные требования, которые мы, люди, уточняем в ходе разговора; • задачи, требующие суждения и контекста; • работа, требующая итерации и обратной связи с клиентом. Что реально могут делать агенты: в производственных средах небольшие точно настроенные модели хорошо справляются с повседневными повторяющимися задачами, а более крупные модели координируют рабочие процессы или обрабатывают крайние случаи. Такие конфигурации работают, но они ограничены и требуют контроля со стороны человека. Эти агенты также имеют скрытые затраты. Недавний анализ Rate Limited показывает, что «бесплатные» кодирующие агенты не обходятся без издержек: ограничения скорости, задержки, проверки безопасности и доработки. Вам нужны ограждения и бюджеты, а не слепая автоматизация. Контраргумент: новое исследование , которое показывает, что 74% компаний, которые действительно измеряют отдачу от инвестиций в генеративный ИИ, сообщают о положительной доходности. Почему это важно: мы находимся в странном промежуточном положении. ИИ может впечатляюще расширить возможности работы, но пока не может заменить квалифицированных людей в решении сложных задач (проблема среднего уровня). Понимание этого разрыва помогает сформировать реалистичные ожидания. Что нас ждет: улучшенные архитектуры агентов, более жесткие рабочие процессы с участием человека и специализированные агенты для узких областей. Прогресс происходит, просто он не происходит (успешно) так быстро, как хотят, чтобы вы думали компании, занимающиеся ИИ. Вывод: если кто-то продает вам полностью автономных ИИ-работников, попросите показать вам показатели выполнения реальных задач, которые вы выполняете каждый день… или не покупайте их. Source: https://www.itweek.ru/themes/detail.php?ID=233691