ИИ-агенты простым языком: разбираем на примере Deep Research — Habr

Блог компании Битрикс24 Искусственный интеллект Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24. Моя команда отвечает за модельки под капотом наших AI сервисов. Агенты, агентные системы, agentic AI — эти слова сейчас повсюду. Мы сами делаем своего агента, Марту AI. Но последние пару месяцев я все чаще слышу от коллег и читателей один и тот же вопрос: «Серёж, объясни по-простому — что это такое? Я запустил 100 вызовов LLM подряд, это уже агент? А если добавил RAG? А с поиском?» В итоге, на нашей внутренней AI-конференции я выступил с докладом на эту тему, и по мотивам родилась эта статья. На самом деле, сложность начинается с того, что у нас нет общепринятого стандарта: что считать AI-агентом, а что нет. Есть десятки определений, статей и докладов, но многие формулировки порождают больше вопросов, чем ответов. В этой статье я не буду придумывать ещё одно академическое определение. Вместо этого мы соберём рабочую интуицию: как «просто LLM», «workflow» и «агент» связаны между собой и где проходит граница. А разбираться будем на живом примере всем уже известной функции — Deep Research. Итак, типичное описание: AI-агент — это интеллектуальная программа, которая умеет выполнять задачи по заданному сценарию, используя нейросети. В отличие от чат-ботов, AI-агент «думает» и реагирует на контекст, принимает решения, запускает действия и учится по ходу работы. Звучит красиво, но мало помогает. Мы и раньше выполняли задачи по сценарию и использовали нейросети — это уже агенты или ещё нет? Если модель «думает» (то есть умеет рассуждать), этого достаточно, чтобы назвать её агентом? Любой LLM с function calling — это агент? Чтобы действительно понять, что такое ИИ-агенты, нужно чуть отмотать назад и вспомнить, как мы работали с LLM до их появления. Как работает LLM В базовом варианте всё очень просто: Мы отправляем в модель запрос. Модель возвращает ответ. Потом мы начали связывать несколько шагов вместе: сначала расшифровать аудио, затем по расшифровке сделать саммари, затем заполнить поля в CRM. Последовательность таких шагов мы называем workflow: заранее продуманная цепочка действий, где каждый шаг фиксирован и записан в коде. Пример LLM workflow У нас в Битрикс24 есть примеры таких workflow. CoPilot в CRM: Делаем саммари на основе транскрипции Выписываем какие поля в CRM можно заполнить на основе саммари Сайт с CoPilot Создаем тематику сайта, выбираем шрифт, цветовую схему и т.д. Генерируем полную структуру сайта и промпты к изображениям на основе базовой информации из шага 1. Что же такое ИИ-агент Простое определение ИИ-агента: ИИ-агент — это система, созданная для самостоятельного достижения цели в определенной среде, с помощью набора инструментов. На схеме я показываю, что такое ИИ-агент и как он работает. Пример AI-агента Человек делает определенный запрос в систему, в основе которой лежит LLM-движок. Для того чтобы выполнить запрос, агент взаимодействует с опр��деленной средой. Если это агент, чья задача искать информацию — его средой будет интернет. Если агент пишет код, то есть вносит изменения в файлы, то его среда — файловая система. ИИ-агент будет обращаться к своей среде столько, сколько нужно, чтобы выполнить запрос. Как понять, когда нам достаточно LLM, а когда нужны агенты Если мы можем понятным алгоритмом описать, что мы хотим, чтобы за нас сделала нейросеть — это просто привычный запрос к нейронке. Пример: найти информацию, сделать саммари, расшифровать аудио и сделать саммари и т.д. Если нужно, чтобы в процессе система принимала решения, которые точно нельзя описать заранее, то здесь нужны ИИ-агенты. Например, если нам нужно исследовать несколько разных объектов по списку параметров и сделать выводы. Что на самом деле имеет место в работе ИИ-агента LLM-движок (модель по капотом) Среда. То, с чем агент взаимодействует: интернет, файловая система, Битрикс24, почта, календарь и т.д.. Инструменты для взаимодействия со средой (поисковый движок, командная строка и т.д.) Автономность в выборе шагов. Мы не прописываем в коде полный сценарий «сначала сделай A, потом B, потом C». Вместо этого мы объясняем агенту цель и набор инструментов, а он сам декомпозирует задачу на подзадачи и решает, какой инструмент вызвать дальше. А вот те признаки, которые часто указывают в определении ИИ-агента, но они не уникальны для таких систем. Они могут присутствовать, но не говорят однозначно о том, что перед вами ИИ-агент: Работают 24/7. В принципе, так работают все SaaS-сервисы Решают сложные задачи. Спорный и размытый термин Учатся в процессе. Это совсем не обязательно, есть агенты, которые не учатся в процессе Сохраняют контекст. Далеко не все ИИ-агенты сохраняют контекст. Дальше покажу пример агента, который ничего не знает про контекст. RAG и другие расширения памяти. Необязательный признак ИИ-агента. Проактивны. Тоже не обязательно, есть множество агентов, которые активируются только тогда, когда пользователь начинает с ними взаимодействовать. По факту, вся агентность ИИ строится вокруг работы с инструментами и «агентской петли». Все остальное – полезные дополнения или маркетинг. Петля агента — это цикл использования инструментов и взаимодействия со средой, с выходом при достижении результата. Есть определенный список шагов, которые агент должен выполнить: Решить, каким будет следующий шаг Использовать инструмент для выполнения шага Добавь в контекст результат использования инструмента Эта последовательность шагов — то есть взаимодействие агента со средой и выполнение инструментов — повторяется до тех пор, пока не достигнут результат. Пример работы AI агента Workflow против агента: где проходит граница Если упростить до одного вопроса, он будет таким: Кто придумывает план? В workflow план придумывает разработчик. Он заранее расписывает все шаги и ветки в коде. В агенте план придумывает сама модель. Она декомпозирует задачу на подзадачи, решает, какой инструмент вызвать, и может менять план по ходу работы. Примеры: «Сделай транскрипцию звонка и по ней заполни поля сделки» — идеальный кандидат для workflow: шаги всегда одинаковые. «Проведи исследование движков поиска для LLM-ассистента, сравни варианты, оцени риски» — количество шагов и нужных действий заранее непонятно. Модель будет много раз возвращаться к источникам, уточнять вопросы, менять план. Это уже задача для агента. Deep Research как пример Что делает Deep Research? Принимает запрос, строит план, декомпозирует задачу на пункты и решает, как он будет действовать дальше. Например, мне нужно было провести исследование для движка поиска LLM-ассистента — чтобы ИИ-ассистент мог ходить в интернет и находить там нужную информацию. У меня было несколько вариантов и хотелось понять разницу между ними, риски использования. Я описал это простыми словами в небольшом промпте. Модель проанализировала запрос и задала мне уточняющие вопросы. Я на них ответил. Что дальше делает Deep Research? • Ходит по десяткам источников • Читает сайты/PDF, помечает качество источников • Сопоставляет факты, собирает ВЫВОДЫ • Проверяет пробелы, проходит итерации На вкладке «Активность» видно, что делает модель: находит информацию, прочитывает документацию, анализирует интеграцию с LLM, поддержку мультиязычности и т.д. Собирает все данные и вызывает еще один инструмент — «Создание отчета». В результате получается структурированный отчет — как правило, объемный и подробный PDF-документ. Что внутри Deep Research В первом приближении это: LLM — GРТ-5 и другие модели; Среда — Интернет, файлы пользователя (их можно подгружать и тогда агент будет использовать их для поиска информации) Инструменты — поисковый движок, упаковщик отчета в pdf и т.д. На самом деле внутри гораздо больше технологий, это целый ансамбль моделей, ИИ-агентов и инструментов. Что еще можно делать с помощью Deep Research? В реальных задачах мы используем Deep Research, например, чтобы: проводить диагностику и исследование коммуникационных каналов (например, корпоративных Telegram-каналов); анализировать и сравнивать площадки для проведения мероприятий; изучать рынки, продукты и конкурентов перед запуском новых фич. Это только часть сценариев — везде, где «нужно разобраться в теме и собрать выводы», такой агент ощущается как очень прокачанный ресечер. Deep Research уже есть во многих популярных моделях, например, в ChatGPT, Gemini, Perplexity, Grok и Gigachat. В некоторых моделях это платная опция, но я рекомендую именно платный вариант в ChatGPT. Что еще важно знать о системах, использующих ИИ-агентов Современные агентские системы часто включают и более «тяжёлую артиллерию»: долговременную память и векторные базы (RAG); триггеры и планировщики для проактивности; ансамбли из нескольких агентов с разной специализацией; guardrails и политики безопасности, чтобы ограничивать поведение модели. Всё это помогает масштабировать агентов до крупных продуктов, но ядро всё равно одно и то же: LLM, инструменты, среда и агентская петля. Большая зона роста ИИ-агентов — доверие к тем решениям, которые они принимают и к тем выводам, которые они делают. Разработчикам важно повышать точность, прозрачность их работы и результатов. Итоги Если коротко, то: Workflow — это заранее спроектированный путь, по которому мы проводим задачу. Хорошо, когда шаги и ветки можно описать заранее. Агент — это система на базе LLM, которая сама планирует шаги и выбирает инструменты, опираясь на результат предыдущих действий. Агентская петля — сердце таких систем: определить следующий шаг → вызвать инструмент → обновить контекст → повторить. Deep Research — хороший пример агента-исследователя, который сам ходит по источникам, собирает факты и выдаёт структурированный отчёт. Большинство реальных процессов всё ещё можно (и нужно) закрывать простыми workflow. Агенты оправданы там, где путь к цели заранее неизвестен и требуется много итераций и принятия решений на основе промежуточных результатов. Если тема LLM вам близка, загляните в мой tg-канал — там я коротко делюсь свежими находками, тестами и рабочими приёмами, которые сам применяю в реальных проектах. Теги: Source: https://habr.com/ru/companies/bitrix/articles/971930/