Оценка эффективности внедрения искусственного интеллекта — Habr

Стоимость — эффект от инвестиций (отслеживание затрат и чистой прибыли) Затраты на ИИ (как общие, так и на одного разработчика) Чистый прирост времени на одного разработчика (экономия времени − затраты на ИИ). Это самая сложная метрика, т.к. необходимо для каждой роли (должность + уровень) определить, какие показатели эффективности для него подходят. Обычно такая информация является тайной компании. Эти группы опираются на жизненный цикл внедрения ИИ: сначала команды уделяют приоритетное внимание внедрению и использованию, затем переходят к оценке влияния и в конечном счёте сосредотачиваются на управлении, стандартизации и экономической эффективности. Более качественный подход — сочетание прямых и косвенных показателей, а не использование одного из них. Опыт зарубежных компаний Измерение эффекта от внедрения ИИ — это сложная задача, требующая комплексного подхода. Необходимо выбрать те метрики и технологии, которые подойдут вашей команде или компании. Например, можно выбрать наиболее подходящие вам метрики из таблицы ниже. Какие параметры преобладают в ИТ-компаниях при оценке эффективности ИИ? • DAU/WAU/MAU: число уникальных пользователей, которые взаимодействовали с инструментом ИИ в течение дня, недели или месяца. Это базовый показатель внедрения и вовлеченности внутри компании. • CSAT — показатель удовлетворенности инструментом. Измеряются с помощью опросов. • DXI — это комплексный показатель, который часто включает в себя CSAT, но является более широким понятием, охватывающим всю среду разработки. В нашем случае разработчика, аналитика и т.д. Кажется, что все корректно, да? Можно смело бежать оценивать эти критерии и радостно докладывать руководству о выполненной задаче. На практике сотрудники будут "гуглить" в GPT всё, что им лень искать в интернете, а также решать задачи, которые никак не влияют на производственный процесс. Что же делать в таком случае? Ответ прост — помимо описанных метрик считайте такие группы показателей, как "влияние" и "стоимость". • Pull Request Throughput: количество изменений, которые команда или сотрудник вливает в основную ветку за определенный период. • Change Failure Rate: процент изменений, которые приводят к сбоям в продакшене и требуют исправлений. Важно отслеживать эту метрику вместе с метриками скорости, чтобы убедиться, что ускорение не происходит за счет качества. • DORA Metrics (Deployment Frequency, Lead Time for Changes, Mean Time to Recover, Change Failure Rate): набор из четырех ключевых метрик для оценки производительности DevOps-команд. Включает в себя частоту развертывания, время выполнения изменений, время восстановления после сбоя и процент неудачных изменений. • Cycle Time: время, которое проходит с момента начала работы над задачей до ее завершения (например, от создания ветки до слияния PR). Пример Наиболее эффективный пример внедрения — Dropbox. Компания достигла 78% уровня использования ИИ-инструментов среди инженеров. Dropbox отслеживает такие метрики, как ежедневные и еженедельные активные пользователи ИИ-инструментов, удовлетворенность клиентов (CSAT) ИИ-инструментами, сэкономленное время на инженера и затраты на ИИ. Сочетая эти данные с другими метриками (частота откатов изменений, пропускная способность PR), Dropbox обнаружил, что инженеры, регулярно использующие ИИ, объединяют на 20% больше PR (pull-request) в неделю, одновременно снижая частоту откатов изменений. Это подчеркивает важность комплексного подхода, который не фокусируется только на одном показателе, таком как внедрение. Рекомендации Если хотите профессионально подойти к вопросу оценки эффективности, используйте A/B тесты: измерьте ключевые показатели и только после этого смело приступайте к внедрению. Хотя некоторые компании предлагают более интересный подход — A/B тест после внедрения, когда команду делят на 2 группы, в одну из которых ИИ не внедряется вообще, либо у одной из команд ИИ отнимают. Поймете ли вы, что нужно было выбрать другие показатели уже после внедрения? Конечно. Поэтому сначала попробуйте представить свою цель — как именно вы будете использовать каждый показатель? Сможете ли вы сделать однозначный вывод об эффективности, если показатель увеличится или сократится? Если сейчас понимания нет, измерьте до старта работ все, что сможете, а выберете потом. Отслеживайте метрики, которые взаимно связаны. Почти все компании отслеживают частоту откатов изменений одновременно с показателями скорости, такими как пропускная способность PR (PR Throughput). Например, увеличение скорости при одновременном снижении качества сигнализирует о проблеме. Некоторые сотрудники с радостью используют вайб-кодинг дома, но не используют рабочие AI-сервисы, просто потому что они неудобные. Обратите на это внимание, когда в следующий раз решите, что не стоит добавлять в бэклог задачи по улучшению пользовательского опыта. Не переносите на себя 1 в 1 результаты других компаний. Если в Google разработчики получили прирост производительности в 40% — это совсем не значит, что ваши разработчики получат хоть какой-то прирост. Существует огромное кол-во неизвестных факторов от которых будет зависеть успешность использования ИИ именно в вашей компании. Используйте для анализа трекер задач. Почти каждый трекер поддерживает возможность создания кастомного поля. Введите 2 новых поля: "Задачу можно решить с помощью ИИ" и "Задача решена с помощью ИИ". Первое заполняется при постановке задачи, второе поле заполняет исполнитель. В конце спринта оцените, сколько задач не удалось решить с помощью ИИ и почему? Сколько задач, которые не планировалось решать через ИИ, было реализовано с его помощью? Расширьте определение понятия «разработчик». ИИ не только ускоряет работу штатных инженеров, но и меняет представление о том, кто может участвовать в создании программного обеспечения. Менеджеры по продукту, дизайнеры и бизнес-аналитики всё чаще используют инструменты ИИ для создания работающего программного обеспечения, стирая границы между техническими и нетехническими ролями. Измерение активности разработчиков, особенно при раскатке ИИ, может быть деликатной темой и воспринято неправильно. Шумиха вокруг ИИ в сочетании с застоем на рынке труда может усилить напряженность в команде. И конечно же, сотрудники сами начнут занижать эффективность инструментов, из-за страха потерять работу после его внедрения. Проактивная коммуникация крайне важна. Без нее пустота может заполниться домыслами и страхами. При внедрении показателей, связанных с использованием ИИ, необходимо обозначить, что эти показатели не будут использоваться при индивидуальной оценке эффективности работы. А цель измерений — понять, как использование ИИ влияет на возможности разработчиков и качество программного обеспечения, а не контролировать работу на микроуровне. Данные можно сегментировать по атрибутам пользователей, таким как роль, стаж работы, регион и язык программирования. Это помогает выявлять важные закономерности, например, что младшие разработчики становятся эффективнее, а старшие инженеры замедляются, тратя больше времени на код-ревью. Такой детальный анализ может помочь выявить группы разработчиков, которым требуется дополнительное обучение, или, наоборот, определить области, где ИИ работает лучше всего. Эффективное использование ИИ невозможно без эволюции процессов, создания чётких гайдлайнов и принципов разработки. ИИ точно следует описанным процессам, но не может их создать самостоятельно, так как не видит всей картины. Улучшайте качество генерируемых ответов, ведя корпоративную библиотеку эффективных промтов для часто повторяющихся задач. Это позволит сохранить экспертизу внутри компании, снизить затраты на повторное изобретение колеса и улучшать качество результатов ИИ с течением времени. Используйте управляющие промты, которые включают в себя требования к стилю, тону, принципам кодирования или корпоративным гайдлайнам. Такой подход гарантирует, что сгенерированные ответы будут соответствовать внутренним стандартам и принятым в компании процессам, предотвращая увеличение технического долга и обеспечивая поддерживаемость кода. Технологии повышения качества ИИ-результатов А что, если улучшать качество не только со стороны процессов, но и со стороны самой системы? Не стоит забывать про возможности погружения ИИ в вашу специфику, если она есть или если вас не устраивает качество результатов. Это можно сделать несколькими способами, но наиболее популярные сейчас — это RAG, MCP и Fine-Tuning. Технология Source: https://habr.com/ru/articles/956192/