Нет, ИИ не тормозит. Вы смотрите не на ту таблицу результатов — Unite.AI

Нет, ИИ не тормозит. Вы смотрите не на ту таблицу результатов. опубликованный By Стив Уилсон, Директор по искусственному интеллекту в Exabeam Руководители начинают пересматривать свои планы развития ИИ. После первоначального всплеска популярности генеративных инструментов в 2023 году вполне естественно задаться вопросом, не замедлился ли этот темп. Но этот вопрос неверно интерпретирует ситуацию. Прогресс в области ИИ не остановился. Он изменился. То, что когда-то казалось экспоненциальными изменениями на поверхности — беглое письмо, отточенные резюме — теперь происходит в более глубоких и важных областях: рассуждения, код, организация рабочих процессов и многомодальное понимание. Эти достижения менее броские, но гораздо более значимые. Если вы до сих пор оцениваете ИИ по его способности писать более качественные абзацы, вы упускаете из виду реальную трансформацию. Реальные результаты достигаются там, где выполняется работа. Прогресс ускоряется там, где это наиболее важно. На новых, строгих тестах, таких как GPQA, оценивающих логическое мышление на уровне аспирантуры, производительность моделей подскочила почти на 100%. 49 процентных пунктов в годовом исчислении В тесте MMMU, который проверяет выполнение междисциплинарных и мультимодальных задач, результаты выросли почти на 19 пунктов. SWE-скамья Показатель, требующий исправления реальных кодовых баз GitHub и прохождения автоматизированных тестов, подскочил с 4.4% до более чем 71% всего за один год. Это не незначительные улучшения. Они показывают, что большие языковые модели справляются с задачами, требующими точности, логического мышления и интеграции в сложных системах. SWE-bench, в частности, выходит за рамки простых задач и демонстрирует, могут ли модели участвовать в реальной разработке программного обеспечения — порог, который когда-то казался недостижимым на протяжении многих лет. В то же время, предприятия меняют свои ожидания. Уже недостаточно, чтобы модели были «общеинтеллектуальными» — они должны быть конкретно полезными. Переход к моделям, адаптированным к конкретной предметной области, системам, связанным с инструментами, и многоагентным структурам отражает растущий спрос на производительность, которая является операционной, поддающейся аудиту и интегрированной в реальные рабочие процессы. Рассказ не соответствует действительности. Так почему же кажется, что темпы замедляются? Есть две причины. Во-первых, задачи, которые изначально привлекали внимание — суммирование текста, генерация электронных писем и простые задачи в чате — достигли своего естественного потолка. Как только модель стабильно показывает 90% точности в этих задачах, прирост кажется минимальным. Это эффект потолка, а не плато в прогрессе. Сегодняшние улучшения касаются памяти с длительным контекстом, интеграции инструментов, рассуждений во время вывода и точности, специфичной для предметной области. Эти возможности не создают вирусные демонстрации, но они значительно расширяют возможности моделей в реальных рабочих процессах. В то время как традиционные языковые бенчмарки достигают плато, Операционные показатели, основанные на реальных сценариях использования, инструментах и ​​надежности предприятия, улучшаются быстрее, чем когда-либо. Этот разрыв объясняет несоответствие: сторонние наблюдатели видят стагнацию, потому что поверхность не изменилась, а специалисты видят трансформацию, происходящую прямо под ней. От демонстраций до развертывания Искусственный интеллект больше не ограничивается эффектными демонстрациями или узкоспециализированными прототипами. Он переходит на более широкое внедрение, особенно в корпоративной среде, где важны надежность, точность и результативность. Переход к структурированным, специализированным системам уже идет полным ходом. Ожидается, что в 40%. Встроенные агенты искусственного интеллекта будут использоваться в большинстве корпоративных приложений, что станет огромным скачком по сравнению с всего лишь 5% в 2025 году. Эти агенты предназначены не просто для реагирования на запросы, но и для выполнения задач, организации рабочих процессов и достижения ощутимых результатов в таких областях, как финансы, кибербезопасность и работа с клиентами. Эта эволюция отражает более глубокий технический сдвиг. Ведущие разработчики ИИ, включая OpenAI, выходят за рамки масштабирования методом грубой силы и переходят к рассуждениям на этапе вывода, позволяя моделям анализировать проблемы, проверять результаты и динамически взаимодействовать с внешними инструментами. То, что когда-то выглядело как узкая автоматизация, становится чем-то гораздо более функциональным: агентами, которые планируют, адаптируются и надежно выполняют задачи. Это не просто более крупный ИИ. Это более умный ИИ, созданный для реальной работы. И эта реальная работа измеряется, а не просто представляется. Предприятия переходят от циклов проверки концепции к готовым к внедрению в производство системам с четкими ключевыми показателями эффективности и бизнес-целями, привязанными к результатам. Эта фаза зрелости меньше связана с новизной и больше с надежностью. Ошибка, которую вот-вот совершат руководители. Реальный риск, с которым сегодня сталкиваются руководители предприятий, заключается не в том, что прогресс в области ИИ застопорился. Риск состоит в том, что они поверят в это и приостановят инвестиции именно в тот момент, когда возможности ИИ стремительно развиваются, оставаясь скрытыми от глаз. Организации, вырывающиеся вперед, не ждут очередного анонса в стиле GPT. Они внедряют современные технологии ИИ в высокоэффективные межфункциональные рабочие процессы и добиваются измеримого влияния на бизнес. Более двух третей Организации, использующие ИИ, сообщают о значительном снижении затрат или росте доходов, напрямую связанных с этими внедрениями. Наиболее успешными оказались те, кто интегрировал ИИ в различные бизнес-функции и автоматизировал целые цепочки процессов. Тем не менее, многие управленческие команды по-прежнему используют устаревшие системы оценки. Они полагаются на академические критерии, которые больше не отражают сложность реальных задач предприятия. Они чрезмерно оптимизируют процесс ради формальной эффективности, игнорируя при этом операционную ценность точности, возможности восстановления и интеграции. Это не просто техническое отставание, это стратегическое отставание. Разрыв между компаниями, которые пересмотрели свой подход к ИИ, и теми, кто этого не сделал, увеличивается. И вскоре он будет измеряться не количеством внедренных моделей, а долей рынка и временем получения выгоды. Как переосмыслить оценку ИИ Пришло время обновить систему показателей. Организациям необходимо отслеживать полное выполнение задач, координацию инструментов и кросс-модальные рабочие процессы. Модели следует оценивать не только по тому, «отвечают ли они на вопрос», но и по тому, выполняют ли они многоэтапную задачу, восстанавливаются после сбоев и выдают ли результаты, интегрируемые в существующие системы. Бенчмарки, такие как GPQA, MMMU и SWE-bench, — это только начало. Но внутренние бенчмарки, разработанные с учетом специфики корпоративной среды и рабочих процессов, еще важнее. Современный ИИ способен обеспечивать высокоэффективные результаты, но только если вы проверяете именно те результаты, которые имеют значение. Успех следующей волны будет определяться не моделями с наибольшим количеством параметров, а системами, которые надежно работают в конкретном бизнес-контексте. Точность, возможность аудита, поддержка инструментального обеспечения и восстановление после ошибок будут иметь большее значение, чем беглость речи или тон. Граница переместилась Искусственный интеллект не стоит на месте. Он переходит на тот уровень, где происходит реальная работа, где системам приходится рассуждать, проверять и взаимодействовать в разных областях. Он выходит из фазы новизны и вступает в фазу инфраструктуры. Компании, понимающие эти изменения, уже создают конкурентное преимущество. Они не гонятся за следующей вирусной демографической группой. Они добиваются реальной производительности, сокращают время решения проблем и масштабируют процессы с точностью и скоростью. Если вы всё ещё смотрите на старое табло, вы упускаете из виду, что очки набираются где-то ещё. Следующие лидеры будут не теми, кто ждал фейерверков. Это будут те, кто разглядел истинный смысл и отреагировал на реальный сигнал. Source: https://www.unite.ai/ru/no-ai-isnt-stalling-youre-looking-at-the-wrong-scoreboard/