Блог компании VK Tech Машинное обучение * Искусственный интеллект Исследования и прогнозы в IT * Аналитика 2025-й заканчивается сдвигом в индустрии ИИ: фокус уходит от масштабного обучения к энергоэффективному инференсу, где универсальные GPU Nvidia уступают специализированным TPU и Trainium. Техногиганты вроде Google и AWS анонсировали чипы с преимуществами в 4–5 раз по цене и энергопотреблению, а сделки на миллиарды фиксируют новый расклад сил. Разберем, почему 2026-й станет годом экономического дарвинизма для железа и софта. Nvidia: начало конца гегемонии С массовым выходом рассуждающих моделей в этом году фокус индустрии стремительно смещается с обучения на инференс. А это совсем другая экономика чипов, где универсальность GPU от Nvidia перестает быть решающим фактором, уступая место энергоэффективности и стоимости владения. Монополия размывается на глазах: техногиганты переходят от слов к делу и атакуют лидера одновременно с двух фронтов, технологического и коммерческого. Технологический прорыв: Google и Amazon Google TPU v7 «Ironwood». Новое поколение тензорных процессоров Google демонстрирует в 4,7 раза лучшую производительность на доллар и на 67% меньшее энергопотребление на токен по сравнению с Nvidia H100/H200. Ключевое преимущество Google — архитектура масштабирования. В компании используют оптические коммутаторы (OCS), которые позволяют объединять более 9000 чипов в единый суперкомпьютер без лишних задержек. В этом аспекте Nvidia с ее дорогим и сложным NVLink начинает проигрывать в гибкости построения гигантских кластеров. Amazon Trainium3 и Trainium4. AWS наносит удар своим первым 3-нм AI-чипом Trainium3 UltraServers могут обеспечивать в 4,4 раза большую вычислительную производительность и в 4 раза лучшую энергоэффективность по сравнению с предыдущим поколением. EC2 UltraClusters 3.0 могут объединять до миллиона чипов Trainium (в 10 раз больше, чем раньше). Пользователи, такие как Anthropic и стартап Decart (генерация видео в реальном времени), уже сообщают о снижении затрат на 50% и четырехкратном ускорении генерации. Но самым интересным выглядит анонс Trainium4. Его киллер-фича — это совместимость с Nvidia NVLink Fusion. AWS строит хитрую стратегию: вместо прямой конфронтации создают гибридную экосистему, где эти чипы могут работать в связке с GPU Nvidia. Это снимает главный барьер для компаний, завязанных на CUDA, позволяя им плавно внедрять более дешевое железо AWS без переписывания кода. Рыночный сдвиг: три сделки, меняющие правила игры Пока инженеры мерятся терафлопсами, бизнес заключает контракты, которые фиксируют новый передел рынка: Альянс Google и Anthropic. Компании заключили соглашение на десятки миллиардов долларов. Речь идет о развертывании до миллиона TPU для обеспечения инференса моделей Claude. К 2026 году под эти задачи будет выделено более 1 ГВт мощностей. Рынку прямо говорят: топовые модели могут и будут работать не на Nvidia. OpenAI идет путем независимости. OpenAI и Broadcom объявили о стратегическом партнерстве по разработке кастомных AI-чипов. Цель амбициозна: инфраструктура на 10 ГВт, оптимизированная конкретно под нагрузки OpenAI. Первые чипы ожидаются к концу 2026 года, а полное развертывание — к 2029-му. Сэм Альтман повторяет путь Google и делает ставку на полный контроль стека, от транзистора до токена, чтобы избавиться от «налога Nvidia». Qualcomm вступает в игру. Мобильный гигант выходит на рынок серверных вычислений. Анонсированы чипы AI200 (2026 год) и AI250 (2027 год). Первым крупным клиентом стал саудовский стартап Humain, который планирует развертывание мощностей на 200 МВт. Больше альтернатив Эра безальтернативных универсальных GPU подходит к концу. Специализированные чипы (ASIC) под инференс дают слишком большое преимущество в цене, чтобы их игнорировать. По оценкам индустрии, строительство дата-центра на 1 ГВт сегодня обходится примерно в 50 млрд долларов. Из этой суммы львиная доля — около 35 млрд долларов — уходит на закупку чипов по текущим ценам Nvidia. Переход на специализированные решения (от Google, Amazon или Broadcom) позволяет радикально снизить эту цифру. Маленькие модели побеждают большие В следующем году стратегия «масштаб любой ценой» перестанет быть актуальной. Модели до 10B параметров (Phi-4 Mini, Ministral 3, Qwen 3 8B) теперь показывают результаты уровня GPT-4o (образца 2024 года). Возможно, в 2026 году мы увидим, как маленькие модели догоняют по своим возможностям флагманы 2025 года. Секрет их успеха — в качестве синтетических данных и выжимке рассуждений от продвинутых моделей-«учителей». Что это дает пользователям: Приватность: полное развертывание On-Premise без отправки чувствительных данных в облако. Скорость: fine-tuning занимает часы на одном GPU вместо недель на кластере. Агенты: сверхнизкая задержка (latency) критически важна для многошаговых цепочек рассуждений, где гигантские модели слишком медленны. Китай и Open Source Несмотря на санкции, к концу 2025 года Китай выпустил более сотни открытых LLM. Новые DeepSeek-V3.2 и Qwen 3 догнали многие проприетарные модели, а в задачах кодинга и математики даже опережают их. И это при стоимости инференса в несколько раз ниже. Китай пошел по понятному пути: при ограниченном железе стал доводить до совершенства софт. Архитектура Mixture-of-Experts (MoE) активирует лишь малую часть параметров на токен (например, 22B из 235B), выдавая производительность флагманов США за копейки. Зачем платить OpenAI, если Qwen 3 можно скачать бесплатно, а его «рассуждающая» версия (Thinking Mode) решает задачи часто не хуже платных аналогов? Кибербезопасность: эра DarkOpenrouter Атаки теперь совершаются не только вредоносным кодом, но и AI-агентами. Anthropic раскрыл кампанию, где хакеры использовали модифицированный Claude Code для создания автономных агентов-взломщиков. Агенты сами сканировали сети, выявляли уязвимости, переписывали код атаки при неудаче цикла за секунды вместо часов. Классический фишинг продолжит эволюционировать и все больше полагаться на LLM, клонирование голоса, дипфейки. В 2026 ждем расцвет «Deception-as-a-Service», DarkOpenrouter с доступом к моделям, лишенным всяческих ограничений. Как может выглядеть потенциальный DarkOpenRouter: нелегальный или полулегальный шлюз к мощным моделям без safety-ограничений; каталоги «боевых промптов» и готовых пайплайнов (DaaS — Deception-as-a-Service); «агентные» ботнеты, где LLM-агент управляет целой сетью традиционных ботнет-узлов. В 2026-м крупные корпорации и страховые компании начнут требовать не просто «политики ИБ», а аудита использования LLM и агентов: какие модели, с какими настройками, на каких задачах и как именно они контролируются и ограничены. Неолуддизм и политика Мы ждем объединения самых разных групп — алармистов и конспирологов, профсоюзов и экологов, которые все вместе будут противостоять развитию LLM, строительству дата-центров, внедрению AI-агентов. Возможно, в следующем году мы увидим первую попытку атаки подобной группы на дата-центр. А после, конечно же, ждем фрагментацию законодательного ландшафта и разделения сфер влияния AI разных стран США: Акцент на закрытых проприетарных моделях и конкуренции между крупными игроками OpenAI, Anthropic, Google. Европа: жесткое законодательное регулирование и бюрократические барьеры приведут к все большему отставанию. Китай: суверенная экосистема, изолированная от Запада. Борьба с западными провайдерами и захват рынка за счет сильных Open-Source-моделей. В итоге корпорациям придется разворачивать разные модели для разных юрисдикций. Издержки при этом вырастут, фрагментация экосистем усилится, политика все больше будет влиять на выбор и использование моделей. Наш прогноз на 2026-й Экономический дарвинизм. Мы уже имеем на рынке ситуацию, в которой слишком много агентов, копайлотов и прочих AI-сервисов для слишком малого числа реальных задач. С высокой долей вероятности в 2026-м это перерастет в волну закрытий и M&A. Выживут те, у кого есть: уникальные данные; AI-агент, глубоко интегрированный в бизнес-процесс; доступ к дешевой специализированной инфраструктуре (TPU/Trainium/ASIC). В итоге «конец эпохи хайпа» — это не конец AI, а конец дешевых денег под абстрактный «GenAI». Децентрализация железа. Монополия Nvidia размывается, рынок инференса дробится между Google TPU, AWS Trainium, Groq, Cerebras и другими, не говоря уже о том, что, вполне возможно, в 2026 году мы увидим китайские аналоги Google TPU и AWS Trainium. Вертикальная интеграция стека. Побеждают те, кто контролирует путь от транзистора до токена: свои чипы, оптимизированные кластеры, свои reasoning-модели, свой агентный слой. OpenAI + Broadcom, Google TPU, AWS Trainium — все это ведет к снижению «налога Nvidia» и стоимости токена. Гибридный интеллект. SLM в On-Premise контуре для быстрых задач + тяжелая модель в облаке для сложных рассуждений. Первый крупный физический инцидент из-за ИИ-агента. Сбой энергосети, транспортный коллапс или авария на производстве. Это вызовет волну регулирования с требованием «человека в контуре» и потенциально приведет к запрету на публикацию Open-Source-моделей с числом параметров более 100–200 млрд. В итоге победят не те, кто построит самую большую модель, а те, кто интегрирует дешевое специализированное решение на базе LLM в реальные процессы и экономику. Теги: Source: https://habr.com/ru/companies/vktech/articles/974790/