Как мы собрали ML-платформу на Kubernetes и не утонули в YAML — Habr

KServe для инференса моделей, KubeRay — для распределённых вычислений и управления задачами. Каждый модуль независим: можно развернуть только нужные — например, ограничиться JupyterHub или добавить Airflow и MLflow для полного цикла MLOps. Все настройки выполняются через ресурсы MLInfrastructure и MLCluster, которые создаёт оператор. Оператор интегрирован с FluxCD: изменения конфигурации применяются автоматически и безопасно. Чтобы включить новый модуль, достаточно изменить манифест ресурса — и платформа сама доставит нужные компоненты в кластер. Это избавляет от ручных кастомизаций на сотни строк и делает процесс воспроизводимым. С точки зрения эксплуатации, Nova AI — это управляемая среда, где ML-инструменты остаются независимыми сервисами, но их установка и обновления происходят централизованно. Общий интерфейс управления при этом не навязывается: у каждого инструмента сохраняется свой UI — JupyterHub, MLflow, Airflow и т. д. Так достигается баланс между гибкостью и контролем: единая точка управления через CRD и GitOps, но полная автономность компонентов на уровне работы и интерфейсов. GPU и производительность В Nova AI дробление GPU на уровне драйвера реализовано стандартными средствами NVIDIA — MIG и time-slicing. Ниже кратко о том, как эти режимы работают и чем отличаются. Тот или иной режим выбирается в зависимости от конфигурации и возможностей видеокарты. MIG обеспечивает аппаратное разделение GPU на независимые логические секции. Каждая получает гарантированные ресурсы, и «перетекание» нагрузки между задачами исключено. Такой вариант даёт стабильную производительность и защищённость от ошибок вроде Out of Memory, но требует GPU с поддержкой MIG на уровне железа (серии A100/H100 и совместимые). Time-slicing распределяет ресурсы по времени. Это более гибкий режим, доступный почти на всех видеокартах, но без строгой изоляции: отдельные процессы могут временно занимать больше ресурсов, чем запланировано, что потенциально влияет на соседние задачи. Nova AI не накладывает собственных ограничений — все возможности и лимиты определяются самим железом и драйверами NVIDIA. Платформа просто обеспечивает правильную интеграцию и автоматическую настройку через GPU Operator, без необходимости ручного тюнинга. Распределенный инференс Платформа поддерживает объединение ресурсов GPU с разных физических серверов. Это позволяет запускать крупные языковые модели, которым требуется больше видеопамяти, чем доступно на одном узле. В одном из пилотных кейсов на четырёх серверах с GPU NVIDIA Tesla T4 были запущены модели Qwen-2.5-7B и Qwen-2.5-Coder-14B. Платформа автоматически распределяла нагрузку между карточками и масштабировала вычисления внутри единого GPU-кластера. Утилизация и контроль производительности Nova AI включает инструменты для мониторинга и анализа загрузки ресурсов, но не задаёт единую систему метрик. Платформа обеспечивает базовые механизмы сбора данных, а выбор и интерпретация метрик остаются на стороне команды. Инженеры могут логически делить GPU и распределять задачи параллельно, повышая фактическую утилизацию ресурсов видеокарт. Для мониторинга можно использовать привычный стек Prometheus и Grafana с экспортом метрик GPU, CPU, памяти и сетевых задержек. Типовая интеграция включает централизованные метрики, логи и алёртинг на уровне Kubernetes. Набор графиков и правил уведомлений можно расширять под конкретный ворклоад: следить за загрузкой GPU, откликами пайплайнов, временем инференса или простоями вычислительных узлов. Nova AI не подменяет собой систему наблюдаемости — она даёт инфраструктурный слой, где метрики доступны из коробки и легко встраиваются в существующие процессы DevOps/MLOps. Ключевая идея такая: дробление GPU реализовано нативно через NVIDIA-операторы; поведение зависит от выбранного режима (MIG / time-slicing); платформа не лезет в вычисления, а отвечает за предсказуемую работу и мониторинг среды. Безопасность и комплаенс В Nova AI безопасность встроена на уровне инфраструктуры — от управления секретами до сканирования на уязвимости контейнеров и хостов. Управление секретами и токенами Центральный элемент системы — StarVault, хранилище секретов компании Orion soft. Оно служит единой точкой входа для всех сервисов Nova AI и обеспечивает централизованный контроль доступа. Компоненты с пользовательским интерфейсом — MLflow, JupyterHub, Airflow и другие — интегрированы со StarVault по протоколу OIDC (OpenID Connect). Пользователь проходит аутентификацию один раз, а доступ к сервисам управляется через общую политику. Для доставки секретов в контейнеры поддерживаются несколько механизмов: Vault Agent — автоматически получает и обновляет секреты внутри подов; Vault CSI Driver — монтирует секреты в виде файлов; Vault Secrets Webhook — подставляет токены и переменные окружения при запуске контейнеров. Такой подход исключает хранение секретов в открытом виде и обеспечивает безопасную работу ML-стека даже в изолированных инфраструктурах. Защита контейнеров и сетей В Nova AI реализован тот же уровень безопасности, что и в базовой Nova Container Platform. Для контроля среды выполнения используется NeuVector — модуль, отвечающий за runtime-мониторинг и анализ сетевых соединений. Он выявляет уязвимости, отслеживает подозрительную активность и при необходимости блокирует несанкционированные операции. Модуль подключается опционально, но при активации обеспечивает промышленный уровень наблюдаемости и защиты, достаточный для критичных и закрытых сред. Соответствие требованиям Nova AI создаётся с учётом российских норм информационной безопасности и политики импортозамещения. В экосистеме Orion soft уже есть сертифицированная редакция продукта, одобренная ФСТЭК. Команда работает над её обновлением и планирует включить туда модули ML-инфраструктуры Nova AI. Платформа полностью совместима с отечественными ОС: Astra Linux, Red OS и другими. Все базовые компоненты, включая NVIDIA GPU Operator, протестированы на этих дистрибутивах и обеспечивают корректную работу GPU. В планах — пересборка ключевых компонентов ML-стека (Airflow, MLflow, и др.) из исходников с устранением уязвимостей, что обеспечит прозрачность, контроль версий и соответствие требованиям безопасности при поставке решений заказчикам. Таким образом, Nova AI уже поддерживает необходимые отечественные ОС и стандарты, а в перспективе планирует стать частью сертифицированной сборки, предназначенной для организаций с повышенными требованиями к ИБ и комплаенсу. Типовой пилот Развернуть минимальный кластер Nova AI в среднем занимает 30–40 минут. Процесс полностью описан в документации и не требует ручных доработок. Для пилота достаточно: одного узла с GPU (физического или виртуального, поддерживающего драйверы NVIDIA). Если в ворклоаде используется GPU, нужно наличие такого узла и установка ресурса MLInfrastructure. Если же нагрузка выполняется только на CPU, ресурс MLInfrastructure можно не устанавливать — достаточно MLCluster; предустановленной Nova Container Platform либо чистого сервера для её установки; лицензии Nova AI. Из подготовки — только установка видеодрайверов NVIDIA. Этот шаг выполняется строго по инструкции: требуется установка NVIDIA GPU Drivers. Мы протестировали их совместимость с отечественными ОС — Astra Linux и Red OS, так что проблем с установкой и работой GPU в этих средах не возникает. После выполнения необходимых подготовительных шагов кластер разворачивается из готовых манифестов, и пользователю сразу доступны базовые компоненты ML-стека — JupyterHub, MLflow, Airflow. Такой пилот позволяет быстро проверить интеграцию с инфраструктурой заказчика и оценить возможности платформы в реальных условиях. Сложности первых внедрений Успешное развертывание Nova AI во многом зависит от подготовленности среды и согласованности инфраструктуры. При наличии у команды базовых навыков работы с Kubernetes и контейнерами установка проходит без затруднений Чаще всего ошибки возникают из-за: некорректных сетевых конфигураций или маршрутизации; нехватки понимания механики подов и ресурсных лимитов; неверно настроенных архитектурных зависимостей. Эти вопросы решаются совместно: инженеры Orion soft подключаются к пилотам, помогают с конфигурацией и разбором ошибок. Обычно достаточно одного совместного сеанса, чтобы привести систему в рабочее состояние. Поддержка и обновления Nova AI изначально создавалась как управляемая платформа, где обновления и конфигурации применяются по принципу GitOps. Все параметры хранятся в репозитории и синхронизируются автоматически — без ручных вмешательств. Перед релизом обновления проходят внутреннее тестирование: проверяется совместимость модулей и корректность обновления. В продакшн выкладываются только проверенные контейнерные образы, которые устанавливаются стандартными командами. Во время пилота создаётся общий чат с инженерами OrionSoft — через него решаются вопросы по установке и конфигурации. После выхода в продакшн заказчики подключаются к техподдержке и при необходимости передают кейсы напрямую в разработку. За счёт такой схемы обновления проходят предсказуемо, а кластеры остаются воспроизводимыми и управляемыми. Будущее и опыт Пока проходят первые пилоты мы собираем обратную связь от инженеров и заказчиков, чтобы понять, какие задачи им важнее всего закрыть в ближайших релизах. Дальше — курс на развитие по нескольким ключевым направлениям. Альтернативные GPU. Сейчас платформа оптимизирована под NVIDIA, но мы работаем над совместимостью и с китайскими видеокартами — это важно в условиях импортозамещения и локальных поставок железа. Рабочие окружения. Помимо JupyterHub появится поддержка VS Code как альтернативного инструмента для экспериментов — для тех, кто привык писать код именно в нём. ML-стек. В разработке новые компоненты: мониторинг моделей, Feature Store и инструменты, которые помогут глубже контролировать и управлять ML-процессами. Network Operator. Добавление этого компонента позволит гибче управлять сетевыми политиками и изоляцией сервисов внутри ML-кластера. UX для дата-сайентистов. Хочется, чтобы работа между компонентами была максимально естественной: например, результаты экспериментов из JupyterHub автоматически появлялись в MLflow без дополнительных действий. Инфраструктура. В ближайших релизах появится автоматическая установка GPU-драйверов для российских ОС — чтобы новый сервер можно было запустить без участия администратора. Дорожная карта гибкая: приоритеты задаёт не внутренний план, а реальные сценарии у заказчиков. Связаться с нами и запросить демо можно через сайт Nova AI — там же оформляется пилот. А в комментариях расскажите, с какими проблемами вы сталкивались при запуске ML-инфры и что помогло их решить — обсудим. Теги: Source: https://habr.com/ru/companies/orion_soft/articles/966172/