Автор оригинала: David Noel Ng Введение Запуск крупных языковых моделей локально всегда был игрой в компромиссы. Вы либо тратите более $10 000 на GPU потребительского уровня, которые едва справляются с моделями на 70 миллиардов параметров, либо мечтаете о корпоративном оборудовании, которое вам никогда не по карману. Платформа Grace-Hopper — архитектура суперчипов Nvidia, объединяющая CPU и GPU на одном кристалле, — представляет собой именно ту инфраструктуру для ИИ, о которой мечтает сообщество LocalLlama, причём системы обычно стоят более $100 000 и доступны исключительно дата-центрам и исследовательским учреждениям. Поэтому, когда я наткнулся на систему Grace-Hopper, продаваемую за 10 тысяч евро на Reddit, моей первой мыслью было «откровенный развод». Второй мыслью было «интересно, а согласится ли он на 7,5 тысячи евро?». Это история о том, как я приобрёл корпоративное ИИ-оборудование, разработанное для жидкостного охлаждения в серверных стойках, которое было переделано на воздушное охлаждение, затем я снова перевёл его на водяное охлаждение, пережил несколько "почти катастроф" (включая работу с GPU, сообщающим, что у него температура в 16 миллионов градусов) и в итоге получил настольную систему, способную запускать модели с 235 миллиардами параметров дома. Это повествование о сомнительных решениях, творческом решении проблем и о том, что происходит, когда вы пытаетесь превратить серверное оборудование в повседневную рабочую станцию. Если вам когда-либо было интересно, что требуется для запуска действительно крупных моделей локально, или если вы просто пришли посмотреть, как кто-то разбирает оборудование стоимостью $80 000, вооружившись лишь надеждой и изопропиловым спиртом, вы попали по адресу. Сделка В начале этого года, просматривая r/LocalLLaMA/new, я наткнулся на невероятно выгодное предложение . Насколько выгодное? Вот характеристики сервера, предлагаемого за 10 тысяч евро — серьёзное обновление по сравнению с моей системой на 4x RTX 4090: Характеристики: 2x 72-ядерных процессора Nvidia Grace CPU 2x GPU Nvidia Hopper H100 Tensor Core 2x 480 ГБ LPDDR5X памяти с коррекцией ошибок (ECC) 2x 96 ГБ HBM3 памяти 1152 ГБ общей высокоскоростной памяти NVLink-C2C: пропускная способность 900 ГБ/с программируемое энергопотребление от 1000 Вт до 2000 Вт (TDP CPU + GPU + память) 1x высокоэффективный блок питания 3000 Вт (230 В → 48 В) 2x слота PCIe Gen4 M.2 22110/2280 на материнской плате 4x FHFL PCIe Gen5 x16 Уточнение: С тех пор как я купил эту систему, цены на DDR5 RAM стали безумными. 960 ГБ быстрой DDR5 сейчас стоят дороже, чем вся моя Grace-Hopper система 🤯 «Это развод», — подумал я, потому что: H100 стоят около 30-40 тысяч евро каждая, а в этой системе их две системы Grace-Hopper NVL2 практически недоступны для потребителей! В посте Reddit объяснялась причина такой низкой цены: Основная причина в том, что это «Франкенштейн-система», переведённая с жидкостного охлаждения на воздушное. Кроме того, она выглядит не очень эстетично и не подходит для монтажа в стойку из-за прикреплённого блока питания на 48 В. Изначально система поставлялась напрямую от Nvidia. Я немедленно предложил купить её, ведь почему бы и нет? Если это мошенничество, я всегда могу отказаться, но я хотел быть первым в очереди! Оказалось, что я живу недалеко от продавца, и он владеет интернет-магазином, который продаёт модифицированное серверное оборудование Nvidia в формате настольных ПК . Это всё ещё казалось довольно рискованным, поэтому я провёл исследование и нашёл видеообзор одного из его настольных ПК на YouTube. Поскольку сделка теперь казалась хотя бы правдоподобной, а продавец находился всего в двух часах езды и согласился принять наличные, пришло время отправиться в дорожное путешествие по Баварии. Я приехал к фермерскому дому в небольшом лесу и встретил Бернхарда — владельца GPTshop.ai . Он показал мне хорошую мастерскую (плазменные резаки, электронная лаборатория и т.д.), в которой он изготавливает специальные корпуса для высокопроизводительных H100-десктопов. Эти настольные ПК выглядят очень прилично, поэтому жаль, что его веб-магазин производит сомнительное впечатление; регистрация бизнеса на Каймановых островах определённо его не улучшает. Что я могу сказать, так это то, что этот товар был сильно скидочным и не относился к тем изысканным высококлассным настольным системам, которые он обычно продаёт. Отказ от ответственности: У меня нет никакой аффилированности с GPTshop.ai , кроме как передачи им пачки наличных и получения взамен покрытого пылью сервера. Если бы это была спонсорская публикация, они вряд ли позволили бы мне упоминать температуры GPU в 16 миллионов градусов или часть, где мне пришлось паять компоненты навесным монтажом, молясь электронным богам. Разборка сервера Grace Hopper Сам сервер находился в не самом лучшем состоянии. Всё это добро работало чрезвычайно шумно, имело высокопроизводительные вентиляторы, которые засосали много пыли, покрыв материнскую плату таким её слоем, что я не мог определить цвет текстолита. Однако система запустилась и работала нормально, поэтому я передал пачку наличных, пристегнул сервер ремнём безопасности на заднем сиденье моей машины (весил он около 20 кг) и повёз домой. Я упоминал слово "шумно"? Запуск системы причиняет физическую боль. Там установлено 8 модулей Sunon с двойными вентиляторами, каждый из которых громкий, как мощный пылесос, но с гораздо более высокой и раздражающей тональностью звука. При работе всех 8 на полной мощности требуется защита для слуха — я мог слышать работу системы в подвале с закрытыми окнами на расстоянии 50 метров! Моя жена немедленно (и совершенно справедливо) запретила его использование дома. Мы оба работаем из дома, и мы не могли участвовать в онлайн-созвонах. Но у меня были другие планы… Прежде всего, я, конечно же, сначала сфотографировал различные соединители между всеми этими платами, модулями и материнской платой, а потом приступил к разборке сервера. Очистка сервера Существенную часть пыли удалось убрать пылесосом во время разборки, но было очевидно, что под модулями Grace‑Hopper её ещё много. После их демонтажа я решил полностью промыть материнскую плату. Я купил несколько литров изопропилового спирта и с помощью мягкой щётки несколько раз обработал всю плату, чтобы удалить оставшуюся мелкую пыль из разъёмов и между выводами SMD‑компонентов. Я предположил было, что пыль может быть и внутри модулей Grace‑Hopper — но на самом деле я просто очень хотел их открыть, чтобы заглянуть внутрь. Положил материнку на теплый пол на неделю для просушки, а пока перешёл к замене системы охлаждения. Новая система водяного охлаждения Я подумал было о создании собственного, кастомного блока водяного охлаждения, но беспокоился о возможных протечках, так что поискал и нашёл недорогие системы водяного охлаждения «все‑в-одном» , по ~40 евро каждая со скидкой. Двух штук на каждый модуль GH200 было бы достаточно, поэтому я тщательно измерил размеры кристаллов GPU и CPU, а также расположение винтов, и занёс эти данные в Fusion 360 для моделирования адаптерных блоков. У меня есть Bambu X1, который очень пригодился для прототипирования адаптерных блоков. Допуски должны быть очень точными, поэтому я напечатал несколько версий с вырезами, чтобы убедиться в надёжном контакте с открытым кристаллом GPU и безопасном расстоянии от хрупких частей. Отправил детали на ЧПУ-фрезеровку, они приехали, когда материнская плата закончила сохнуть. После использования ещё большего количества изопропилового спирта для удаления масла, использованного в процессе обработки, их установили без особых проблем. Сборка настольной системы Мой основной материал для таких проектов — ProfilAlu с eBay. Он недорогой, жёсткий и поставляется предварительно нарезанным для сборки. Я собрал дизайн в Fusion 360, и детали прибыли через несколько дней. Однако различные крепления потребовали гораздо больше работы. Мне нужно было спроектировать несколько десятков специальных креплений для различных плат и фиксаторов воздушных фильтров; на это ушло несколько килограммов филамента, чтобы всё получилось правильно. Катастрофы То, что издаёт звук «ХЛОП» ночью… 💀 Я обнаружил, что один из самых страшных звуков, которые вы когда‑либо услышите, — это «хлопок», за которым следует «шипение», исходящие от материнской платы стоимостью $80 000, над которой вы только что работали. Запах волшебного дыма, появляющийся моментами позже, вызывает больше ощущение ужаса. Идея была достаточно простой: у меня есть 8 мощных вентиляторов, каждый из которых должен потреблять огромный ток и работать при 12 В. В то же время у меня есть четыре системы водяного охлаждения, которые также работают при 12 В. Просто, правда? Я меняю стандартный 3-контактный разъём вентилятора от потребительского охладителя Arctic на странный серверный разъём вентилятора, и я могу запитать их от материнской платы, да ещё с управлением скоростью вращения! Проблема 1. Какие-то странные разъёмы для вентиляторов на материнской плате. Они выглядели как крошечные Molex, но я их не узнал. Кажется, я наконец нашёл их в продаже, но они стоили ~20 евро каждый, а у меня есть принципы! Поэтому я составил схему проводки и с помощью резки и пайки изготовил адаптеры, после чего восстановил систему. Затем последовали хлопок и шипение… Мои расчёты по потреблению тока, должно быть, были не совсем точны! Проблема 2. После разборки только что изготовленного изящного адаптера и перепайки вентиляторов я обнаружил, что несколько вентиляторов больше не работают. Хмммм. Перестановка различных вентиляторов показала ясную картину: некоторые разъёмы для вентиляторов на материнской плате не работали. Я взял свою самодельную тепловизионную камеру (тема для другого поста в блоге) и осмотрел всю плату, прежде чем заметить то, что выглядело как тёплый MOSFET (по сути, переключатель). Я погуглил маркировку, но результатов не было. Проблема 3. Мне нужен был новый способ питания 12В AIO-водяных охладителей. Основной блок питания обеспечивает 48 В при 62,5 А, что как-то многовато, и я не был готов подключать их последовательно после последнего небольшого «инцидента». Я купил дешёвый блок питания 12 В-5 А с Amazon, потому что было указано «доставка на следующий день», и он обошёлся менее чем в 10 евро. Когда он прибыл, моя система охлаждения снова заработала! Критические ошибки вентиляторов Система больше не запускалась. Проверяя логи, я увидел 6 критических ошибок, по одной для каждого неработающего драйвера вентилятора из 8 пар: Дата/время Source: https://habr.com/ru/articles/976438/