Qwen2.5:70B (4bit) 12.21 tokens/s На примере пары совпавших позиций видно, что скорость генерации у Mac Studio M3 Ultra примерно в 2 раза выше, чем у Nvidia DGX Spark. Не обязательно сравнивать эти цифры сейчас, я приведу финальную таблицу в конце статьи. Но уже сейчас понятно, что Mac Studio M3 Ultra (особенно версия с 512 ГБ оперативной памяти на борту) — самое оптимальное решение для локального инференса LLM на сегодняшний день. Если бы не один жирный минус — высокая цена [8] : Конфигурация M4 Max, 16C CPU, 40C GPU, 128GB, 512GB 3499 M4 Max, 16C CPU, 40C GPU, 128GB, 1TB 3699 M4 Max, 16C CPU, 40C GPU, 128GB, 2TB 4099 M4 Max, 16C CPU, 40C GPU, 128GB, 4TB 4699 M4 Max, 16C CPU, 40C GPU, 128GB, 8TB 5899 M3 Ultra, 28C CPU, 60C GPU, 256GB, 1TB 5599 M3 Ultra, 28C CPU, 60C GPU, 256GB, 2TB 5999 M3 Ultra, 28C CPU, 60C GPU, 256GB, 4TB 6599 M3 Ultra, 28C CPU, 60C GPU, 256GB, 8TB 7799 M3 Ultra, 28C CPU, 60C GPU, 256GB, 16TB 10199 M3 Ultra, 32C CPU, 80C GPU, 256GB, 1TB 7099 M3 Ultra, 32C CPU, 80C GPU, 256GB, 2TB 7499 M3 Ultra, 32C CPU, 80C GPU, 256GB, 4TB 8099 M3 Ultra, 32C CPU, 80C GPU, 256GB, 8TB 9299 M3 Ultra, 32C CPU, 80C GPU, 256GB, 16TB 11699 M3 Ultra, 32C CPU, 80C GPU, 512GB, 1TB 9499 M3 Ultra, 32C CPU, 80C GPU, 512GB, 2TB 9899 M3 Ultra, 32C CPU, 80C GPU, 512GB, 4TB 10499 M3 Ultra, 32C CPU, 80C GPU, 512GB, 8TB 11699 M3 Ultra, 32C CPU, 80C GPU, 512GB, 16TB 14099 Забываем на время про потенциальную возможность завести на своем рабочем столе свой личный полноразмерный Deepseek и двигаемся дальше. Strix Halo (RYZEN AI MAX+ 395) Строго говоря, это название не какого-то конкретного мини ПК, а архитектуры (Strix Halo) нового процессора AMD на её основе (RYZEN AI MAX+ 395), анонсированного 6 января 2025 года на выставке CES 2025. Продажи мини ПК на его основе начались немного позже — в апреле — июле 2025. Рис. 4. Чип RYZEN AI MAX+ 395. RYZEN AI MAX+ 395 это высокопроизводительный мобильный процессор от AMD, построенный на архитектуре Zen 5. Он сочетает 16 ядер и 32 потока с базовой частотой 3 ГГц и ускорением до 5.1 ГГц. В процессоре интегрирован ускоритель Radeon 8060S с 40 вычислительными блоками RDNA 3.5, которая обеспечивает производительность, близкую к выделенным видеокартам. Кроме того, чип оснащён нейронным ускорителем ИИ XDNA 2 с производительностью 50 триллионов операций в секунду (TOPS). Рис. 5. Мини ПК на основе RYZEN AI MAX+ 395: слева направо GMKtec EV0-X2, Beelink Мини-ПК Beelink GTR 9 Pro AI и MINISFORUM MS-S1. Перечень доступных на рынке моделей на основе этого процессора с ценами на них любезно сведен в таблицу каким-то заботливым участником сайта Reddit здесь [9] . Надо сказать, что цены на большинство моделей со 128 Гб оперативной памяти составляют 1999 дол. США. Что на фоне рассмотренных выше альтернатив выглядит довольно привлекательно. В качестве примера приведем характеристики наиболее распространенного в России (судя по количеству предложений на маркетплейсах) GMKtec EV0-X2 [10] : Параметр Значение Процессор AMD Ryzen AI Max+ 395, 16 ядер / 32 потока, TSMC 4nm FinFET, до 5.1 ГГц, 16 MB L2, 64 MB L3 Графика Интегрированная AMD Radeon 8060S (архитектура RDNA 3.5, до 40 вычислительных блоков) Оперативная память LPDDR5X, 64 ГБ или опционально 128 ГБ, 8-канальная, частота 8 ГГц, пропускная способность 217 Гб/с Постоянная память PCIe 4.0 SSD, 1 ТБ или 2 ТБ Сетевые интерфейсы Wi-Fi 7 (максимальная скорость до 46 Гбит/с), Bluetooth 5.4, Ethernet 2.5 Гбит/с Видеовыходы Поддержка до 4 мониторов 4K/8K (HDMI 2.1, DisplayPort 1.4) Порты 2x USB4 (40 Гбит/с), 3x USB 3.1 Gen2, 2x USB 2.0, HDMI, 3x DisplayPort, слот SD UHS-II Хранение данных SSD PCIe 4.0, 1-2 ТБ Тепловой пакет (TDP) Стабильная работа при 120 Вт, пик до 140 Вт Дополнительные функции Нейронный ускоритель XDNA 2 с производительностью до 126 TOPS для AI задач Шум вентилятора 37–44 дБА в нагрузке Режимы работы Performance (120 Вт), Balanced (80 Вт), Quiet (50 Вт) Питание Блок питания 230 Вт Нас особенно интересуют результаты инференса данного девайса и подобных ему. Они подробнейшим образом изложены в замечательном тесте [11] : Рис. 6. Скорость обработки запроса Strix Halo для различных LLM (t/s). Рис. 7. Скорость генерации ответа Strix Halo для различных LLM (t/s). Выводы Теперь нам остается сравнить описанные решения на инференсе на чем-нибудь одинаковом. Ранее у нас нашлись пересечения по двум моделям (llama3.1:8b квантизация 4bit и deepseek-r1:14b квантизация 4bit). Я не нашел в интернет результатов тестирования этих моделей на Strix Halo, поэтому сделал сам на своем GMKtec EV0-X2 (как можно догадаться, в результате своих изысканий я остановился именно на нём). Итак, что мы имеем в сухом остатке: Параметр Source: https://habr.com/ru/articles/964332/