Один чип вместо тысяч серверов, или глобальный конкурент Nvidia / Комментарии / Хабр — Habr

Любопытно, если они такие быстрые, классные и в разы/порядки быстрее NVIDIA, то почему не отправили ни одной заявки в MLPerf? https://mlcommons.org/benchmarks/inference-datacenter/ NVIDIA есть, AMD, Intel, Qualcomm — есть. TPU от Google — есть. А их — нет. Здесь нет шин, по которым данные должны ехать до процессора – они уже на месте. Ну как нет… "Weights are stored and recalculated from Backpropagation. The system stores weights in external memory and streams them onto the wafer for forward and backward passes." https://arxiv.org/html/2503.11698v1 Просто потому, что у вас в 40GB ни одна современная модель даже среднего размера (типа LLama 70B FP16, а gpr-oss-120B даже в MXFP4 — ~60GB) туда не влезет. Поэтому размещать надо в RAM и SSD на отдельных узлах (MemoryX nodes) и которые должны "ехать до процессора". И там этих коммуникаций еще больше — https://training-docs.cerebras.ai/rel-2.5.0/concepts/weight-streaming-execution Ну либо использовать только маленькие модели (но зачем?) + активно сжимать, например, до FP8, как они сделали для той же LLama 70B, чтобы влезть в заветные 40GB — https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed . Ну и нагрузку, а KVCache куда пихать? Для того же gpt-oss-120B ~70KB per token нужно. LLama в FP16 — 0.3MB per token. Понятно, что его можно выносить в RAM/SSD внешних узлоы, ибо места в VRAM/SRAM нету, но это точно такое же внешнее взаимодействие. Ему не нужна координация по рации, все вагоны сцеплены намертво в единую жесткую конструкцию и движутся как монолит. "The Cerebras WSE is actually many chips on a wafer within the confines of the reticle limit. Instead of cutting the chips apart along the scribe lines between chips, they developed a method for cross die wires. These wires are patterned separately from the actual chips and allow the chips to connect to each other. In effect, the chip can scale beyond the reticle limits." + "Cerebras deals with this by adding 2 additional rows of cores across each reticle sub-chip. The interconnect within these chips is a 2D mesh where each core is connected in the vertical and horizontal directions. They also have additional interconnects for each of the diagonal cores as well. This allows defective cores to be routed around and software to still recognize a 2D mesh." + "Cerebras software stack places and routes these layers while maintain high utilization rates of cores and fabric." https://newsletter.semianalysis.com/p/cerebras-wafer-scale-hardware-crushes А дальше интереснее — если модель не влезает в одну вафлю " 20B models fit on a single CS-3 while 70B models fit on as few as four systems. ", то вместо сверх быстрых коммуникаций и "монолита", о которых вы пишите, у нас всплывает обычный Ethernet (пишут всего про 100GbE, но это CS2, может в CS3 подняли https://www.servethehome.com/detail-of-the-giant-cerebras-wafer-scale-cluster-nvidia/ ), который проигрывает NVLINK в разы по скорости и задержкам. P.S. Я не говорю, что у них все плохо и т.д. Возможно, под какие-то отдельные use-cases под это хорошо подойдет. Но то, что вы пишите имеет достаточно далекое отношение к действительности. Да, они делают ставку на другие вещи — на маленькую, но очень быструю SRAM + на очень быстрый, но ограниченный Scale-up (за ним провал). У NVIDIA же SRAM тоже есть, но сильно меньше (~50-100MB на карту), а основное хранение в быстром HBM большего объема, затем дешевая и большая RAM в Grace (которая кстати быстрее, чем у CS3<->MemoryX, ибо там NVLINK C2C) и т.д. У NVIDIA так же два чипа под крышкой, которые связаны очень быстрым интерконнектом, но основная ставка на Scale-Up NVLINK (который пусть и медленее, но сильно лучше масштабируется), потом Scale-Out SpX или IB. Нравится Source: https://habr.com/ru/articles/974384/comments/