Материалы по тегу: cerebras

15.11.2022 [19:08], Сергей Карасёв

Cerebras построила ИИ-суперкомпьютер Andromeda с 13,5 млн ядер

Компания Cerebras Systems сообщила о запуске уникального вычислительного комплекса Andromeda для выполнения «тяжёлых» ИИ-нагрузок. В основу Andromeda положен кластер из 16 блоков Cerebras CS-2, объединённых 96,8-Тбит/с фабрикой. Каждый из них содержит чип WSE-2, насчитывающий 850 тыс. ядер. Таким образом, общее число ядер достигает 13,5 млн. Кроме того, непосредственно в состав каждого чипа входят 40 Гбайт сверхбыстрой памяти. Система уже доступна коммерческим заказчикам, а также различным научным организациям.

 Источник изображения: Cerebras Systems

Источник изображения: Cerebras Systems

Суперкомпьютер также использует 284 односокетных сервера с процессорами AMD EPYC 7713. Суммарное количество вычислительных ядер общего назначения составляет 18 176. Каждый из этих серверов несёт на борту 128 Гбайт оперативной памяти, NVMe-накопитель вместимостью 1,92 Тбайт и две сетевые карты 100GbE. Эти узлы отвечают за предварительную обработку информации.

 Источник: Cerebras Systems

Источник: Cerebras Systems

По заявлениям Cerebras, производительность системы превышает 1 Эфлопс на т.н. разреженных вычислениях и достигает 120 Пфлопс при обычных FP16-вычислениях. Это первый в мире суперкомпьютер, который обеспечивает практически идеальное линейное масштабирование при работе с GPT-моделями, в частности, GPT-3, GPT-J и GPT-NeoX. Иначе говоря, при каждом удвоении числа комплексов CS-2 время обучения моделей сокращается почти в два раза.

Суперкомпьютер смонтирован в дата-центре Colovore в Санта-Кларе (Калифорния, США). Стоимость системы составила приблизительно $30 млн, а на её развёртывание потребовалось всего три дня. Использовать ресурсы Andromeda могут одновременно несколько клиентов.

Постоянный URL: http://servernews.ru/1077382
24.06.2022 [19:37], Алексей Степин

Cerebras Systems поставила рекорд в области машинного обучения для одиночных систем

За успехами компании Cerebras Systems с её необычными детищами, сверхбольшими процессорами Cerebras, занимающими целую кремниевую подложку, наблюдать как минимум интересно. Её системы необычны, но в деле машинного обучения им, похоже, нет равных — одна-единственная платформа Cerebras CS-2 может заменить при обучении крупной модели едва ли не целый кластер. И это компания доказала делом, установив новый рекорд.

Суть рекорда заключается в том, что на Cerebras CS-2 была натренирована самая большая ИИ-модель в мире, когда-либо обучавшаяся на одиночном устройстве (кластерные системы не в счёт). Конечно, «одиночность» CS-2 несколько условна, но всё же может считаться таковой, поскольку один аппаратный шкаф CS-2 содержит ровно один чип WSE-2, а комплекс HPE Superdome Flex, «скармливавший» ему данные, считается вспомогательным.

Сравнительные характеристики WSE-1 и WSE-2. Источник: Cerebras Systems

Речь идёт о тренировке модели с 20 млрд параметров, чего не может никакая другая одиночная система в мире. Открывая доступ к обучению столь сложных нейросетей, Cerebras оказывает услугу исследователям в области машинной обработки естественных языков, поскольку время обучения серьёзной модели может сократиться с месяцев до минут, при этом исключается необходимость трудоёмкой операции разделения (partitioning) модели по узлам традиционной кластерной системы — вся она запускается в «монолитном» режиме.

Конструкция CS-2 и некоторые её технические параметры. Источник: Cerebras Systems

Кроме того, модели такого размера требуют и немалых средств — далеко не каждый исследователь обладает достаточным для аренды кластера бюджетом. Но CS-2 сделает демократичными даже такие огромные модели, как GPT-3 1.3B, GPT-J 6B, GPT-3 13B и GPT-NeoX 20B. Их запуск стал возможен с последним обновлением фирменного ПО Cerebras Software Platform. Радуются новой возможности и генетики из GSK, использующие огромные по объему наборы данных.

Напомним, что сердце CS-2, процессор WSE-2, по праву считается крупнейшим в мире — он содержит 850 тыс. ядер, оптимизированных под задачи, характерные для машинного обучения. Чтобы «накормить» такой нейропроцессор данными и исключить простои, используется сразу 12 каналов со скоростью 100 Гбит/с. За снабжение данными отвечает отдельный суперсервер HPE Superdome Flex 280, сам по себе обладающий весьма впечатляющими характеристиками.

Постоянный URL: http://servernews.ru/1068800
29.05.2022 [23:49], Алексей Степин

Германия получит необычный ИИ-суперкомпьютер: гигантский чип Cerebras WSE-2 + HPE Superdome Flex

Суперкомпьютерный центр Лейбница (Leibniz-Rechenzentrum, LRZ), входящий в тройку крупнейших в Германии, объявил о заключении соглашения с HPE и Cerebras в рамках новой инициативы Future Computing. Целью данной инициативы является оценка использования нестандартных вычислительных технологий для ускорения научных исследований, ведущихся в европейском регионе.

Новый ИИ-комплекс Cerebras CS-2, как известно, весьма необычен — его чип WSE-2 является самым крупным процессором в мире, и несёт на борту помимо 850 тыс. ядер ещё и 40 Гбайт сверхбыстрой памяти. Чип занимает стандартную 300-мм кремниевую подложку целиком и состоит из 2,6 трлн транзисторов.

 Система CS-2 и её характеристики. Источник: Cerebras Systems

Система CS-2 и её характеристики. Источник: Cerebras Systems

Памяти не так много, как может показаться на первый взгляд и для задач с по-настоящему объёмными наборами данных CS-2 должен работать в связке с системой HPE Superdome Flex, способной их хранить и «скармливать» суперпроцессору в реальном времени.

Сам CS-2 можно рассматривать как массив ускорителей: все ядра одинаковы, каждое ядро соединено с четырьмя соседними с помощью высокоскоростного интерконнекта с совокупной производительностью 220 Пбит/с. Пути прохождения трафика задаются программно на этапе компиляции.

Источник: Cerebras Systems

По заявлениям Cerebras, CS-2 поддерживает модели с размерностью до 120 трлн параметров, при этом исходные данные благодаря MemoryX могут храниться вне основной системы без потерь в производительности. Такой подход позволяет в 100 раз увеличить размер рабочей модели в сравнении с одним CS-2 без внешнего массива памяти.

Что же касается ПО, то новая система будет использовать стандартные фреймворки машинного обучения вроде TensorFlow и PyTorch. Также доступны низкоуровневые средства разработки, позволяющие реализовывать на CS-2 любые задачи, от комплексной обработки сигналов до моделирования с использованием физических законов.

Инициатива, выдвинутая штатом Бавария, не ограничивается системой Cerebras/HPE. В рамках проекта Future Computing будут также оценены все существующие современные альтернативы классическим вычислениям на CPU, включая GPU, FPGA и различные прототипы и инженерные образцы.

Постоянный URL: http://servernews.ru/1066906
17.09.2021 [19:25], Владимир Мироненко

Cerebras предлагает облачный доступ к суперпроцессору Wafer-Scale Engine AI System — 850 тыс. ядер за $60 тыс. в месяц

Компании Cerebras и Cirrascale Cloud Services объявили о запуске платформы Cerebras Cloud @ Cirrascale, предоставляющей доступ к системе Cerebras CS-2 Wafer-Scale Engine (WSE) через облачный сервис Cirrascale.

Суперпроцессор CS-2 с 850 000 вычислительных ядер, оптимизированных для ИИ, весящий около 500 фунтов (227 кг), установлен в центре обработки данных Cirrascale в Санта-Кларе (Калифорния, США). Доступ к CS-2 предоставляется всем желающим, у кого есть подключение к интернету и возможность платить $60 000 в неделю на обучение очень больших моделей искусственного интеллекта.

Клиенты Cirrascale Cerebras Cloud получают полный доступ к программному обеспечению Cerebras и пакету компиляторов.

«Набор инструментов компилятора предлагается с облачным набором инструментов, разработанным Cirrascale, — сказал генеральный директор Эндрю Фельдман (Andrew Feldman). — Итак, войдя в систему, вы получите доступ к вычислительному кластеру, хранилищу, CS-2; вы запустите свой стек компиляции и будете выполнять работу. Также вы получите контрольную точку и сохраните её в инфраструктуре Cirrascale, она будет идентифицирована, чтобы вы могли вернуться к выполнению этой работы позже. Все это интегрировано».

Среда поддерживает известные фреймворки, такие как TensorFlow и PyTorch, а компилятор графиков Cerebras автоматически переводит нейронную сеть практикующего специалиста из их представления фреймворка в исполняемый файл CS-2. По словам Cerebras, это устраняет необходимость в оркестровке кластера, синхронизации и настройке модели.

С еженедельной минимальной ставкой ​​на уровне $60 000 в неделю, $180 000 в месяц или $1 650 000 в год — клиенты Cirrascale получают доступ ко всей системе CS-2. «Модель совместного использования не для нас», — сказал Фельдман. Смысл существования системы масштабирования пластин заключается в том, чтобы «получить как можно большую машину, чтобы решить вашу проблему как можно быстрее», — сообщил он ресурсу HPCwire.

При заключении контрактов на несколько месяцев или на несколько лет предоставляются скидки. Cerebras не раскрывает прейскурантные цены на свои системы CS, но покупка системы CS-2 напрямую обойдётся в «несколько миллионов долларов», сообщил Фельдман.

Постоянный URL: http://servernews.ru/1049289
28.08.2021 [00:16], Владимир Агапов

Кластер суперчипов Cerebras WSE-2 позволит тренировать ИИ-модели, сопоставимые по масштабу с человеческим мозгом

В последние годы сложность ИИ-моделей удваивается в среднем каждые два месяца, и пока что эта тенденция сохраняется. Всего три года назад Google обучила «скромную» модель BERT с 340 млн параметров за 9 Пфлоп-дней. В 2020 году на обучение модели Micrsofot MSFT-1T с 1 трлн параметров понадобилось уже порядка 25-30 тыс. Пфлоп-дней. Процессорам и GPU общего назначения всё труднее управиться с такими задачами, поэтому разработкой специализированных ускорителей занимается целый ряд компаний: Google, Groq, Graphcore, SambaNova, Enflame и др.

Особо выделятся компания Cerebras, избравшая особый путь масштабирования вычислительной мощности. Вместо того, чтобы печатать десятки чипов на большой пластине кремния, вырезать их из пластины, а затем соединять друг с другом — компания разработала в 2019 г. гигантский чип Wafer-Scale Engine 1 (WSE-1), занимающий практически всю пластину. 400 тыс. ядер, выполненных по 16-нм техпроцессу, потребляют 15 кВт, но в ряде задач они оказываются в сотни раз быстрее 450-кВт суперкомпьютера на базе ускорителей NVIDIA.

В этом году компания выпустила второе поколение этих чипов — WSE-2, в котором благодаря переходу на 7-нм техпроцесс удалось повысить число тензорных ядер до 850 тыс., а объём L2-кеша довести до 40 Гбайт, что примерно в 1000 раз больше чем у любого GPU. Естественно, такой подход к производству понижает выход годных пластин и резко повышает себестоимость изделий, но Cerebras в сотрудничестве с TSMC удалось частично снизить остроту этой проблемы за счёт заложенной в конструкцию WSE избыточности.

Благодаря идентичности всех ядер, даже при неисправности некоторых их них, изделие в целом сохраняет работоспособность. Тем не менее, себестоимость одной 7-нм 300-мм пластины составляет несколько тысяч долларов, в то время как стоимость чипа WSE оценивается в $2 млн. Зато система CS-1, построенная на таком процессоре, занимает всего треть стойки, имея при этом производительность минимум на порядок превышающую самые производительные GPU. Одна из причин такой разницы — это большой объём быстрой набортной памяти и скорость обмена данными между ядрами.

Тем не менее, теперь далеко не каждая модель способна «поместиться» в один чип WSE, поэтому, по словам генерального директора Cerebras Эндрю Фельдмана (Andrew Feldman), сейчас в фокусе внимания компании — построение эффективных систем, составленных из многих чипов WSE. Скорость роста сложности моделей превышает возможности увеличения вычислительной мощности путём добавления новых ядер и памяти на пластину, поскольку это приводит к чрезмерному удорожанию и так недешёвой системы.

Инженеры компании рассматривают дезагрегацию как единственный способ обеспечить необходимый уровень производительности и масштабируемости. Такой подход подразумевает разделение памяти и вычислительных блоков для того, чтобы иметь возможность масштабировать их независимо друг от друга — параметры модели помещаются в отдельное хранилище, а сама модель может быть разнесена на несколько вычислительных узлов CS, объединённых в кластер.

На Hot Chips 33 компания представила особое хранилище под названием MemoryX, сочетающее DRAM и флеш-память суммарной емкостью 2,4 Пбайт, которое позволяет хранить до 120 трлн параметров. Это, по оценкам компании, делает возможным построение моделей близких по масштабу к человеческому мозгу, обладающему порядка 80 млрд. нейронов и 100 трлн. связей между ними. К слову, флеш-память размером с целую 300-мм пластину разрабатывает ещё и Kioxia.

Для обеспечения масштабирования как на уровне WSE, так и уровне CS-кластера, Cerebras разработала технологию потоковой передачи весовых коэффициентов Weight Streaming. С помощью неё слой активации сверхкрупных моделей (которые скоро станут нормой) может храниться на WSE, а поток параметров поступает извне. Дезагрегация вычислений и хранения параметров устраняет проблемы задержки и узости пропускной способности памяти, с которыми сталкиваются большие кластеры процессоров.

Это открывает широкие возможности независимого масштабирования размера и скорости кластера, позволяя хранить триллионы весов WSE-2 в MemoryX и использовать от 1 до 192 CS-2 без изменения ПО. В традиционных системах по мере добавления в кластер большего количества вычислительных узлов каждый из них вносит всё меньший вклад в решение задачи. Cerebras разработала интерконнект SwarmX, позволяющий подключать до 163 млн вычислительных ядер, сохраняя при этом линейность прироста производительности.

Также, компания уделила внимание разрежённости, то есть исключения части незначимых для конечного результата весов. Исследования показали, что должная оптимизации модели позволяет достичь 10-кратного увеличения производительности при сохранении точности вычислений. В CS-2 доступна технология динамического изменения разрежённости Selectable Sparsity, позволяющая пользователям выбирать необходимый уровень «ужатия» модели для сокращение времени вычислений.

«Крупные сети, такие как GPT-3, уже изменили отрасль машинной обработки естественного языка, сделав возможным то, что раньше было невозможно и представить. Индустрия перешла к моделям с 1 трлн параметров, а мы расширяем эту границу на два порядка, создавая нейронные сети со 120 трлн параметров, сравнимую по масштабу с мозгом» — отметил Фельдман.

Постоянный URL: http://servernews.ru/1047735
09.06.2020 [19:49], Юрий Поздеев

Суперкомпьютер Neocortex: 800 тыс. ядер Cerebras для ИИ

Питтсбургский суперкомпьютерный центр (PSC) получит $5 млн от Национального научного фонда на создание суперкомпьютера нового типа Neocortex, который объединяет ИИ-серверы Cerebras CS-1 и HPE SuperDome Flex в единую систему с общей памятью. Планируется, что решение будет введено в эксплуатацию до конца 2020 года.

Каждый сервер Cerebras CS-1 имеет процессор Cerebras Wafer Scale Engine (WSE), который содержит 400 000 ядер, оптимизированных для работы с ИИ (46 225 мм2, 1,2 трлн транзисторов). В паре с ними работает HPE SuperDome Flex, который используется для предварительной обработки информации и постобработки после Cerebras. SuperDome Flex представлен в максимальной комплектации, то есть с 32 процессорами Intel Xeon, 24 Тбайт оперативной памяти, 205 Тбайт флеш-памяти и 24 интерфейсными картами.

Каждый сервер Cerebras CS-1 подключается к SuperDome Flex через 12 каналов со скоростью 100 Гбит/с каждый. Процессор WSE способен обрабатывать 9 Пбайт данных в секунду, что, по подсчетам Nystrom, эквивалентно примерно миллиону фильмов в HD-качестве. Характеристики решения действительно впечатляют!

 Neocortex назван в честь области мозга, отвечающей за функции высокого порядка, включая когнитивные способности, сновидения и формирование речи

Neocortex назван в честь области мозга, отвечающей за функции высокого порядка, включая когнитивные способности, сновидения и формирование речи

Архитектура решения строилась таким образом, чтобы не пришлось разбивать вычислительные блоки на множество узлов — это позволило снизить задержки в обработке информации и ускорить обучение моделей ИИ. Cerebras CS-1 разрабатывался специально для ИИ, поэтому он имеет преимущества перед серверами с графическими ускорителями, которые хорошо справляются с матричными операциями, но имеют многие конструктивные ограничения.

По заявлениям Neocortex, сервер CS-1 будет на несколько порядков мощнее системы PSC Bridges-AI. Один сервер Neocortex CS-1 будет эквивалентен примерно 800-1500 серверов с традиционной архитектурой с использованием графических ускорителей. Задачи, в которых Neocortex покажет себя максимально эффективно относятся к классу нейронных сетей DCIGN (deep convolutional inverse graphics networks) и RNN (recurrent neural networks). Если говорить простыми словами, то это более точное прогнозирование погоды, анализ геномов, поиск новых материалов и разработка новых лекарств.

PSC, помимо Neocortex, запускает еще и новое поколение системы Bridges-2, которое будет развернуто осенью 2020 года. Таким образом, до конца этого года будут введены в эксплуатацию два мощных суперкомпьютера для ИИ. Neocortex и Bridges-2 будут поддерживать самые популярные фреймворки машинного обучения, что позволит создать гибкую и мощную экосистему для ИИ, анализа данных, моделирования и симуляции.

До 90% машинного времени Neocortex будет выделяться через XSEDE (Extreme Science and Engineering Discovery Environment), финансируемую NSF организацию, которая координирует совместное использование передовых цифровых услуг, включая суперкомпьютеры и ресурсы для визуализации и анализа данных, с исследователями на национальном уровне.

Постоянный URL: http://servernews.ru/1013005
Система Orphus