Материалы по тегу: ускоритель

01.12.2021 [00:44], Игорь Осколков

Amazon анонсировала серверные Arm-процессоры Graviton3 и ИИ-чипы Trainium

AWS, облачное подразделение Amazon, анонсировало EC2-инстансы C7g на базе Graviton3, третьего поколения Arm-процессоров собственной разработки, а также инстансы Trn1, использующие ИИ-ускорители Trainium, созданные силами AWS специально для задач машинного обучения.

Впрочем, оба анонса носят предварительный характер. Так, для Graviton3 не уточняется ни поколения архитектуры Arm, ни число ядер, ни частоты. Зато утверждается, что новинки по сравнению с инстансами на базе Graviton2 имеют на четверть более высокую производительность и вдвое быстрее в вычислениях с плавающей запятой и при работе с криптографией. При этом они потребляет на 60 % меньше энергии.

Упомянуты и некоторые архитектурные изменения. Так, поддержка bfloat16 позволяет втрое ускорить выполнение ИИ-задач (речь, вероятно, всё же об инференсе), а переход на DDR5 — на 50 % повысить пропускную способность памяти. У каждого vCPU есть выделенный кеш, а дополнительную безопасность обеспечивает аппаратная защита стека. Кроме того, в новых инстансах по умолчанию используется принудительное шифрование памяти, есть поддержка шифрованных EBS-томов, а скорость EFA-подключения достигает 30 Гбит/с.

EC2 C7g, по словам AWS, подойдут для HPC, EDA, аналитики, игровых и рекламных платформ, медиакодирования и т.д. Для них доступны дистрибутивы Amazon Linux 2, RHEL, SUSE и Ubuntu, а также целый ряд уже адаптированного ПО. Пока что C7g доступны в рамках закрытого тестирования по заявкам, но их уже успели оценить Epic Games, Formula 1 Management, Honeycomb.io и Twitter.

Сами процессоры Graviton3, как и его предшественники, вряд ли будут продаваться «на сторону» и за пределами основной инфраструктуру AWS попадут разве что в Outposts. Тем не менее, для самой Amazon это — наряду с внедрением Nitro — важный шаг к независимости от сторонних поставщиков и повышению производительности собственных сервисов. На базе Graviton2 сейчас предлагается всего 12 типов инстансов, однако AWS довольно активно и успешно переводит все остальные сервисы и услуги на собственные CPU.

EC2-инстансы Trn1, в целом, направлены на достижение тех же целей. Они базируются на ускорителях Trainium, это второй чип собственной разработки Amazon, созданный специально для задач машинного обучения. Чип оснащён 32 Гбайт HBM2e, а его производительность составляет до 210 Топс. Инстансы Trn1 объединяют до 16 таких ускорителей, связанных интерконнектом NeuronLink (768 Гбайт/с), имеют EFA-подключение со скоростью до 800 Гбит/c (вдвое выше, чем у нынешних GPU-инстансов) и предлагают до 8 Тбайт NVMe SSD.

AWS позволяет формировать кластеры из десятков тысяч Trainium, объединённых сетью петабитного класса и подключённых посредством Amazon FSx к петабайтному Lustre-хранилищу. Всё это позволяет быстро обучать гигантские модели. Для работы предлагается фирменный набор инструментов Neuron SDK (тот же, что и для AWS Inferentia), но есть и поддержка популярных фреймворков вроде Tensorflow или PyTorch. Trn1 пока что находятся в предварительном доступе по запросу.

Постоянный URL: http://servernews.ru/1054873
16.11.2021 [18:42], Алексей Степин

Xilinx представила свой самый мощный FPGA-ускоритель Alveo U55C

Ускорители на основе программируемых логических схем (FPGA) занимают нишу между специализированными ASIC и более универсальными чипами вроде GPU. Это направление продолжает активно развиваться. На конференции SC21 компания Xilinx, ведущий разработчик чипов FPGA, представила свой самый мощный ускоритель, Alveo U55C стоимостью $4395.

Если специализированный кремний экономичен, но предельно негибок, а решения вроде NVIDIA A100 в силу своей универсальности не во всём эффективны, то FPGA обладают высокой степенью гибкости и при этом достаточно экономичны и энергоэффективны, чтобы в ряде задач разработчики ЦОД и суперкомпьютеров, а также провайдеры облачных услуг обратили на них самое пристальное внимание. Серия ускорителей Xilinx Alveo в этих сегментах достаточно популярна, хотя «расплатой» за все достоинства FPGA до недавнего времени была крайне высокая сложность разработки.

На проходящей в настоящее время конференции SC21 компания представила наиболее мощный ускоритель в серии Alveo — Alveo U55C. Это укороченная однослотовая плата полной высоты с предельным TDP 150 Вт, могущая предоставить в распоряжение разработчика более 1,3 млн LUT, свыше 2,6 млн регистров и 9024 DSP, а также 16 Гбайт памяти HBM2 с пропускной способностью 460 Гбайт/с. Для подключения к хост-системе используется интерфейс PCIe x16, могущий работать либо в режиме 3.0, либо в режиме 4.0, но как два интерфейса x8. Сетевая часть представлена двумя портами QSFP28 (100 Гбит/с).

Xilinx Vitis не потребует от разработчиков знания Verilog

Xilinx Vitis не потребует от разработчиков знания Verilog

Разработка для нового ускорителя базируется на универсальной программной платформе Xilinx Vitis, не требующей глубокого знания низкоуровневых языков описания аппаратного обеспечения. Новинка, главным образом, нацелена на рынок ЦОД и HPC, поэтому есть поддержка, например, RoCE и MPI. Xilinx отмечает, что именно в вычислительных нагрузках новый ускоритель Alveo U55C обеспечивает наивысшее соотношение производительности к цене. Как уже было сказано, к этому добавляется сравнительно невысокий уровень энергопотребления — 115 Вт в типовых условиях.

Alveo U55C на порядок превосходит предшественника в характеристиках памяти

Alveo U55C на порядок превосходит предшественника в характеристиках памяти

Alveo U55C уже используют радиоастрономы CSIRO, работающие на телескопе Square Kilometer Array, который обслуживают 420 таких ускорителей, справляющихся с потоком данных 15 Тбит/с. Также новинкой заинтересованы автопроизводители — она отлично подходит для симуляции столкновений в Ansys LS-DYNA. А TigerGraph разработчик платформ аналитики, использует Alveo U55C для ускорения выполнения запросов — время получения ответа снизилось с минут (на CPU) до миллисекунд (на FPGA).

Постоянный URL: http://servernews.ru/1053852
11.11.2021 [15:47], Сергей Карасёв

NVIDIA представила конвергентные ускорители A30X и A100X: GPU + DPU + PCIe-свитч

NVIDIA анонсировала конвергентные ускорители A30X и A100X, позволяющие выполнять ресурсоёмкие задачи на периферии, границе сети и в дата-центрах уровнем безопасности и производительности. В устройствах объединены ускоритель Ampere, DPU и коммутатор PCIe.

Наличие этих компонентов на одной физической карте повышает эффективность использования пространства и энергии. Применение конвергентных ускорителей позволяет упростить развёртывание и обслуживание систем на базе ИИ. Изделия выполнены в виде полноразмерных двухслотовых карт расширения с основным интерфейсом PCIe 4.0 x16, двумя портами 100G Ethernet/InfiniBand и выделенным портом управления.

Источник изображений: NVIDIA

Источник изображений: NVIDIA

Модель A30X с TDP 230 Вт сочетает ускоритель A30 и DPU BlueField-2. Объём памяти HBM2e составляет 24 Гбайт (ПСП 1,16 Тбайт/c). С помощью технологии MIG (Multi-Instance GPU) укоритель можно разделить на четыре инстанса, на каждом из которых может быть запущен отдельный сервис. Вариант A100X с TDP 300 Вт получил ускоритель A100 с 80 Гбайт памяти HBM2e (ПСП 1,94 Тбайт/с) и всё тот же DPU BlueField-2. Возможно использование до семи инстансов.

Модель A100X также имеет три мостика NVLink 3.0 для прямого подключения нескольких ускорителей друг к другу, а у A30X такой мостик только один. «В системах, где требуется несколько GPU и DPU, конвергентный ускоритель позволяет избежать конфликтов при попытке одновременной передачи данных по шине PCIe, поэтому производительность увеличивается линейно числу дополнительных устройств», — заявляет NVIDIA.

Ускорители могут работать в двух режимах. В стандартном режиме хост-система видит GPU и DPU и может работать с ними независимо. В режиме BlueField-X набортный PCIe-коммутатор сконфигурирован так, все ресурсы GPU эксклюзивно отданы DPU, поэтому хост-системе доступен только DPU.

Новинки могут быть использованы для обслуживания малых сот и базовых станций посредством 5G vRAN, для предоставления ускоренных 5G-сервисов, формирования высокопроизводительных «умных» систем хранения данных, ИИ-обработки трафика, детектирования сетевых аномалий, сервисов информационной безопасности (Morpheus) и т.д.

Постоянный URL: http://servernews.ru/1053507
09.11.2021 [15:21], Игорь Осколков

Анонсирован NVIDIA A2, самый компактный серверный ускоритель Ampere

Ускоритель NVIDIA A2 придёт на смену NVIDIA T4, который был представлен ещё в 2018 году. Оба относятся к моделям начального уровня и хорошо подходят для задач инференса, хотя могут использоваться и для обучения небольших моделей, транскодирования видео, аналитики, VDI, виртуальных рабочих станций и т.д.

NVIDIA A2 выполнена в виде однослотовой HHHL-карты с пассивным охлаждением и интерфейсом PCIe 4.0 x8 с Resizable Bar. Важным отличием от T4 стал более широкий диапазон настраиваемого уровня TDP — от 40 до 60 Вт. Ускоритель способен работать при температуре от 0 до +50 °C (кратковременно от -5 до +55 °C). Это позволяет использовать его на периферии, в том числе в не самых благоприятных условиях (NEBS-3).

NVIDIA A2 (Здесь и далее изображения NVIDIA)

NVIDIA A2 (Здесь и далее изображения NVIDIA)

Базовая частота GPU составляет 1140 МГц, а boost — 1771 МГц. Объём набортной памяти GDDR6 (128 бит, 6251 МГц) равен 16 Гбайт, а пропускная способность составляет 200 Гбайт/с (у T4 300 Гбайт/с). Также есть два движка для декодирования медиа (включая AV1) и один для кодирования. Новинка поддерживает CUDA 11.1, vGPU 14.0, SR-IOV (16 VF), NVIDIA AI Enterprise Secure Boot.

NVIDIA A2 имеет 1280 CUDA-ядер, а также тензорные (40 шт.) и RT-ядра (10 шт.) Ampere. Производительность FP32-вычислений составляет всего 4,5 Тфлопс (у T4 было 8,1 Тфлопс). Для TF32 она равна уже 9 Тфлопс, а для FP16/BF16 — 18 Тфлопс. Для INT8 и INT4 эти показатели равны 36 и 72 Топс соответственно, а у T4 — 130 и 260 Топс.

Впрочем, NVIDIA предпочитает сравнивать производительность A2 с CPU. В первую очередь в задачах инференса, где преимущество может достигать 20 раз. Тем не менее, приводится и сравнение A2 с T4 в задачах умной видеоаналитики, где преимущество новинки составляет 20–30 %. При этом по соотношению цены и производительности она в 1,6 раз лучше T4 и на 10 % энергоэффективнее её.

Постоянный URL: http://servernews.ru/1053313
08.11.2021 [20:00], Игорь Осколков

AMD анонсировала Instinct MI200, самые быстрые в мире ускорители вычислений на базе CDNA 2

В прошлом году AMD окончательно развела ускорители для графики и вычислений, представив Instinct MI100, первый продукт на базе архитектуры CDNA, который позволил компании противостоять NVIDIA. Теперь же AMD подготовила новую версию архитектуры CDNA 2 и ускорители MI200 на неё основе. Новинки, согласно внутренним тестам, в ряде задач на голову выше того, что сейчас может предложить NVIDIA.

AMD Instinct MI200 в OAM-варианте (Здесь и ниже изображения AMD)

AMD Instinct MI200 в OAM-варианте (Здесь и ниже изображения AMD)

Циркулировавшие ранее слухи оказались верны — MI200 являются двухчиповыми решениями с 2.5D-упаковкой кристаллов (GCD) самих ускорителей, четырёх линий Infinity Fabric между ними и восьми стеков памяти HBM2e (8192 бит, 1600 МГц, 128 Гбайт, 3,2 Тбайт/c). В данном случае используется мостик EFB (Elevated Fanout Bridge), который позволяет задействовать стандартные подложки, что удешевляет и упрощает производство и тестирование ускорителей, не потеряв при этом в производительности и, что важнее, без существенного увеличения задержек в обмене данными.

Несмотря на то, что в составе ускорителя два GCD, системе они представляются как единое целое с общей же памятью. Каждый GCD в случае CDNA 2 включает 112 CU (Compute Unit), но в конечных продуктах они задействованы не все. CU разбиты на четыре группы (с индивидуальным планировщиком) с общим L2-кешем объёмом 8 Мбайт и пропускной способностью 6,96 Тбайт/с, который поделён на 32 отдельных блока. А сами блоки имеют индивидуальные подключения к контроллерам памяти в GCD.

Важное отличие CDNA 2 заключается в «подтягивании» производительности векторных FP64- и FP32-вычислений — они исполняются с одинаковой скоростью в отличие от CDNA первого поколения. Кроме того, появилась поддержка сжатых (packed) инструкций для операций FMA/FADD/FMUL для FP32-векторов. Второй крупный апдейт касается матричных вычислений. Для них теперь тоже есть отдельная поддержка FP64, и с той же производительностью, что и для FP32. Новые инструкции рассчитаны на блоки 16×16×4 и 4×4×4.

Поддержка FP16/BF16 в матричных ядрах, конечно, тоже есть, что позволяет задействовать их и для ИИ-задач, а не только HPC. Подспорьем для них в некоторых задачах будут два блока VCN (Video Codec Next) в каждом GCD. Они поддерживают декодирование H.264/AVC, H.265/HEVC, VP9 и JPEG, а также кодирование H.264/H.265, что потенциально позволит более эффективно работать ИИ-алгоритмам с изображениями и/или видео.

Для обмена данными между ускорителями и CPU используется единая шина Infinity Fabric (IF) с поддержкой кеш-когерентности. Всего на ускоритель приходится до восьми внешних линий IF, а суммарная скорость обмена данными может достигать 800 Гбайт/c. В наиболее плотной компоновке из четырёх MI200 и одного EPYC каждый ускоритель имеет по две линии для связи с CPU и со своим соседом. Причём внутренние и внешние IF-линии образуют два двунаправленных кольца между ускорителями. Каждая IF-линия опирается на x16-подключение PCIe 4.0, но в данном случае есть ряд оптимизаций конкретно под HPC-системы HPE Cray.

Дополнительно у каждого ускорителя есть собственный root-комплекс, что позволяет напрямую подключить сетевой адаптер класса 200G. И это явный намёк на возможность непосредственного RDMA-соединения с внешними хранилищами, поскольку в такой схеме на локальные NVMe-накопители линий попросту не остаётся. Более простые топологии уже предполагают использование половины линий IF в качестве обычного PCIe-подключения и задействуют коммутатор(-ы) для связи с CPU и NIC. В этом случае IF-подключение остаётся только между процессорами. Зато в одной системе можно объединить восемь MI200.

Чипы ускорителей MI250X изготовлены по 6-нм техпроцессу FinFet, содержат 58 млрд транзисторов и предлагают 220 CU, включающих 880 ядер для матричных вычислений и 14080 шейдерных ядер второго поколения. У MI250 их 208, 832 и 13312 соответственно. Для обеих моделей уровень TDP составляет 500 или 560 Вт, поэтому поддерживается как воздушное, так и жидкостное охлаждение. В дополнение к OAM-версиям MI250(X) чуть позже появится и более традиционная PCIe-модель MI210.

Для сравнения — у NVIDIA A100 объём и пропускная способность памяти (тоже HBM2e) составляют до 80 Гбайт и 2 Тбайт/с соответственно. Шина же NVLink 3.0 имеет пропускную способность 600 Гбайт/c, а коммутатор NVSwitch для связи между восемью ускорителями — 1,8 Тбайт/с. Потребление SXM3-версии составляет 400 Вт. Стоит также отметить, что первая версия A100 появилась ещё весной 2020 года, и скоро ожидается анонс следующего поколения ускорителей на базе архитектуры Hopper. На носу и выход ускорителей Intel Xe Ponte Vecchio.

И если про первые мы пока ничего толком не знаем, то вторые, похоже, уже проиграли MI250X в «голой» производительности как минимум по одной позиции (FP32). AMD говорит, что создавала Instinct MI200 как серию универсальных ускорителей, пригодных и для «классических» HPC-задач, и для ИИ. Отсюда и практически пятикратная разница в пиковой FP64-производительности с NVIDIA A100.

Но вот с нейронками всё не так однозначно. Предпочтительным форматом для обучения у NVIDIA является собственный TF32, поддержка которого есть в Tensor-ядрах Ampere. Ядра для матричных вычислений в CDNA2 про него ничего не знают, поэтому сравнить производительность в лоб нельзя. Разница в BF16/FP16 между MI250X и A100 уже не так велика, так что AMD говорит о приросте в 1,2 раза для обучения со смешанной точностью.

Данные по INT8 и INT4 в презентацию не вынесены, что неудивительно. Пиковый показатель для обоих форматов у MI250X составляет 383 Топс, тогда как тензорные ядра NVIDIA A100 выдают 624 и 1248 Топс соответственно. В данном случае больший объём памяти сыграл бы на руку MI200 в задачах инференса для крупных моделей. Наконец, у A100 есть ещё одно преимущество — поддержка MIG (Multi-Instance GPU), которая позволяет более эффективно задействовать имеющиеся ресурсы, особенно в облачных системах.

Вместе с Instinct MI200 была анонсирована и новая версия открытой (open source) платформы ROCm 5.0, которая обзавелась поддержкой и различными оптимизациями не только для этих ускорителей, но и, например, Radeon Pro W6800. В этом релизе компания уделит особое внимание расширению программной экосистемы и адаптации большего числа приложений. Кроме того, будет развиваться и новый портал Infinity Hub, где будет представлено больше готовых к использованию контейнеров с популярным ПО с рекомендациями по настройке и запуску.

AMD Instinct MI200 появятся в I квартале 2022 года. Новинки, в первую очередь MI210, будут доступны у крупных OEM/ODM-производителей: ASUS, Atos (X410-A5 2U1N2S), Dell Technologies, Gigabyte (G262-ZO0), HPE, Lenovo и Supermicro. Ускорители Instinct MI250X пока остаются эксклюзивом для систем HPE Cray Ex. Именно они вместе с «избранными» процессорами AMD EPYC (без уточнения, будут ли это Milan-X) станут основой для самого мощного в США суперкомпьютера Frontier.

Окончательный ввод в эксплуатацию этого комплекса запланирован на будущий год. Ожидается, что его пиковая производительность превысит 1,5 Эфлопс. При этом он должен стать самой энергоэффективной системой подобного класса. А адаптация ПО под него позволит несколько потеснить NVIDIA CUDA в некоторых областях. И это для AMD сейчас, пожалуй, гораздо важнее, чем победа по флопсам.

Постоянный URL: http://servernews.ru/1053240
06.10.2021 [20:24], Алексей Степин

NeuroBlade представила память XRAM со встроенным ускорителем вычислений

Молодая израильская компания NeuroBlade «вышла из тени», представив свой первый продукт — ускоритель для задач машинной аналитики в памяти (processing in memory, PIM) под названием XRAM. Похожие продукты разрабатывают UPMEM и Samsung, но подход NeuroBlade отличается от их.

Мы уже неоднократно отмечали, что в последнее время вновь стала популярна концепция специализированных ускорителей, способных справляться со специфическими нагрузками вроде сетевых операций или обслуживания устройств хранения данных. И, похоже, в дополнение к CPU, GPU, а в последний год и DPU, может добавиться ещё один класс таких сопроцессоров — вычислительная память (computational memory).

Именно такое устройство представил израильский стартап NeuroBlade, уже собравший во втором раунде финансирования $83 млн. Идея, стоящая за новой технологией, названной создателями XRAM, довольно проста: сделать «умным» массив DRAM, снабдив его собственными вычислительными ядрами. В классической архитектуре данные только хранятся в памяти, а для обработки процессор или сопроцессор вынуждены к этой памяти обращаться, и не всегда каналы, через которое такое обращение осуществляется, достаточно широки.

Но если хотя бы первичная обработка данных будет производиться в месте их хранения, это может существенно ускорить ряд задач, утверждает NeuroBlade. К числу таких задач относится и ряд сценариев машинной аналитики, а с ростом популярности «умной индустрии» требования к скорости реагирования таких систем будут только повышаться. В XRAM массивы DRAM и тысячи вычислительных ядер буквально переплетены. Путь от хранения к вычислениям в этом случае максимально короток.

Глава компании отметил, что XRAM позволяет ускорить задачи машинной аналитики более чем на два порядка в бенчмарках TPC и на задачах клиентов компании. NeuroBlade продемонстрировала систему Xiphos на базе новой технологии. В ней установлено четыре ускорителя на базе PIM XRAM и этот квартет способен обрабатывать данные на скорости порядка терабайт в секунду. В качестве интерконнекта Xiphos использует множественные подключения PCIe x16. В сервере может быть установлено до 32 NVMe-накопителей. x86-процессор тут тоже есть, но нужен он только для служебных задач.

ПО представлено платформой Insights Data Analytics, но есть и API, что упростит интеграцию нового класса ускорителей в существующую инфраструктуру. Подробности о новой технологии можно узнать на сайте NeuroBlade. Разработчики считают, что XRAM принесёт им существенные доходы, поскольку рынок машинной аналитики оценивается в $65 млрд. NeuroBlade, основанная ещё в 2016 году, отмечает, что её продукция уже закупается клиентами и поставляется в ЦОД по всему миру.

В чём-то похожую технологию разрабатывает ещё одна израильская компания, Speedata. Её ускоритель для анализа данных и СУБД называется APU (Analytics Processing Unit) и представляет собой PCIe-карту, которая напрямую общается с локальным и/или удалённым хранилищем и обрабатывает данные. Ускоритель имеет набортный пул DRAM, что позволяет кратно снизить нагрузку на системную память и CPU. Компания была основана всего два года назад и уже получила $70 млн инвестиций.

Постоянный URL: http://servernews.ru/1050715
22.09.2021 [17:13], Сергей Карасёв

Компактный компьютер UP Xtreme i11 Edge поддерживает 5G, Wi-Fi 6 и ускорители Myriad X

Бренд UP Bridge the Gap, принадлежащий компании AAEON Technology, которая, в свою очередь, является дочерней структурой ASUS, анонсировал компьютер небольшого форм-фактора UP Xtreme i11 Edge Compute Enabling Kit. Устройство подходит в том числе для решения различных задач, связанных с машинным обучением.

Новинка заключена в корпус с габаритами 152 × 124 × 66,5 мм. В основу положена аппаратная платформа Intel Tiger Lake. Максимальная конфигурация включает процессор Core i7-1185G7E с четырьмя ядрами (до восьми потоков инструкций), которые функционируют на тактовой частоте до 4,4 ГГц. В состав чипа входит графический ускоритель Intel Iris Xe.

Здесь и ниже изображения CNX-Software

Здесь и ниже изображения CNX-Software

Для модулей оперативной памяти DDR4-3200 есть два слота SO-DIMM: суммарно поддерживается до 64 Гбайт ОЗУ. Есть порт SATA 3.0 для подключения накопителя и коннектор для твердотельного модуля M.2 2280.

Компьютер располагает двумя сетевыми портами — Gigabit Ethernet на базе контроллера Intel i219 и 2.5GbE на основе контроллера Intel i225. Доступны интерфейсы HDMI 2.0b и DisplayPort, разъём USB Type-C, три порта USB 3.2 Gen 2 Type-A и один порт USB 2.0, два последовательных порта.

Опционально могут быть установлены адаптеры беспроводной связи Wi-Fi 5/6 и Bluetooth, модуль 4G или 5G для подключения к сотовым сетям, а также два акселератора Myriad X для ИИ-вычислений.

Поддерживаются платформы Microsoft Windows 10, Yocto 3.0/3.1 и Ubuntu 20.04. Цена варьируется от $385 до $1495 в зависимости от комплектации. 

Постоянный URL: http://servernews.ru/1049629
28.08.2021 [00:16], Владимир Агапов

Кластер суперчипов Cerebras WSE-2 позволит тренировать ИИ-модели, сопоставимые по масштабу с человеческим мозгом

В последние годы сложность ИИ-моделей удваивается в среднем каждые два месяца, и пока что эта тенденция сохраняется. Всего три года назад Google обучила «скромную» модель BERT с 340 млн параметров за 9 Пфлоп-дней. В 2020 году на обучение модели Micrsofot MSFT-1T с 1 трлн параметров понадобилось уже порядка 25-30 тыс. Пфлоп-дней. Процессорам и GPU общего назначения всё труднее управиться с такими задачами, поэтому разработкой специализированных ускорителей занимается целый ряд компаний: Google, Groq, Graphcore, SambaNova, Enflame и др.

Особо выделятся компания Cerebras, избравшая особый путь масштабирования вычислительной мощности. Вместо того, чтобы печатать десятки чипов на большой пластине кремния, вырезать их из пластины, а затем соединять друг с другом — компания разработала в 2019 г. гигантский чип Wafer-Scale Engine 1 (WSE-1), занимающий практически всю пластину. 400 тыс. ядер, выполненных по 16-нм техпроцессу, потребляют 15 кВт, но в ряде задач они оказываются в сотни раз быстрее 450-кВт суперкомпьютера на базе ускорителей NVIDIA.

В этом году компания выпустила второе поколение этих чипов — WSE-2, в котором благодаря переходу на 7-нм техпроцесс удалось повысить число тензорных ядер до 850 тыс., а объём L2-кеша довести до 40 Гбайт, что примерно в 1000 раз больше чем у любого GPU. Естественно, такой подход к производству понижает выход годных пластин и резко повышает себестоимость изделий, но Cerebras в сотрудничестве с TSMC удалось частично снизить остроту этой проблемы за счёт заложенной в конструкцию WSE избыточности.

Благодаря идентичности всех ядер, даже при неисправности некоторых их них, изделие в целом сохраняет работоспособность. Тем не менее, себестоимость одной 7-нм 300-мм пластины составляет несколько тысяч долларов, в то время как стоимость чипа WSE оценивается в $2 млн. Зато система CS-1, построенная на таком процессоре, занимает всего треть стойки, имея при этом производительность минимум на порядок превышающую самые производительные GPU. Одна из причин такой разницы — это большой объём быстрой набортной памяти и скорость обмена данными между ядрами.

Тем не менее, теперь далеко не каждая модель способна «поместиться» в один чип WSE, поэтому, по словам генерального директора Cerebras Эндрю Фельдмана (Andrew Feldman), сейчас в фокусе внимания компании — построение эффективных систем, составленных из многих чипов WSE. Скорость роста сложности моделей превышает возможности увеличения вычислительной мощности путём добавления новых ядер и памяти на пластину, поскольку это приводит к чрезмерному удорожанию и так недешёвой системы.

Инженеры компании рассматривают дезагрегацию как единственный способ обеспечить необходимый уровень производительности и масштабируемости. Такой подход подразумевает разделение памяти и вычислительных блоков для того, чтобы иметь возможность масштабировать их независимо друг от друга — параметры модели помещаются в отдельное хранилище, а сама модель может быть разнесена на несколько вычислительных узлов CS, объединённых в кластер.

На Hot Chips 33 компания представила особое хранилище под названием MemoryX, сочетающее DRAM и флеш-память суммарной емкостью 2,4 Пбайт, которое позволяет хранить до 120 трлн параметров. Это, по оценкам компании, делает возможным построение моделей близких по масштабу к человеческому мозгу, обладающему порядка 80 млрд. нейронов и 100 трлн. связей между ними. К слову, флеш-память размером с целую 300-мм пластину разрабатывает ещё и Kioxia.

Для обеспечения масштабирования как на уровне WSE, так и уровне CS-кластера, Cerebras разработала технологию потоковой передачи весовых коэффициентов Weight Streaming. С помощью неё слой активации сверхкрупных моделей (которые скоро станут нормой) может храниться на WSE, а поток параметров поступает извне. Дезагрегация вычислений и хранения параметров устраняет проблемы задержки и узости пропускной способности памяти, с которыми сталкиваются большие кластеры процессоров.

Это открывает широкие возможности независимого масштабирования размера и скорости кластера, позволяя хранить триллионы весов WSE-2 в MemoryX и использовать от 1 до 192 CS-2 без изменения ПО. В традиционных системах по мере добавления в кластер большего количества вычислительных узлов каждый из них вносит всё меньший вклад в решение задачи. Cerebras разработала интерконнект SwarmX, позволяющий подключать до 163 млн вычислительных ядер, сохраняя при этом линейность прироста производительности.

Также, компания уделила внимание разрежённости, то есть исключения части незначимых для конечного результата весов. Исследования показали, что должная оптимизации модели позволяет достичь 10-кратного увеличения производительности при сохранении точности вычислений. В CS-2 доступна технология динамического изменения разрежённости Selectable Sparsity, позволяющая пользователям выбирать необходимый уровень «ужатия» модели для сокращение времени вычислений.

«Крупные сети, такие как GPT-3, уже изменили отрасль машинной обработки естественного языка, сделав возможным то, что раньше было невозможно и представить. Индустрия перешла к моделям с 1 трлн параметров, а мы расширяем эту границу на два порядка, создавая нейронные сети со 120 трлн параметров, сравнимую по масштабу с мозгом» — отметил Фельдман.

Постоянный URL: http://servernews.ru/1047735
26.08.2021 [03:07], Алексей Степин

Получены первые образцы 1000-ядерного суперкомпьютера-на-чипе Esperanto ET-SoC-1

Рекомендательные системы, активно используемые социальными сетями, рекламными платформами и т.д. имеют специфические особенности. От них требуется высокая скорость отклика, но вместе с тем их ИИ-модели весьма объёмны, порядка 100 Гбайт или более. А для их эффективной работы нужен ещё и довольно большой кеш. Для инференса чаще всего используется либо CPU (много памяти, но относительно низкая скорость) или GPU (высокая скорость, но мало памяти), но они не слишком эффективны для этой задачи.

При этом существуют ещё и физические ограничения со стороны гиперскейлеров: в сервере не так много полноценных PCIe-слотов и свободного места + есть жёсткие ограничения по энергопотреблению и охлаждению (чаще всего воздушному). Всё это было учтено компанией Esperanto, чьей специализацией является разработка чипов на базе архитектуры RISC-V. На днях она получила первые образцы ИИ-ускорителя ET-SoC-1, который она сама называет суперкомпьютером-на-чипе (Supercomputer-on-Chip).

Новинка предназначена для инференса рекомендательных систем, в том числе на периферии, где на первый план выходит экономичность. Компания поставила для себя непростую задачу — весь комплекс ускорителей с памятью и служебной обвязкой должен потреблять не более 120 Вт. Для решения этой задачи пришлось применить немало ухищрений. Самое первое и очевидное — создание относительно небольшого, но универсального чипа, который можно было бы объединять с другими такими же чипами с линейным ростом производительности.

Для достижения высокой степени параллелизма основой такого чипа должны стать небольшие, но энергоэффективные ядра. Именно поэтому выбор пал на 64-бит ядра RISC-V, поскольку они «просты» не только с точки зрения ISA, но и по транзисторному бюджету. Чип ET-SoC-1 сочетает в себе два типа ядер RISC-V: классических «больших» ядер (ET-Maxion) с внеочередным выполнением у него всего 4, зато «малых» ядер (ET-Minion) с поддержкой тензорных и векторных вычислений — целых 1088.

На комплекс ядер ET-Maxion возлагаются задачи общего назначения и в ИИ-вычислениях он напрямую не участвует, зато позволяет быть ET-SoC-1 полностью автономным, так как прямо на нём можно запустить Linux. Помогает ему в этом ещё один служебный RISC-V процессор для периферии. А вот ядра ET-Minion довольно простые: внеочередного исполнения инструкций в них нет, зато есть поддержка SMT2 и целый набор новых инструкций для INT- и FP-операций с векторами и тензорами.

За каждый такт ядро ET-Minion способно выполнять 128 INT8-операций с сохранением INT32-результата, 16 FP32-операций или 32 — FP16. «Длинные» тензорные операции могут непрерывно исполняться в течение 512 циклов (до 64 тыс. операций), при этом целочисленные блоки в это время отключаются для экономии питания. Система кешей устроена несколько непривычным образом. На ядро приходится 4 банка памяти, которые можно использовать как L1-кеш для данных и как быструю универсальную память (scratchpad).

Восемь ядер ET-Minion формируют «квартал» вокруг общего для них кеша инструкций, так как на таких задачах велика вероятность того, что инструкции для всех ядер действительно будут одни и те же. Кроме того, это энергоэффективнее, чем восемь индивидуальных кешей, и позволяет получать и отправлять данные большими блоками, снижая нагрузку на L2-кеш. Восемь «кварталов» формируют «микрорайон» с коммутатором и четырьмя банками SRAM объёмом по 1 Мбайт, которые можно использовать как приватный L2-кеш, как часть общего L3-кеша или как scratchpad.

Посредством mesh-сети «микрорайоны» общаются между собой и с другими блоками: ET-Maxion, восемь двухканальных контроллеров памяти, два root-комплекса PCIe 4.0 x8, аппаратный RoT. Суммарно на чип приходится порядка 160 Мбайт SRAM. Контроллеры оперативной памяти поддерживают модули LPDDR4x-4267 ECC (256 бит, до 137 Гбайт/с). Тактовая частота ET-Minion варьируется в пределах от 500 МГц до 1,5 ГГц, а ET-Maxion — от 500 МГц до 2 ГГц.

В рамках OCP-блока Glacier Point V2 компания объединила на одной плате шесть ET-SoC-1 (всего 6558 ядер RISC-V), снабдив их 192 Гбайт памяти (822 Гбайт/с) — это больше, нежели у NVIDIA A100 (80 Гбайт). Такая связка развивает более 800 Топс, требуя всего 120 Вт. В среднем же она составляет 100 ‒ 200 Топс на один чип с потреблением менее 20 Вт. Это позволяет создать компактный M.2-модуль или же наоборот масштабировать систему далее. Шасси Yosemite v2 может вместить 64 чипа, а стойка — уже 384 чипа.

В тесте MLPerf для рекомендательных систем производительность указанной выше связки из шести чипов в пересчёте на Ватт оказалась в 123 раза выше, чем у Intel Xeon Platinum 8380H (250 Вт), и в два-три раза выше, чем у NVIDIA A10 (150 Вт) и T4 (70 Вт). В «неудобном» для чипа тесте ResNet-50 разница с CPU и ускорителем Habana Goya уже не так велика, а вот с решениями NVIDIA, напротив, более заметна.

При этом о поддержке со стороны ПО разработчики также подумали: чипы Esperanto могут работать с широко распространёнными фреймворками PyTorch, TensorFlow, MXNet и Caffe2, а также принимать готовые ONNX-модели. Есть и SDK для C++, а также драйверы для x86-хостов.

Опытные образцы изготовлены на TSMC по 7-нм техпроцессу. Кристалл площадью 570 мм2 содержит 24 млрд транзисторов. Чип имеет упаковку BGA2494 размерами 45 × 45 мм2. Энергопотребление (а вместе с ним и производительность) настраивается в диапазоне от 10 до 60+ Ватт. Потенциальным заказчикам тестовые чипы станут доступны до конца года. Компания также готова адаптировать ET-SoC-1 под другие техпроцессы и фабрики, но демо на базе OCP-платформы и сравнение с Cooper Lake — это недвусмысленный намёк для Facebook, что Esperanto будет рада видеть её в числе первых клиентов.

Постоянный URL: http://servernews.ru/1047568
25.08.2021 [22:39], Владимир Агапов

Enflame представила ИИ-ускорители CloudBlazer 2-го поколения на базе чипов DTU собственной разработки

Китайский стартап Enflame выпустил уже второе поколение ИИ-чипов Deep Thinking Unit (DTU 2.0), предназначенных для обработки больших объёмов данных в задачах машинного обучения. Реализованные в DTU подходы востребованы в облачных центрах обработки данных, предоставляющих услуги по глубокому обучению нейронных сетей. Деньги на разработку вложили правительство и отраслевые инвесторы, крупнейшим из которых стал интернет-гигант Tencent.

Несмотря на то, что чип DTU 2.0 был анонсирован только в июле, на сайте Enflame уже представлены изделия на его основе, позволяющие эффективно снизить затраты на ускорение ИИ-приложений, обеспечивая при этом лучшую производительность чем решения построенные на GPU. Впрочем, в случае Китая важна ещё и независимость от западных игроков. Пекин стремится к 2030 году стать мировым лидером в области ИИ и, по прогнозам отраслевых аналитиков, вложит не меньше $30 млрд. в связанные с этим исследования и разработки.

Ускоритель CloudBlazer T20, выполненный в виде PCIe-карты поддерживает работу с разнообразными моделями и сценариями обучения, а также обладает гибкими возможностями масштабирования и совместим с существующей экосистемой открытого ПО. Модуль CloudBlazer T21 обладает сходными функциональными возможностями, но выполнен в форм-факторе OAM. Согласно Enflame, в новом поколении чипов DTU 2.0 удалось заметно поднять производительность по сравнению с DTU 1.0, выпущенными пару лет назад. Также появилась и более скромная версия Cloudblazer i10 для задач инференса.

Если версия 1.0 обеспечивала до 20 Тфлопс FP32 и 80 Тфлопс FP16/BF16, то 2.0 предлагает уже до 40 Тфлопс FP32 и 160 Тфлопс FP16/BF16/TF32. Это соответствующим образом сказалось и на конечных изделиях, продемонстрировавших прирост скорости работы от 1,5 до 7,3 раз в различных вычислительных операциях. Производительность CloudBlazer T20 достигает 33 Тфлопс FP32 при энергопотреблении порядка 300 Вт, а CloudBlazer T21 демонстрирует 40 Тфлопс FP32 при потреблении в 400 Вт.

OAM-версия Enflame CloudBlazer T21

OAM-версия Enflame CloudBlazer T21

Увы, Enflame пока что не готова делиться подробностями о DTU 2.0. Компания сообщила лишь о том, что чипы получили память HBM2e, что дало трёхкратное увеличение пропускной способности и четырёхкратное увеличение ёмкости. Зато на Hot Chips 33 компания рассказала о DTU 1.0. Учитывая, что в новинке развиты идеи, заложенные в предыдущей версии, эта информация позволяет получить некоторое предварительное представление о ней.

DTU 1.0 — это система на кристалле (SoC), в состав которой входят 32 ИИ-ядра, собранных в четыре кластера, 40 движков передачи данных, четыре блока высокоскоростного интерконнекта, двухканальный контроллер памяти HBM2 с пропускной способностью до 512 Гбайт/c, а также интерфейс PCIe 4.0 x16. 1,25-ГГц чип, изготовленный по 12-нм нормам FinFET, содержит порядка 14,1 млрд. транзисторов и имеет TDP от 225 (PCIe) до 300 (OAM) Вт.

Каждое ядро (GCU-CARE 1.0) включает L1-кеш объёмом 64 Кбайт для инструкций и 256 Кбайт для данных, DMA-движок, общий ALU-блок, три регистровых файла и 256 тензорных блоков шириной 1024 бит. Оно способно одновременно выполнять четыре 16- или 8-бит MAC-операции или же одну 32-бит. Возможна и работа с FP64, но ценой существенного снижения производительности.

32 из 256 блоков могут выполнять общие скалярные и векторные операции, а 32, 64 или 128 можно задействовать для векторных MAC-операций. Но предполагается, что основными всё же будут тензорные и матричные операции, преимущественно свёртки. Особенность архитектуры в том, что, во-первых, в пределах ядра можно произвольно преобразовывать тензоры, а также выбирать их размерности, а, во-вторых, возможны параллельные вычисления над различными форматами данных.

Сами ядра имеют архитектуру VLIW, но компания не уточнят её особенности. Говорится лишь о том, что, в частности, ядро способно самостоятельно находить ненужные инструкции (например, при отличии в формате данных) и пропускать их. Для такой массивно-параллельной архитектуры реализован собственный движок (GCU-DARE 1.0) для асинхронного обмена данными и их преобразования из одного формата в другой на лету.

Масштабирование реализовано с помощью проприетарного интерконнекта GCU-LARE 1.0. Без кеш-когерентности, зато работающего на скорости 200 Гбайт/с в дуплексе — у каждого чипа есть по четыре 25-Гбайт/с LARE-линии. Внутри одного узла можно бесшовно объединить 8 или 16 ускорителей (мостиками и кабелями), получив задержку менее 1 мкс.

В одну стойку можно уместить до 64 ускорителей, а несколько стоек объединить в 2D-тор. Enflame утверждает, что даже при использовании 160 ускорителей в 20 шасси масштабирование производительности получается достаточно линейным и составляет в среднем около 85% от теоретического максимума. Это весьма важно для обучения массивных языковых моделей, которыми и занимаются ключевые заказчики Enflame.

Постоянный URL: http://servernews.ru/1047556
Система Orphus