Материалы по тегу: sc21

22.11.2021 [20:58], Игорь Осколков

SC21: несмотря на неурядицы, HPC-рынок будет расти

Аналитики в очередной раз скорректировали свои прогнозы по развитию рынка высокопроизводительных вычислений (HPC). Звучащие ещё с лета прошлого года высказывания, мол, уж через полгода-то ситуация с пандемией разрешится, становятся всё менее и менее уверенными. А осторожные предположения о возможных нарушениях цепочек поставок предположениями быть перестали. Однако не всё так плохо.

По оценкам Hyperion Research, доходы рынка on-premise HPC-систем составили $27,283 млрд в 2020 году, что чуточку больше, чем в 2019 году ($26,979 млрд). Рынок «спасло» досрочное введение в эксплуатацию Fugaku. HPC в облаках принесли соответственно $4,3 и $3,91 млрд. Intersect360 Research приводит иные цифры (сразу с учётом облаков) по всему рынку — $38,9 млрд в 2020 году и $39 млрд в 2019-ом.

При этом оба агентства считают, что первая половина этого года была неплохой, а в целом рынок на пятилетнем отрезке ждёт рост. Intersect360 ожидает CAGR на уровне 9,1 % для всего рынка, и стремительный рост облаков c CAGR 22,8 %. Hyperion Research разделяет сегменты — рынок без учёта облаков ждёт CAGR 7,9 %, а конкретно для облаков этот показатель составит 16,7 %. Доля последних вырастет c 14 % до 19 %.

Несмотря на то, что подавляющее большинство нагрузок выполняется локально, облака используются всё чаще. Нередко для выноса некоторых задач, то есть в качестве временного «ускорителя». Однако есть небольшая доля пользователей, которая «живёт» исключительно в публичных облаках. Это в основном стартапы, а также организации, у которых в принципе нет и не было локальной HPC-инфраструктуры, и вряд ли таковая появится в обозримом будущем.

При этом меняются и сами подходы. Так, ещё летом было объявлено о создании гибридного суперкомпьютера для метеослужбы Великобритании, который получит как локальные машины HPE Cray EX, так и доступ к практически таким же системам в Microsoft Azure. Обратный пример — для АНБ будет развёрнут локальный HPC-комплекс с облачной моделью потребления в рамках HPE GreenLake. В обоих случаях речь идёт о десятилетних контрактах.

В облачном подходе даже к локальной инфраструктуре (см. пример Cambridge-1) должны быть заинтересованы и производители, и потребители, поскольку он позволяет упростить развёртывание, управление, миграцию и защиту нагрузок. Intersect360 Research отмечает ещё одну важную особенность: почти половина (49,5 %) нагрузок обычно масштабируется до 4 узлов, а максимум 16 узлов могут «освоить» лишь 55,8 %. Приложений, рассчитанных на 1000+ узлов, по данным опроса, набираются единицы процентов.

Похожие задачи по развёртыванию, управлению и защите стоят и перед другим направлением, отмеченным Hyperion Research. Речь о конвергенции периферийных вычислений и HPC. Идея сама по себе нова, она заключается в предобработке данных непосредственно вблизи их источника с дальнейшей отправкой кратно меньше обычного объёма информации в вышестоящий ЦОД. И здесь при определённом масштабе уже можно говорить об HPC-задачах.

Впрочем, оба агентства сходятся в том, что в ближайшие годы одним из ключевых факторов роста рынка станут экзафлопсные системы, но (как обычно) расходятся в методах оценки. Формально уже есть такие «призрачные» системы в Китае, но учитывать ли госзаказ, выполненный господрядчиком при оценке рынка? «Официально» экзафлопсные системы появятся в 2022 году. Для суперкомпьютеров, по оценкам Hyperion Research, CAGR на промежутке с 2020 по 2024 год составит 23,2 % — быстрому росту помогут единичные, но очень дорогие машины. Для HPC-систем среднего размера (от $3 млн) этот показатель составит 5,8 %, для малых (до $500 тыс.) — 8,6 %, а в среднем по всем трём сегментам — 10,1 %.

Сегмент малых систем, кажется, оказался наиболее уязвим к дефициту и росту цен. Впрочем, средняя продолжительность эксплуатации всех систем уже выросла с 3,8 до 4,2 лет. И, к слову, всё чаще можно слышать о т.н. «бустерах», относительно небольших системах, которые пристраиваются к имеющимся машинам для повышения общей производительности и запуска новых классов задач. Нетрудно догадаться, что чаще всего они включают различного рода ускорители — к 2024 году, согласно оценкам, их число в HPC-системах вырастет более чем в два раза.

И дело не только в адаптации ПО под ускорители, что долгое время было проблемой, но и повышенный интерес к машинному и глубокому обучению, которые дополняют традиционные задачи. ИИ-модели позволяют в некоторых случаях не только упростить подготовку входных и обработку выходных данных, но иногда и заменить обычные расчёты, пусть и ценой потери точности. Ускорители важны для области HPDA (High Performance Data Analysis), где ценна масштабная обработка больших объёмов данных, а не только вычисления как таковые.

И в ближайшие годы именно здесь будут происходить самые интересные события. Уже некоторое время идёт активная борьба между разработчиками различных типов ускорителей (строго говоря, не только для ИИ), а наиболее обеспеченные площадки закупают небольшие комплексы от разных вендоров, чтобы оценить возможности и выбрать один-два варианта для будущих систем. Это даже интереснее потенциальной борьбы x86-64 с Arm (нет, Fugaku всё ещё не в счёт) на фоне стагнации POWER.

Ещё одна тенденция на рынке — как и прежде высокий темп прироста затрат на СХД, который, по данным Hyperion Research, в период с 2020 по 2025 год составит 9,3 %. Лидерами здесь являются Dell Technologies, HPE/Cray, IBM и DDN (единственный независимый поставщик именно СХД, а не систем в целом). Наиболее популярными ФС остаются NFS и Lustre. В облаках же CAGR за тот же период составит аж 17,3 % — на хранилища приходится треть от всех расходов на облака.

Тему интерконнектов оставим на следующий раз, поскольку тут изменений мало, а вот про приложения стоит сказать отдельно. На фоне остальных составляющих стоимости HPC-систем они не так велики, но всё равно важны. Intersect360 Research приводит два любопытных факта. Во-первых, аналитики отмечают рост open source решений, хотя и расходы на сторонние коммерческие приложения будут увеличиваться, и ПО собственной разработки будет значимым. Во-вторых, Python стал таким распространённым как C/C++.

Постоянный URL: http://servernews.ru/1054266
21.11.2021 [01:54], Игорь Осколков

Meta (Facebook) и Intel показали прототип сервера с CXL-памятью: DDR4 поверх PCIe 5.0

На SC21 консорциум CXL не только объявил о поглощении всех наработок Gen-Z, но и представил несколько демо от разных участников консорциума. Одним из самых интересных стал показ прототипа сервера с CXL-памятью от Meta (бывшая Facebook). Доклад о нём был сделан ещё на OCP Global Summit, но вот видеодемонстрация стала публичной только на этой неделе.

FPGA-протототип CXL-модуля с DDR4 (Фото: Intel)

FPGA-протототип CXL-модуля с DDR4 (Фото: Intel)

Перед Meta давно встала проблема увеличения ёмкости и плотности размещения DRAM. Причём у компании, как и других гиперскейлеров, очень жёсткие ограничения на физические размеры, энергопотребление и стоимость систем — создание и содержание парка в миллионы серверов выливается в круглые суммы. Представитель Meta в ходе доклада отметил несколько важных факторов, учитываемых при создании новых платформ.

Здесь и ниже изображения Meta

Здесь и ниже изображения Meta

Так, в последние годы цена за 1 Гбит DRAM перестала существенно падать, поэтому память становится всё более дорогим компонентом в составе сервера. И не только с точки зрения финансов, но и по энергопотреблению, что отрицательно влияет на совокупную стоимость владения (TCO). Кроме того, производительность процессоров заметно выросла, в основном благодаря увеличению числа ядер (в три с лишним раза). Однако пропускная способность памяти в пересчёте на канал в среднем лишь удвоилась, а в пересчёте на ядро — и вовсе упала почти вдвое.

Тем не менее, ядра CPU всё равно надо как-то «прокормить», поэтому приходится искать новые пути масштабирования пула DRAM. Простым увеличением числа DIMM-слотов не обойтись — каждый «лишний» канал памяти обходится в дополнительные пару сотен дорожек в разводке платы, что при росте числа каналов приводит к увеличению числа слоёв материнской платы (и буквально её толщины). А попутное увеличение скорости памяти ведёт к необходимости использования более дорогих материалов и всё тем же проблемам.

Как отмечают некоторые аналитики, платформы следующего поколения с поддержкой DDR5 будут дороже нынешних, но дело не в самой памяти, динамика удешевления которой будет примерно той же, что у DDR4, а именно в необходимости увеличения числа слоёв в материнских платах где-то на треть. Решением мог бы стать переход на последовательные интерфейсы — буферизованная DDIM-память (OMI) уже используется в серверах IBM E1080, но компактной её не назовёшь.

Однако у нас и так уже есть другой, универсальный и широко распространённый последовательный интерфейс — это шина PCI Express 4.0, а в ближайшем будущем и 5.0. Она обеспечивает приемлемую скорость передачи данных, но требует где-то на три четверти меньше сигнальных линий, которые могут иметь бо́льшую протяжённость по сравнению с DDR. Строго говоря, попытки создать PCIe-фабрики для дезагрегации ресурсов уже предприняты, к примеру, GigaIO и Liqid. С приходом CXL это станет ещё проще.

CXL позволит задействовать разные типы памяти с разными характеристиками, используя единый интерфейс. Например, можно с одной и той же платформой использовать и DDR5, и DDR4, и SCM (PMem). Чем-то похожим занимался и консорциум Gen-Z, куда, как ни странно, не входила Intel, которая и стала одним из основателей и апологетов Compute Express Link. С ней-то Meta и работает около года над прототипом нового сервера и платы расширения с DRAM для него.

Прототип использует сервер с инженерным образцом Intel Xeon Sapphire Rapids и стандартную карту расширения для платформы Yosemite v3. Карта с x16-подключением PCIe 5.0 несёт на борту инженерную версию FPGA (вероятно, что-то из серии Agilex) с двумя контроллерами памяти и двумя же слотами DIMM для обычной регистровой DDR4 суммарным объёмом 64 Гбайт. На базе FPGA реализован интерфейс CXL 2.0, который имеет поддержку протокола CXL.memory и даёт расширенные возможности мониторинга и отладки.

При старте системы происходит опрос доступных PCIe-устройств и согласование с ними скоростей и возможностей, после чего становится доступна оперативная память, физически размещённая на карте расширения, а не только локальная DDR5, «привязанная» к процессору. В этом случае система «видит» несколько NUMA-доменов — два от самого CPU и ещё один «безпроцессорный». Прототип успешно проходит все базовые тесты, так что программно-аппаратный стек уже достаточно хорошо проработан.

Постоянный URL: http://servernews.ru/1054197
18.11.2021 [23:45], Алексей Степин

GigaIO FabreX с CXL позволит вынести пулы оперативной памяти за пределы серверов

Компания GigaIO, один из пионеров в области разработки современных компонуемых сред для ЦОД, кластеров и облачных систем, показала на конференции SC21 свои последние разработки и решения. Компания намерена всего через два года создать универсальную компонуемую платформу, которая позволит на лету собирать сервер любой конфигурации из удалённых SSD, GPU, DPU, FPGA и даже DRAM.

Коммутатор GigaIO FabreX

Коммутатор GigaIO FabreX

Использовать в качестве основы такой платформы PCIe-фабрику — идея заманчивая, поскольку эта универсальная, стандартная и используемая сегодня в любых ИТ-системах шина обеспечивает высокую производительность при минимальном уровне задержек. У GigaIO уже есть коммутаторы FabreX с поддержкой PCIe 4.0. А CXL позволит добиться практически идеальной дезагрегации ресурсов. Отдельные стойки будут содержать различные массивы DRAM и SCM, флеш-массивы, ускорители самых разных типов и т.д.

Такие стойки-массивы войдут в общую фабрику FabreX, а уже из неё нужные ресурсы смогут получать как традиционные серверы, так и целые кластеры — технологии GigaIO позволяют крайне гибко разграничивать ресурсы, черпаемые из единого пула и раздавать их разным клиентам в нужных пропорциях. Такой подход напоминает современные облачные системы, к которым может подключиться кто угодно и использовать столько ресурсов нужного типа, сколько надо для данной задачи.

Всё управление траифком берёт на себя FabreX, а в клиентские системы остаётся только установить соответствующие HBA-адаптеры, также разработанные GigaIO. Модули Hydra, показанные компанией в конце 2020 года, обеспечивает пропускную способность до 32 Гбайт/с на слот PCIe 4.0 x16. Для кабельной инфраструктуры FabreX использует стандартные кабели с коннекторами SFF-8644 (возможны как чисто медные варианты, так и активные, с оптическими трансиверами).

К тому же FabreX обеспечивает беспроблемную переброску практически любых протоколов и приложений между любыми узлами, включёнными в сеть — будь то TCP/IP, MPI, NVMe-oF и другие виды трафика. Последним барьером, мешающим достигнуть полной дезагрегации ресурсов GigaIO справедливо считает оперативную память, которая в большинстве систем пока ещё находится на стороне процессоров общего назначения в клиентских серверах. Но в партнёрстве с AMD компания уже работает над этой проблемой.

Попытки вынести оперативную память за пределы серверов снижают производительность даже при использовании RDMA. Однако последние разработки GigaIO для FabreX и интеграция в эту систему стандарта CXL должны позволить использовать истинный прямой NUMA-доступ к памяти, даже если она вынесена за пределы клиентской системы и находится в общем пуле-массиве. Последний барьер к полной дезагрезации ресурсов практически пал.

Таким образом, любой сервер в сети FabreX сможет получить полноценный доступ к любой памяти — соседнего сервера или стойки пула, с минимальным ростом латентности и максимально возможной в рамках PCIe пропускной способностью. Пулинг оперативной памяти с сохранением когерентности кешей, по словам GigaIO, будет реализован в 3 квартале следующего года на базе CXL 1.0. В четвёртом квартале должна появиться поддержка CXL 2.0 с возможностью систем делиться ресурсами памяти между собой, а в начале 2023 года компания планирует внедрить весь спектр возможностей CXL 2.0.

В числе преимуществ FabreX GigaIO также называет использование открытых стандартов, даже собственное ПО GigaIO будет находиться в открытом доступе. Клиенты, уже использующие FabreX, без проблем перейдут на новую версию с CXL, поскольку этот стандарт базируется на PCIe 5.0. Им не потребуется вносить изменения в уже работающие контейнеры, ВМ и прочее ПО, зато они смогут использовать все преимущества FabreX в области дезагрегации ресурсам, включая удалённые пулы DRAM.

Постоянный URL: http://servernews.ru/1054061
18.11.2021 [18:40], Алексей Степин

LIQID представила шасси EX-4400: 10 × PCIe 4.0 x16 или 20 × PCIe 4.0 x8

Компания LIQID, известная как поставщик сверхбыстрых серверных SSD и решений для композитной инфраструктуры, представила новые 4U-шасси серии EX-4400 с поддержкой PCI Express 4.0 — модель EX-4410, рассчитанную на установку 10 полноразмерных двухслотовых x16-плат, и EX-4420, в которой можно разместить 20 однослотовых x8-плат, но в форм-факторе.

Идея, как и прежде, заключается в том, что в шасси можно установить практически любые PCIe-устройства (SSD, GPU, FPGA, DPU и т.д.), сформировав таким образом пул различных ресурсов. Вся коммутация PCIe осуществляется непосредственно в самом шасси, которое содержит три свитча Broadcom Atlas — задержка PCIe-фабрики составляет 105 нс. Серверы же имеют прямое PCIe-подключение к шасси, а доступом к ресурсам управляет фирменное ПО. Компания называет эту концепцию CDI Simplified.

Для подключения клиентов есть 16 портов (используются кабели Mini-SAS), каждый из которых может обеспечить передачу данных на скорости до 16 Гбайт/с в дуплексе. Поддерживается агрегация портов, так что требовательный сервер может задействовать сразу четыре порта (до 64 ГБайт/с). Однако суммарная пропускная способность на всех портах одновременно составлят 256 ГБайт/с (тоже в дуплексе).

Конфигурация подключаемых ресурсов управляется программно, поэтому добавить в систему ещё один ускоритель или NVMe-накопитель можно на лету и без прерывания рабочей нагрузки, запущенной на клиентском сервере. Все PCIe-слоты в EX-4400 реализованы с полноценным независимым управлением по питанию, за которое отвечают четыре (2+2) БП мощностью 2,4 кВт и с поддержкой горячей замены.

По словам создателей, это первое в индустрии PCIe-шасси, в которое платы можно устанавливать без отключения самого шасси. Сам процесс установки или изъятия плат предельно упрощён — достаточно выдвинуть шасси из стойки и вытащить, либо добавить нужные клиенту устройства.

Постоянный URL: http://servernews.ru/1054040
17.11.2021 [19:49], Алексей Степин

Habana Labs, Supermicro и DDN представили платформу машинного обучения

Обучение сложных нейросетей, в отличие от запуска уже натренированных, требует огромных вычислительных ресурсов, включая специализированные ИИ-ускорители. Компания Intel, в своё время купившая стартап Habana Labs, такими ускорителями располагает и на днях объявила о доступности новой, готовой к использованию мощной платформы машинного обучения.

Процессоры Habana Gaudi изначально проектировались с прицелом на задачи машинного обучения, а вычислительная часть спроектирована с учётом вычислений, характерных для задач ИИ. При этом Gaudi — единственный сопроцессор подобного класса, располагающий встроенными 100GbE-контроллерами с поддержкой RoCE v2, что значительно упрощает развёртывание и масштабирование систем на его основе.

Supermicro X12 Gaudi AI Training System

Supermicro X12 Gaudi AI Training System

Одной из первых сервер на базе ускорителей Gaudi представила Supermicro. X12 Gaudi AI Training System включает в себя пару процессоров Xeon Ice Lake-SP, но основной объём занимают модули Gaudi в формате OAM HL-205. Их в системе восемь, и каждый несёт на борту по 32 Гбайт памяти HBM2. Эти серверы стали основой суперкомпьютера SDSC Voyager.

Но это лишь часть платформы, представленной Intel: для полноценного обучения сложных сетей мало одних вычислительных ускорителей, огромные объёмы входных данных надо где-то хранить и эффективно ими управлять, не создавая «бутылочных горлышек». Поэтому вторым важным компонентом новой платформы стала новейшая СХД DDN AI400X2. Новая платформа Intel/Habana может поставляться в вариантах с одним, двумя или четырьмя серверами X12 и минимум одной AI400X2.

DDN AI400X2

DDN AI400X2

DDN AI400X2 — новинка, пополнившая на днях серию решений DDN A3I и наследница AI400X. Один 2U-узел AI400X2 вдвое быстрее прошлого поколения и способен выдать 90 Гбайт/с. На случайных операциях производительность составляет 3 млн IOPS. Для того чтобы обеспечить такой поток данных, в системе используются NVMe SSD с поддержкой PCIe 4.0, суммарным объёмом до 720 Тбайт. Интересно, что данная СХД умеет использовать в своей ФС ExaScaler ресурсы клиентских узлов для хранения и дистрибуции самых «горячих» данных.

Поддерживаются также гибридные конфигурации с SSD и HDD, с автоматическим ранжированием данных, при этом HDD-часть может набираться отдельными дисковыми полками (до 22U) и предоставляет до 11,5 Пбайт. Весьма полезное качество, поскольку аналитики отмечают крайне быстрый рост объёмов данных, используемых для систем ИИ и машинного обучения. Причём более половины пользователей дополняют и переобучают свои ИИ-модели минимум раз в неделю.

Один из вариантов развёртывания новой платформы

Один из вариантов развёртывания новой платформы

При необходимости, начав с минимальной конфигурации, платформу легко превратить в серьёзный кластер с сотнями и тысячами ускорителей, объединённый быстрой сетью с поддержкой RDMA. В качестве основного коммутатора DDN рекомендует модель Arista 7170-32C с 32 портами 100GbE, а в крупных масштабах и при необходимости развёртывания Gaudi-сети — Arista DCS-7060DX-32 с 32 портами 400GbE и производительностью 25,6 Тбит/с.

Платформа прошла валидацию для использования с ПО Habana SynapseAI и включает в себя оптимизированные docker-контейнеры для нагрузок TensorFlow и PyTorch. За управление отвечает фирменная система Software Vault, а портал Habana Developer и открытые GitHub-репозитории упростят ввод платформы в эксплуатацию.

Постоянный URL: http://servernews.ru/1053945
17.11.2021 [17:09], Алексей Степин

Fungible установила новый рекорд производительности СХД: 10 млн IOPS c NVMe/TCP

Компания Fungible, одна из первых представившая миру новый вид ускорителей, DPU, продолжает доказывать правоту своих концепций. На конференции SC21 компания сообщила о новом рекорде производительности систем хранения данных, причём с использованием NVMe-over-TCP.

Флеш-массивы FS1600 компания представила ещё год назад. Эта 2U-система, оснащённая 24 NVMe-накопителями и двумя DPU, способна в теории развивать до 15 млн IOPS. Дополняют её новые платы Storage Initiator, также имеющие на борту свой DPU. Демонстрация работы новинок состоялась в Суперкомпьютерном центре Сан-Диего, где сервер GIGABYTE R282-Z93 с двумя 64-ядерными процессорами AMD EPYC 7763 был оснащён пятью платами Fungible, соединёнными с массивами Fungible FS1600 (число не уточняется).

Адаптер Fungible на базе DPU S1

Адаптер Fungible на базе DPU S1

Как показали сравнительные испытания, с адаптерами Mellanox ConnectX-5 практически все 128 ядер сервера были заняты только обслуживанием сети. Но при переходе на Fungible Storage Initiator ситуация резко изменилась: загрузка сервера снизилась до 63% при полной загрузке СХД, а производительность достигла 10 млн IOPS против 6,55 млн IOPS с ConnectX-5.

Fungible FS1600

Fungible FS1600

Каждый DPU, таким образом, «прокачивал» 2 млн IOPS, чего, по словам компании, сегодня не может ни один другой адаптер. При масштабировании новое решение Fungible может потягаться с массивами Pavilion HyperParallel, которые развивают до 20 млн IOPS. Однако у Fungible есть весомое преимущество в плане компактности, энергоэффективности и удобстве размещения оборудования.

Постоянный URL: http://servernews.ru/1053930
17.11.2021 [01:11], Алексей Степин

Supermicro представила «универсальный GPU-сервер»

На SC21 компания Supermicro анонсировала 4U-сервер серии A+, который она называет своей первой действительно универсальной платформой для построения GPU-систем, которая даёт гибкость, недоступную классическим серверам. Унификация платформы позволит упростить и удешевить создание систем, ориентированных на разные нужды конкретного заказчика.

На выставке компания показала систему AS-4124GQ-TNMI c двумя процессорами AMD EPYC Milan и 32 слотами DIMM, но платформа позволяет использовать и Intel Xeon Scalable Ice Lake-SP, поменяв материнскую плату. Собственно говоря, шасси специально сделано модульным. Пространство корпуса делится на три логические части: дисковую корзину, блок с системной платой и блок для ускорителей.

Компоновка новой модульной ГП-платформы Supermicro

Компоновка новой модульной ГП-платформы Supermicro

Съёмная дисковая корзина на 10 SFF-накопителей поддерживает в том числе NVMe SSD. Сервер готов принять UBB-платы с ускорителями в форм-факторе OAM (например, AMD Instinct MI200) с поддержкой Infinity Fabric или платы Redstone с SXM-ускорителями NVIDIA (как A100). Вместо них можно установить и более традиционные полноразмерные PCIe-карты.

На заднюю панель выведены восемь слотов PCIe 4.0 x16 для установки высокоскоростных низкопрофильных сетевых адаптеров — по одному на каждый ускоритель. В центре шасси находятся 5 высокооборотистых вентиляторов. Частично дополняет их четвёрка вентиляторов в задней части, принадлежащих БП мощностью до 3 кВт каждый. По словам производителя, запаса по питанию и охлаждения более чем достаточно.

Постоянный URL: http://servernews.ru/1053877
16.11.2021 [18:42], Алексей Степин

Xilinx представила свой самый мощный FPGA-ускоритель Alveo U55C

Ускорители на основе программируемых логических схем (FPGA) занимают нишу между специализированными ASIC и более универсальными чипами вроде GPU. Это направление продолжает активно развиваться. На конференции SC21 компания Xilinx, ведущий разработчик чипов FPGA, представила свой самый мощный ускоритель, Alveo U55C стоимостью $4395.

Если специализированный кремний экономичен, но предельно негибок, а решения вроде NVIDIA A100 в силу своей универсальности не во всём эффективны, то FPGA обладают высокой степенью гибкости и при этом достаточно экономичны и энергоэффективны, чтобы в ряде задач разработчики ЦОД и суперкомпьютеров, а также провайдеры облачных услуг обратили на них самое пристальное внимание. Серия ускорителей Xilinx Alveo в этих сегментах достаточно популярна, хотя «расплатой» за все достоинства FPGA до недавнего времени была крайне высокая сложность разработки.

На проходящей в настоящее время конференции SC21 компания представила наиболее мощный ускоритель в серии Alveo — Alveo U55C. Это укороченная однослотовая плата полной высоты с предельным TDP 150 Вт, могущая предоставить в распоряжение разработчика более 1,3 млн LUT, свыше 2,6 млн регистров и 9024 DSP, а также 16 Гбайт памяти HBM2 с пропускной способностью 460 Гбайт/с. Для подключения к хост-системе используется интерфейс PCIe x16, могущий работать либо в режиме 3.0, либо в режиме 4.0, но как два интерфейса x8. Сетевая часть представлена двумя портами QSFP28 (100 Гбит/с).

Xilinx Vitis не потребует от разработчиков знания Verilog

Xilinx Vitis не потребует от разработчиков знания Verilog

Разработка для нового ускорителя базируется на универсальной программной платформе Xilinx Vitis, не требующей глубокого знания низкоуровневых языков описания аппаратного обеспечения. Новинка, главным образом, нацелена на рынок ЦОД и HPC, поэтому есть поддержка, например, RoCE и MPI. Xilinx отмечает, что именно в вычислительных нагрузках новый ускоритель Alveo U55C обеспечивает наивысшее соотношение производительности к цене. Как уже было сказано, к этому добавляется сравнительно невысокий уровень энергопотребления — 115 Вт в типовых условиях.

Alveo U55C на порядок превосходит предшественника в характеристиках памяти

Alveo U55C на порядок превосходит предшественника в характеристиках памяти

Alveo U55C уже используют радиоастрономы CSIRO, работающие на телескопе Square Kilometer Array, который обслуживают 420 таких ускорителей, справляющихся с потоком данных 15 Тбит/с. Также новинкой заинтересованы автопроизводители — она отлично подходит для симуляции столкновений в Ansys LS-DYNA. А TigerGraph разработчик платформ аналитики, использует Alveo U55C для ускорения выполнения запросов — время получения ответа снизилось с минут (на CPU) до миллисекунд (на FPGA).

Постоянный URL: http://servernews.ru/1053852
16.11.2021 [16:26], Алексей Степин

Технологии MemVerge и DMTCP сделают распределённые вычисления надёжнее

Технология контрольных точек (checkpoints) не нова и широко применяется в мире ИТ. Она обеспечивает подстраховку на случай сбоев ПО или «железа». Однако то, что просто реализуется для единичных приложений или серверов, весьма непросто в случае HPC-кластеров и распределённых многопоточных задачах. Но благодаря сотрудничеству MemVerge с проектом DMTCP эта технология станет более распространённой в HPC-сегменте.

Сама MemVerge, компания, разрабатывающая технологии виртуализации крупных массивов памяти на основе DRAM и Optane, до недавних пор не предполагала запуск своих решений в действительно сложных распределённых системах. Однако обойти эту проблему помог открытый проект Distributed MultiThreaded Checkpointing Project (DMTCP), с которым компания теперь сотрудничает.

MemVerge Memory Machine — технология создания крупных распределённых пулов памяти

MemVerge Memory Machine — технология создания крупных распределённых пулов памяти

Сложных сценариев, где контрольные точки могли бы спасти ситуацию в случае сбоя от убытков и потери многих человеко-часов, множество: это и симуляция поведения сложных микросхем, верификация схемотехники таких микросхем, сложные вычисления в области биоинформатики или физики высоких энергий, разработка систем кибербезопасности, работа с массивами bigdata и множество других.

Схема работы DMTCP в многопоточных задачах

Главное преимущество реализации DMTCP в том, что эта система полностью работает в пользовательском пространстве и не требует существенных модификаций ни в ПО, ни в ОС. Она способна прозрачно функционировать в большинстве Linux-систем и совместима с MPI, Python, Matlab, R и т.д. Корректную работу многопоточных задач обеспечивает координатор, который сохраняет состояние приложений на диск по расписанию или по заданным пользователем условиям. В случае сбоя процесс вычислений может быть восстановлен с последней контрольной точки.

Благодаря тому, что MemVerge стала активным участником проекта DMTCP, последнему должен существенно упроститься путь на рынок. MemVerge будет не только помогать в разработке DMTCP, но и отвечать за его коммерческую поддержку, а также внедрит полностью протестированную версию данного ПО в свои решения серии Big Memory. Компания уже сотрудничает с Национальным вычислительным центром энергетических исследований США (NERSC) с целью оптимизации DMTCP-решений для суперкомпьютеров Cori и Perlmutter. В дальнейшем планируется сделать DMTCP доступным и для CUDA-вычислений.

Постоянный URL: http://servernews.ru/1053845
16.11.2021 [03:56], Владимир Мироненко

GIGABYTE представила серверы G262-ZO0 c AMD Instinct MI200 и G262-IR0 c NVIDIA A100

GIGABYTE Technology анонсировала на выставке SC21 два новых сервера серии G262, оба высотой 2U и с четырьмя ускорителями: G262-ZO0 c AMD Instinct MI200 и G262-IR0 c NVIDIA A100. Новинки оптимизированы для использования плат NVIDIA Redstone или OAM-блоков. Для лучшего охлаждения блок с ускорителями имеет выделенный воздушный коридор и три мощных вентилятора на фронтальной панели.

Такое разделение обеспечивает достаточное охлаждение для получения максимальной производительности и CPU, и ускорителей, позволяя отвести от последних до 2000 Вт тепла. Конструкция шасси G262 позволяет легко адаптировать его под любой форм-фактор графического процессора. Собственно говоря, в серии есть ещё одна модель G262-ZR0.

Внешне вся троица не отличается, но G262-ZO0 и G262-ZR0 поддерживают процессоры AMD EPYC 7002/7003, а G262-IR0 — процессоры Intel Xeon Ice Lake-SP. Все они имеют восемь слотов DIMM на сокет, т.е. всего 16 модулей DIMM на сервер. В передней части корпуса имеется место для четырёх SFF-накопителей U.2 (PCIe 4.0)/SATA/SAS. А под отсеками для дисков находятся два низкопрофильных слота расширения PCIe 4.0 x16 и слот OCP 3.0. В задней части корпуса есть ещё четыре низкопрофильных слота PCIe 4.0 x16.

Постоянный URL: http://servernews.ru/1053795
Система Orphus