SC19: Microsoft показала серверы Open CloudServer — сердце Azure

 

Мы уже рассказывали нашим читателям об инициативе Microsoft по запуску высокопроизводительной инфраструктуры в облачном сервисе Azure. Новые виртуальные машины компании предназначены для тех, кому требуются самые интенсивные вычисления.

Анонсом дело не ограничилось, и на SC19 компания продемонстрировала новое высокопроизводительное аппаратное обеспечение Azure на базе ускорителей NVIDIA и Graphcore.

Новые серверы Microsoft Azure являются частью инициативы Open Compute Project. Платформа называется Open CloudServer (изначально MS Project Olympus) и частично является открытой; код инструментария управления будет выкладываться на GitHub. Аппаратный дизайн открыт полностью, стандартизирован и его описание можно найти по вышеприведённой ссылке, а также на ресурсе MSDN

Открывает серию сервер Azure NDv2, самый крупный из новинок. Его высота обусловлена применением 8 ускорителей NVIDIA Tesla V100 в формате SXM2, каждый из которых снабжён солидным радиатором. Неудивительно, поскольку каждый такой чип может выделять до 300 ватт тепла.

Основным процессором в этих серверах выступает Xeon Platinum 8168 (24C/48T, 205 Ватт TDP), его дополняет 672 Гбайт оперативной памяти, но основная мощь скрыта именно в ускорителях V100, каждый из которых несёт на борту 32 Гбайт быстрой памяти HBM2. Заказчикам новой услуги доступны кластеры, включающие до 100 таких серверов (до 800 ускорителей NVIDIA). В качестве межсоединений используется сеть InfiniBand, как обеспечивающая меньшую латентность, нежели Ethernet.

А вот серверы Azure HBv2 отличаются от NDv2 буквально всем. Они используют компактные корпуса и процессоры AMD серии EPYC 7002. Весьма любопытно выглядит система охлаждения с четырьмя тепловыми трубками на каждый процессор, но такое решение продиктовано желанием повысить плотность размещения вычислительных мощностей.

Виртуальные машины, которые будут размещаться на этих серверах, смогут предоставить заказчикам до 120 ядер AMD Rome (без SMT), до 480 Гбайт оперативной памяти и локальное хранилище данных объёмом до 1,6 Тбайт. Внутренняя сеть NDv2 на базе InfiniBand HDR будет использовать RDMA и работать на скорости 200 Гбит/с, внешняя сеть Azure ‒ на скорости 40 Гбит/с.

Максимальный объём кластера на базе NDv2 для одной задачи может достигать 36 тысячи ядер, крупнейшим клиентам Microsoft сможет предоставить до 80 тысяч ядер. Любопытно, что в выставочном экземпляре HBv2 явно видна установленная обычная видеокарта GIGABYTE, использовавшаяся, скорее всего, в демонстрационных целях.

Серверы Azure NDv3 используют более высокий корпус, что вызвано необходимостью размещения полноразмерных плат ускорителей на базе интеллектуального процессора (IPU) Graphcore C2. Об этом процессоре мы уже рассказывали, он имеет уникальную тайловую архитектуру и предназначен для ускорения задач машинного обучения.

Каждая виртуальная машина нового типа сможет предоставить в распоряжение заказчика 16 процессоров IPU, каждый из которых способен выполнять более 1200 потоков. Система межсоединений, задействованных в NDv3, обеспечит обучение больших нейросетей на крупномасштабных моделях. Объём доступной системной памяти составит 768 Гбайт, внутренней памяти IPU ‒ 300 Мбайт на чип.

Наконец, серверы Azure NVv4 представляют собой решения на базе процессоров AMD EPYC 7002 и ускорителей AMD Radeon Instinct. Выставочная модель была оснащена пакетами плат Instinct MI25. Пожалуй, это самое гибкое решение, поскольку заказчики смогут использовать виртуальные машины даже с 1/8 от ускорителя. Microsoft предлагает широкий выбор вариантов.

В отличие от NDv2, поддержка SMT в этой варианте будет включена. Данная версия сервера предназначается, главным образом, для сервисов удалённой визуализации и удалённых рабочих сред (virtual desktops). Поддерживаются протоколы RDP 10, Teradici PCoIP и HDX 3D Pro, пользователь сможет работать с API DirectX9 ‒ 12, OpenGL 4.6 или Vulkan 1.1. Максимально возможная конфигурация одной виртуальной машины NVv4 ‒ 32 процессора, 112 Гбайт памяти и 16 Гбайт памяти GPU. Скорость сети Azure для этих систем составляет 50 Гбит/с.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Источник:

Постоянный URL: https://servernews.ru/998260
Поделиться:  

Комментарии

Система Orphus