Материалы по тегу: tesla

09.05.2018 [07:00], Иван Грудцын

Новые серверы Gigabyte поддерживают установку 8–10 ускорителей Tesla

На днях компания Gigabyte расширила модельный ряд barebone-серверов продуктами G481-S80 и G481-HA0, предназначенными для сборки мощных HPC-систем и вычислений в рамках решения задач глубинного обучения. Оба сервера выполнены в форм-факторе 4U (880 × 448 × 176 мм) и базируются на материнской плате MG61-G40, которая, в свою очередь, включает два процессорных разъёма LGA3647, чипсет Intel C621, 24 слота для оперативной памяти с шестиканальным доступом и 11 разъёмов Slimline 8i (по 8 линий PCI Express 3.0 на каждый). Вспомогательная плата позволяет подключать различные HPC-ускорители.

G481-S80

G481-S80

Схема материнской платы Gigabyte MG61-G40

Схема материнской платы Gigabyte MG61-G40

Barebone-сервер G481-S80 рассчитан на установку дуэта CPU Intel Xeon Scalable серий Platinum, Gold, Silver и Bronze (TDP до 205 Вт), а также восьми ускорителей NVIDIA Tesla V100 и P100 в форм-факторе SXM2. Система может включать до 1,5 Тбайт оперативной памяти RDIMM/LRDIMM DDR4-2133/2400/2666, дополнительные карты расширения PCI Express x8 (5 шт.) и PCI Express x16, и десять 2,5-дюймовых SSD/HDD (поддерживается горячая замена накопителей) с опциями RAID 0, 1, 5 и 10.

Сетевые возможности G481-S80 представлены тремя контроллерами Gigabit Ethernet. В качестве необязательного компонента в спецификации сервера указана связка из четырёх портов QSFP28 (Intel Omni-Path) с общей пропускной способностью 100 Гбит/с. Кроме того, в разъём PCI Express x8 можно установить сетевой адаптер с защитой от перегрузки по току. Питание системы обеспечивается четырьмя 2200-ваттными БП с резервированием. Используемые источники питания отмечены сертификатом 80 PLUS Platinum.

Ключевым отличием barebone-сервера Gigabyte G481-HA0 от родственной модели является поддержка десяти HPC-ускорителей с интерфейсом PCI Express x16. Помимо этого, система может похвастаться наличием двух 10-Гбит портов Ethernet и 22 разъёмов для накопителей (8 × U.2, 14 × SATA/SAS). Количество 2,2-кВт блоков питания с резервированием ограничено тремя.

Сервер Gigabyte G481-S80 без учёта массы CPU и GPU, и их охладителей весит 63 кг брутто. Продув радиаторов обеспечивается четырьмя 40-мм (25 000 об/мин) и шестью 60-мм (23 000 об/мин) вентиляторами. Масса продукта G481-S80 на сайте производителя не указана. Сервер продувается шестью вентиляторами типоразмера 60 × 60 × 76 мм.

Постоянный URL: http://servernews.ru/969442
28.03.2018 [12:10], Сергей Карасёв

Сервер GIGABYTE G190-G30 формата 1U допускает установку четырёх ускорителей Tesla V100

Компания GIGABYTE анонсировала сервер G190-G30 формата 1U, рассчитанный на монтаж в стойку.

Решение допускает установку двух процессоров Intel Xeon E5-2600 v4 или Xeon E5-2600 v3. Предусмотрены 16 слотов для модулей оперативной памяти DDR4-2133/2400, ёмкость каждого из которых может достигать 128 Гбайт.

Сервер может комплектоваться четырьмя ускорителями NVIDIA Tesla V100/P100 в форм-факторе SXM2. Предусмотрены два слота PCIe x16 (Gen3 x8) для низкопрофильных карт расширения.

Сервер имеет размеры 440 × 43,5 × 900 мм. Возможно использование четырёх 2,5-дюймовых накопителей с поддержкой «горячей» замены. Оснащение включает двухпортовый сетевой контроллер GbE LAN (Intel I350-AM2) и порт 10/100/1000 Management LAN. Устройство оборудовано двумя блоками питания мощностью 2000 Вт каждый.

Сервер допускает использование программных платформ Windows Server, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Ubuntu и VMware ESXi. Информации об ориентировочной цене новинки на данный момент, к сожалению, нет. 

Постоянный URL: http://servernews.ru/967632
06.12.2017 [23:45], Сергей Юртайкин

IBM представила первый сервер на процессоре POWER9

IBM представила свой первый собственный сервер на процессоре POWER9. Особенность решения под названием IBM Power Systems AC922 заключается в том, что новая аппаратная платформа разработана специально для работы с интенсивными вычислительными нагрузками технологий искусственного интеллекта (ИИ).

CPU IBM POWER9

CPU IBM POWER9

В IBM отмечают, что Power 9 позволяет ускорить тренировки фреймворков глубинного обучения обучения почти в четыре раза, благодаря чему клиенты смогут быстрее создавать более точные ИИ-приложения. Утверждается, что новый сервер разработан для получения значительных улучшений производительности всех популярных фреймворков ИИ, таких как Chainer, TensorFlow и Caffe, а также современных баз данных, использующих ускорители, например, Kinetica.

Сервер IBM Power System AC922

Сервер IBM Power System AC922

Сервер IBM Power Systems AC922 использует шину PCI-Express 4.0 и технологии NVIDIA NVLink 2.0 и CAPI 2.0/OpenCAPI, способные ускорить пропускную способность в 9,5 раза по сравнению с системами x86 на базе PCI-E 3.0. Это, в частности, позволяет задействовать ускорителям (GPU или FPGA) системную ОЗУ без значительных, по сравнению с прошлыми решениями, потерь производительности, что важно для обработки больших массивов данных. Кроме того, новые поколения карт расширения и ускорителей уже поддерживают эту шину.

IBM Power Systems AC922 создан в нескольких конфигурациях, оснащаемых двумя процессорами POWER9. Стандартные версии включают CPU c 16 (2,6 ГГц, турбо 3,09 ГГц) и 20 (2,0/2,87 ГГц) ядрами (4 потока на ядро), а позже появятся версии с 18- и 22 -ядерными процессорами. Всего в сервере есть 16 слотов для модулей ECC DDR4-памяти, что на текущий момент позволяет оснастить его 1 Тбайт RAM. Для хранения данных предусмотрено два слота для 2,5" SSD/HDD (RAID-контроллера нет).

AC922 может иметь на  борту от двух до четырёх ускорителей NVIDIA Tesla V100 форм-фактора SXM2 с памятью 16 Гбайт и шиной NVLink 2.0. В сумме они дают до 500 Тфлопс на расчётах половинной точности. Дополнительные ускорители можно подключить к слотам PCI-E 4.0. 

Сервер рассчитан на установку четырёх дополнительных низкопрофильных карт расширения: два слота PCI-E 4.0 x16, один PCI-E 4.0 x8 и один PCI-E 4.0 x4. Все слоты, кроме последнего, также умеют работать с CAPI. Также есть два порта USB 3.0. Поддерживается ОС Red Hat Enterprise Linux 7.4 for Power LE.

Процессоры IBM Power 9, которые нашли применение в IBM Power Systems AC922, легли в основу суперкомпьютеров Summit и Sierra Министерства энергетики США, а также используются компанией Google. Чипы и использующие их системы стали частью совместной работы участников организации OpenPower Foundation, в которую входят IBM, Google, Mellanox, NVIDIA и др.

Процессор IBM Power 9

Процессор IBM Power 9

«Мы создали уникальную в своём роде систему для работы с технологиями ИИ и когнитивными вычислениями, — говорит старший вице-президент подразделения IBM Cognitive Systems Боб Пиччиано (Bob Picciano). — Серверы на Power 9 являются не только основой самых высокопроизводительных компьютеров, они позволят заказчикам масштабировать невиданные ранее инсайты, что будет способствовать научным прорывам и революционным улучшениям бизнес-показателей».

Сервер имеет стандартное 2U-шасси и оснащается двумя (1+1) блоками питания мощностью 2,2 кВт каждый. Система охлаждения может быть гибридной. Начало продаж  IBM Power Systems AC922 намечено на 22 декабря 2017 года. В 2018 году будут доступны конфигурации с шестью ускорителями Tesla и СЖО.

Постоянный URL: http://servernews.ru/962463
10.08.2017 [13:40], Алексей Степин

IBM ставит рекорды масштабируемости в сфере машинного обучения

Технологии машинного обучения и искусственного интеллекта на базе нейронных сетей в наши дни являются широко востребованными, на них возлагаются большие надежды в самых различных промышленных и научных отраслях. Очевидно также, что тенденция к распараллеливанию программных алгоритмов и не думает сокращаться, но не всякий софт хорошо масштабируется по мере роста количества вычислительных блоков. Компания IBM это понимает хорошо — она активно работает над оптимизацией программного обеспечения нейронных сетей. Буквально на днях разработчики «голубого гиганта» продемонстрировали новое ПО, которое одновременно ускоряет обучение нейронных сетей и повышает аккуратность самого обучения.

Добиться этого удалось путём программной оптимизации масштабирования при увеличении количества графических ускорителей в системе. Исследовательская группа, возглавляемая Хиллери Хантер (Hillery Hunter), фокусировала свои усилия на уменьшении времени тренировки нейросетей на больших объёмах данных. В таких задачах ждать получения результата можно часами и даже днями, а задачей исследователей было добиться сокращения этого временного промежутка до минут или даже секунд при сохранении или повышении точности. Для этого пришлось активно оптимизировать фирменное программное обеспечение IBM для эффективной работы в системах с большим количеством GPU-ускорителей.

Оптимизации, внесённые в комплекс ПО Distributed Deep Learning (DDL), позволили добиться 95 % эффективности масштабирования в системе с 256 ускорителями NVIDIA Tesla P100. Тестирование было проведено в системе Caffe на задачах распознавания изображений. Полученный результат является новым рекордом. Ранее этот рекорд составлял 89 % и был достигнут командой Facebook при использовании аналогичного аппаратного комплекса. Точность распознавания на базе из 7,5 миллионов изображений достигла 33,8 %, что тоже выше предыдущего достижения, равного 29,8 %. Казалось бы, немного, но предыдущий результат занял у Microsoft 10 дней обучения сети в 2014 году, в то время, как IBM удалось уложиться всего в 7 часов за счёт использования графических ускорителей серии Tesla.

Постоянный URL: http://servernews.ru/956738
01.02.2017 [11:11], Сергей Карасёв

Сервер System76 Ibex Pro может комплектоваться восемью ускорителями NVIDIA Tesla P100

Компания System76 выпустила высокопроизводительный сервер Ibex Pro, который может поставляться с программной платформой Ubuntu Server 16.04.1 LTS или Ubuntu Server 16.10.

Стоечная система может нести на борту два серверных процессора Intel Xeon E5 v4 2600 Series. Объём оперативной памяти DDR4-2400 в максимальной конфигурации достигает 1536 Гбайт. В составе подсистемы хранения данных могут быть задействованы восемь 3,5-дюймовых накопителей с интерфейсом Serial ATA 3.0.

Для системы предлагается установка восьми ускорителей NVIDIA Tesla P100 на архитектуре Pascal. Структура памяти CoWoS (чип-на-пластине-на-подложке) с HBM2 с 4096-битной шиной позволила втрое увеличить полосу пропускания памяти по сравнению с архитектурой NVIDIA Maxwell.

Ускорители Tesla P100 для PCIe характеризуется производительностью 4,7 Тфлопс для вычислений двойной точности, 9,3 Тфлопс для вычислений одинарной точности и 18,7 Тфлопс для вычислений половинной точности с технологией NVIDIA GPU Boost.

Цена сервера System76 Ibex Pro начинается с $9575 и может достигать $114 725. Сконфигурировать систему под собственные нужды можно здесь

Постоянный URL: http://servernews.ru/946856
18.10.2016 [12:48], Алексей Степин

Альянс Google и Rackspace представил сервер на базе IBM POWER9

Не столь давно мы рассказывали читателям о новых версиях процессоров IBM POWER8 с поддержкой шины NVLink. Эти чипы предназначались для использования совместно с новейшими ускорителями NVIDIA Tesla для использования в сфере HPC и машинного обучения. Но POWER8 не является последним поколением процессоров, разрабатываемых «голубым гигантом». Альянс Google и Rackspace объявил о выпуске новой серверной платформы Zaius на базе чипов POWER9. О планах по созданию таких серверов в рамках инициативы Open Compute Project было объявлено ещё весной этого года, а теперь мы имеем дело с реальным глубоко проработанным проектом. Над созданием системы Zaius P9 Server активно работали Google, Rackspace, IBM и Ingrasys, учтены были все возможные пожелания сообщества OCP. В итоге система вышла уникальной. Она поддерживает OpenCAPI 2.0, NVLink 2.0 и четвёртое поколение шины PCI Express; в отличие от предыдущих наработок в рамках OCP в ней используются новейшие процессоры POWER9.

Напомним, что POWER8 имеют внешний кеш L4, объединённый с контроллерами памяти, но в POWER9 эти компоненты переехали в состав процессора. Каждый из двух чипов POWER9 имеет 8 каналов DDR4 с пропускной способностью до 2400 МТ/с и два канала NVLink/OpenCAPI. Это позволяет установить до четырёх ускорителей Tesla и при этом не упереться в нехватку пропускной способности подсистемы памяти. Всего на системной плате сервера имеется 32 слота DDR4 DIMM. Поддержка PCI Express 4.0 будет использована для высокоскоростных навесных сетевых адаптеров формата OCP 2.0. Zaius P9 относится к классу NUMA-систем, процессоры в нём используют собственные контроллеры памяти и общаются между собой посредством двухканальной шины X Bus. На приведённой блок-схеме её пропускная способность не указана, но она наверняка достаточно высока: у IBM, как разработчика серии POWER, огромный опыт в создании мощных серверных систем и мейнфреймов. Из документации IBM понятно, что речь идёт о скоростях порядка 38,4 Гбайт/с × 2.

Примерная компоновка системной платы Zaius P9

Примерная компоновка системной платы Zaius P9

Новые процессоры используют набор инструкций Power ISA 3.0, выпускаются с использованием 14-нм техпроцесса GlobalFoundries и могут иметь о 12 до 24 ядер. Прочие характеристики тоже впечатляют: так, объём кеша L3 на чип может достигать 120 Мбайт, а тактовые частоты — отметки 4 ГГц. По всей видимости, в Zaius P9 установлены чипы версии SO, специально предназначенные для двухсокетных систем. Любопытно, что новые серверы предназначены для работы с основным напряжением питания 48 вольт, поддерживается стандарт 48V-POL. В качестве BIOS или, точнее, BMC (на схеме это ПО предназначено для управляющего процессора AST 25X0), используется полностью открытая разработка Open BMC. Google планирует выдвинуть дизайн Zaius P9 на рассмотрение сообщества OCP Foundation и надеется, что он будет принят, а внедрение нового высоковольтного стандарта питания серверов продолжится. Компания надеется, что новые гетерогенные вычислительные системы открытого стандарта ждёт большое будущее в её собственных облачных проектах.

Постоянный URL: http://servernews.ru/941143
13.09.2016 [15:03], Иван Грудцын

NVIDIA представила ускорители Tesla P40 и Tesla P4

В ассортименте специализированных ускорителей компании NVIDIA появились модели Tesla P40 и Tesla P4, предназначенные для решения задач из области так называемого глубокого обучения (англ. deep learning). С помощью данных устройств самообучающиеся системы могут не только очень быстро делать логические выводы, но и анализировать десятки потоков видео одновременно. Новые адаптеры пришли на смену ускорителям поколения Maxwell — Tesla M40 и Tesla M4.

Tesla P40 использует полную версию графического процессора GP102, который, в свою очередь, является упрощённым вариантом HPC-чипа GP100. Карта оперирует 3840 потоковыми процессорами Pascal, 240 текстурными блоками (TMU), 96 блоками рендеринга (ROP), 384-разрядной шиной памяти и 24 Гбайт локальной памяти стандарта GDDR5. Применение относительно медленных микросхем буферной RAM, работающих на частоте 1800 (7200) МГц, сочетается у Tesla P40 с невысоким номиналом GPU — от 1303 МГц (базовая частота) до 1531 МГц (boost-режим). Пропускная способность подсистемы памяти равна 346 Гбайт/с.

NVIDIA Tesla P40

Энергопотребление модели P40 при полной загрузке GPU составляет в среднем 250 Вт, как и у NVIDIA TITAN X. Система охлаждения выполнена в виде крупного двухслотового радиатора, который должен продуваться вентиляторами серверных стоек. Габариты Tesla P40 равны 267(Д) × 112(Ш) × ~40(В) мм. В соответствии со спецификацией, ускоритель характеризуется производительностью в 12 TFLOPS при операциях с числами одинарной точности и 47 TOPS при целочисленных (INT8) операциях. Кроме того, поддерживается одновременный анализ 35 потоков видео формата H.264.

Возможности Tesla P4 скромнее ввиду использования ядра Pascal GP104. Чип содержит 2560 потоковых процессоров, 160 текстурных блоков, 64 блока растровых операций, шину памяти разрядностью 256 бит и 8 Гбайт GDDR5. Частота GPU довольно мала как для собрата GeForce GTX 1080 — от 810 до 1063 МГц. Микросхемы RAM работают на номинальных 1500 (6000) МГц, обеспечивая общую пропускную способность в 192 Гбайт/с. В зависимости от задач, Tesla P4 может иметь лимит мощности в 50 или 75 Вт. Дополнительное питание карте не требуется.

NVIDIA Tesla P4

Модель P4 выполнена в виде низкопрофильного адаптера с пассивной СО. Устройство демонстрирует производительность в 5,5 TFLOPS (числа одинарной точности) и 22 TOPS (целые числа). Как и P40, её «младшая сестра» может анализировать 35 видеопотоков в режиме реального времени.

Ускоритель Tesla P40 будет задействоваться в составе серверов от авторизованных партнёров NVIDIA начиная с октября, а Tesla P4 дебютирует в ноябре.

Постоянный URL: http://servernews.ru/939332
20.06.2016 [23:59], Сергей Юртайкин

ISC 2016: быстрый ускоритель для дата-центров NVIDIA Tesla P100

Компания NVIDIA анонсировала графический ускоритель Tesla P100, предназначенный для серверов с интерфейсом PCIe. Новинка, как утверждают разработчики, способна ускорять работу высокопроизводительных вычислений (HPC) более чем в 30 раз.

NVIDIA Tesla P100 для PCIe характеризуется производительностью 4,7 Тфлопс для вычислений двойной точности, 9,3 Тфлопс для вычислений одинарной точности и 18,7 Тфлопс для вычислений половинной точности с технологией NVIDIA GPU Boost.

Ускоритель, построенный на новой архитектуре Pascal и предназначенный для масштабируемых дата-центров, объединяет процессор и данные в одном блоке, что обеспечивает высокую эффективность вычислений. Структура памяти CoWoS (чип-на-пластине-на-подложке) с HBM2 с 4096-битной шиной позволила втрое увеличить полосу пропускания памяти по сравнению с архитектурой NVIDIA Maxwell.

Отмечается, что NVIDIA Tesla P100 для PCIe позволяет создавать «суперузлы», пропускная способность которых превышает пропускную способность 32 узлов на базе CPU, и сокращает капитальные и операционные расходы до 70 %. Показатель TDP достигает 250 Вт.

Продажи NVIDIA Tesla P100 для PCIe-систем стартуют в четвёртом квартале 2016 года. Ускоритель также будет поставляться в составе суперкомпьютера NVIDIA DGX-1 (см. фото выше). Стоимость высокопроизводительной карты пока не называется.  

Постоянный URL: http://servernews.ru/934943
29.04.2016 [16:00], Антон Тестов

Zaius: первый сервер на базе IBM POWER9 разработки Google и Rackspace

Google и Rackspace начали использовать серверы на базе процессоров IBM POWER8 в своих центрах обработки данных (ЦОД) несколько месяцев назад. На сегодняшний день существенная часть программного обеспечения обеих компаний уже оптимизирована под новые микросхемы, а потому эксперимент с использованием этих систем можно считать удачным. Что ещё более интересно, так это то, что партнеры уже работают над новой серверной платформой на базе процессора IBM POWER9 следующего поколения.

На прошедшем недавно саммите OpenPOWER Foundation компании Google и Rackspace раскрыли первые подробности о разрабатываемой совместно горизонтально масштабируемой (scale-out) серверной платформе, известной под кодовым именем Zaius. Платформа будет базироваться на двух процессорах IBM POWER9 c неизвестным количеством ядер (однако, логично предполагать удвоение их количества относительно POWER8) и поддерживать 32 гнезда для памяти DDR4 (что даст возможность удвоить объём памяти относительно предшественника), два слота PCI Express 4.0 x16 для двух полноразмерных карт с поддержкой технологии когерентности памяти CAPI, один набор mezzanine-контактов NVLink для ускорителей NVIDIA Tesla, 15 накопителей данных в форм-факторе 2,5-дюйма с интерфейсом SAS, SATA или NVMe и т. д.

Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp

Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp

Примечательно, что Zaius поддерживает как FPGA-ускорители с CAPI 2.0, так и вычислительные процессоры NVIDIA Tesla (на базе архитектур Pascal и Volta) с технологией NVLink 2.0. Такая совместимость позволит Google и Rackspace более широко использовать специализированные ускорители, что должно увеличить энергоэффективность серверов на базе POWER9, а значит, уменьшить стоимость владения центров обработки данных. Свою лепту также внесёт и интерфейс PCIe 4.0, который удвоит пропускную способность (предположительно до 32 Гбайт/с для гнёзд PCIe 4.0 x16), доступную для твердотельных накопителей или же сопроцессоров. Сервер Zaius будет совместим с предлагаемыми стандартом для стоек Open Rack 48В и будет иметь высоту 1.25U.

Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp

Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp

Что касается самих процессоров IBM POWER9, то их версии для горизонтально масштабируемых серверов (тех, чья производительность увеличивается путём добавления новых машин в ЦОД) появятся на рынке в следующем году. Новые CPU будут базироваться на новой микроархитектуре и иметь до 24 ядер с технологией многопоточности и буферами памяти eDRAM. Системы на базе IBM POWER9 для scale-out машин более не будут использовать внешние буферы памяти, а будут опираться исключительно на встроенный контроллер DRAM. Процессоры POWER9 будут производится по технологическому процессу GlobalFoundres 14HP (14 нм, FinFET), но его характеристики неизвестны. Возможно, речь идёт о технологии 14 нм GlobalFoundries третьего поколения; возможно, о специализированных нормах производства IBM.

Перспективный план IBM в области микропроцессоров. Фото IBM PowerSystems JP - twitter.com/ibmpowerJP

Перспективный план IBM в области микропроцессоров. Фото IBM PowerSystems JP - twitter.com/ibmpowerJP

На саммите OpenPOWER Foundation представители Google заявили, что многие из облачных сервисов компании, в том числе Gmail, уже могут функционировать используя серверы на базе процессоров IBM POWER8. Судя по всему, компания находит производительность этих процессоров конкурентоспособной, ровно поэтому она работает над новым поколением машин на основе POWER9.

Долгосрочные планы компаний Google и Rackspace касательно серверных платформ IBM POWER нельзя недооценивать. Появление серверов Zaius в ЦОД указанных компаний означает, что они планируют продолжить оптимизацию программного обеспечения под процессоры на базе данной архитектуры. Таким образом, со временем у Google и Rackspace появится полноценная инфраструктура из ПО и аппаратного обеспечения, способная заменить программно-аппаратные комплексы на базе Intel Xeon.

Постоянный URL: http://servernews.ru/932236
15.04.2016 [12:00], Антон Тестов

IBM, NVIDIA и Wistron разработали новый HPC-сервер на базе POWER8 и Tesla P100

IBM, NVIDIA и Wistron представили совместно разработанный сервер для высокопроизводительных вычислений (high-performance computing, HPC) второго поколения. Данная машина базируется на центральных процессорах IBM POWER8, выходящих вскоре вычислительных ускорителях NVIDIA Tesla P100 (на основе архитектуры Pascal) и технологии межпроцессорных коммуникаций NVLink. Предполагается, что система покажет непревзойдённую производительность в области HPC-вычислений, но чтобы получить преимущества от неё, эксплуататорам суперкомпьютеров придётся оптимизировать свои программы под POWER8 и Pascal, с чем и помогут IBM и NVIDIA.

Новая HPC-платформа, разработанная IBM, NVIDIA и Wistron (один из крупных контрактных производителей серверов), базируется на процессорах IBM POWER8 и ускорителях NVIDIA Tesla P100. В настоящее время компании не раскрывают большого количество подробностей о данном сервере, но, судя по распространённой IBM фотографии, речь идёт машине на основе двух микросхем IBM POWER8, четырёх ускорителях NVIDIA Tesla P100 в форм-факторе SMX2 и восемью модулями оперативной памяти IBM Centaur (предположительно объёмом 1 Тбайт). Платформа имеет форм-фактор 2U и совместима с сегодняшними центрами обработки данных (ЦОД). Она не является наиболее мощным решением на базе NVIDIA Tesla P100, поскольку сама NVIDIA предлагает сервер DGX-1 в форм-факторе 3U и восемью ускорителями. Однако, система IBM и Wistron более приспособлена для работы в современных ЦОД с точек зрения энергопотребления и тепловыделения.

HPC-ситема, разработанная IBM, NVIDIA и Wistron

HPC-сиcтема, разработанная IBM, NVIDIA и Wistron

Процессоры IBM POWER8 имеют до 12 ядер, каждое из которых может обрабатывать восемь аппаратных потоков одновременно благодаря 16 исполнительным конвейерам. 12-ядерный POWER8 может работать при достаточно высоких тактовых частотах (до 3–3,5 ГГц) и интегрировать в общей сложности 6 Мбайт кеша второго уровня (512 кбайт на ядро) и 96 Мбайт кеша третьего уровня. Каждый такой процессор может поддерживать до 1 Тбайт оперативной памяти DDR3 или DDR4 с устойчивой пропускной способностью до 230 Гбайт/с (для сравнения, Intel Xeon E5 v4 имеет пропускную способность памяти «всего» до 76,8 Гбайт/с при условии использования DDR4-2400). Поскольку новейшие версии процессоров POWER8 были разработаны как для высокопроизводительных серверов, так и суперкомпьютеров, они также имеют множество линий PCI Express с поддержкой технологии когерентности памяти IBM CAPI для специализированных ускорителей на базе FPGA, а также поддержку шины NVLink для соединения с вычислительными процессорами NVIDIA Tesla.

NVIDIA Tesla P100

NVIDIA Tesla P100

Каждый cуперкомпьютерный ускоритель NVIDIA Tesla P100 имеет 3584 потоковых процессоров, 4 Мбайт кеша второго уровня и 16 Гбайт памяти типа HBM2, которые подключаются к GPU посредством 4096-разрядной шины. Производительность Tesla P100 на операциях с одинарной точностью (single precision, FP32) составляет около 10,6 триллионов операций с плавающей запятой в секунду (TFLOPS), тогда как мощность при операциях с двойной точностью (double precision, FP64) составляет примерно 5,3 TFLOPS. Одним из основных отличий NVIDIA Tesla P100 на базе процессора GP100 от предшественников является поддержка четырёх линий шины NVLink первого поколения, которая позволяет передавать до 20 Гбайт данных в секунду по одной линии (для сравнения, пропускная способность PCIe 3.0 x16 составляет 16 Гбайт/с). NVLink позволяет ускорить как коммуникации между GPU, так и скорость передачи данных между GPU и центральными процессорами IBM POWER8. Кроме того, NVLink способна обеспечить когерентность содержимого памяти различных процессоров, что крайне важно для суперкомпьютерных вычислений.

Преимущества NVLink

Преимущества NVLink

Таким образом, система IBM, NVIDIA и Wistron с четырьмя P100 обладает вычислительной мощностью в 42,4 TFLOPS (FP32) или в 21,2 TFLOPS (FP64), что впечатляет. Впрочем, NVIDIA DGX-1 способен производить ещё большее количество вычислительных операций — 42,4 TFLOPS (FP32) и 84,8 TFLOPS (FP64) при условии одинаковых с P100 тактовых частот.

Для сравнения: суперкомпьютер Earth Simulator компании NEC, который являлся самой мощной системой в мире с июня 2002 года по июнь 2004 года, имел производительность 35,86 TFLOPS согласно тесту Linpack. Earth Simulator состоял из 640 узлов с восемью векторными процессорами и 16 Гбайт оперативной памяти в каждом (в общей сложности, он базировался на 5120 процессорах и 10 Тбайт оперативной памяти), а его энергопотребление было около 3200 кВт. Благодаря Tesla P100 производительность Earth Simulator мощно получить, используя пару новых 2U-систем Wistron или одну NVIDIA DGX-1.

Возможные топологии систем с NVLink на базе процессоров Intel Xeon

Возможные топологии систем с NVLink на базе процессоров Intel Xeon

IBM, NVIDIA и Wistron ожидают, что их HPC-платформа второго поколения на базе процессоров POWER8 станет доступной для покупки в четвёртом квартале 2016 года. Впрочем, это едва ли означает, что такие машины получат широкое распространение даже по меркам суперкомпьютеров в ближайший год. В настоящее время большинство систем HPC основаны на процессорах x86 производства Intel или AMD. Для того чтобы получить все преимущества от NVIDIA Tesla P100 с шиной NVLink, программистам придётся переделать свои программы под IBM POWER8. IBM и NVIDIA намерены создать сеть лабораторий, чтобы помочь разработчикам приложений портировать свои программы на новые высокопроизводительные вычислительные платформы. Эти лаборатории будут очень важны не только для IBM и NVIDIA, но и для будущего высокопроизводительных систем в целом. Гетерогенные суперкомпьютеры могут предложить очень высокую производительность, но для того, чтобы использовать их в полной мере, необходимы новые методы программирования.

Появление второго поколения HPC-систем на базе IBM POWER8 является важным шагом на пути к созданию суперкомпьютеров Sierra для национальной лаборатории Ок-Ридж и Summit для Ливерморской национальной лаборатории. Sierra и Summit будут базироваться на процессорах IBM POWER9, а также на ускорителях NVIDIA Tesla на основе архитектуры Volta с поддержкой шины NVLink второго поколения.

Постоянный URL: http://servernews.ru/931493
Система Orphus