Материалы по тегу: p100

21.06.2017 [23:38], Иван Грудцын

В «меню» PNY на ISC 2017 — ускорители Quadro, Tesla и мощные серверы

Известный поставщик серверных решений, компания PNY, не могла пропустить выставку ISC 2017, где продемонстрировала свой ассортимент видеоадаптеров и систем в сборе. Большинство прототипов и продуктов полностью изготовлены на производственных мощностях подрядчиков и партнёров американской компании, в числе которых ASUS, Gigabyte, NVIDIA, Supermicro, TYAN и другие. Как бы то ни было, приобрести их зачастую можно только через PNY Technologies (в том числе и на российском рынке).

PNY уже давно занимается поставками ускорителей Quadro, но в этом году взялась отгружать ещё и модели Tesla. Официальный анонс PCI-E версии Tesla V100 состоялся только на днях, поэтому в компании решили ограничиться демонстрацией на стенде адаптера предыдущего поколения — Tesla P100. Продукт TCSP100M-16GB-PB оснащён графическим процессором NVIDIA GP100 (3584 шейдерных блоков) и 16 Гбайт памяти HBM2 с функцией контроля ошибок. В вычислениях двойной точности (FP64) карта обеспечивает быстродействие на уровне 4,67 Тфлопс, а её энергопотребление составляет 250 Вт.

Без Quadro также не обошлось: перед нами модель Quadro GP100 (PNY VCQGP100-PB) с теми же 3584 ядрами CUDA и 16 Гбайт HBM2, что и у Tesla P100. За счёт более высокой частоты GPU «чистая» производительность увеличена до 5,15 Тфлопс (FP64), а максимальное энергопотребление, наоборот, немного ниже — 235 Вт. В число видеовыходов включены DVI-D и квартет DisplayPort 1.4.

Дистрибуция серверов NVIDIA DGX-1 для вычислений, связанных с искусственным интеллектом, также не чужда PNY. Система DGX-1 первого поколения (на фото) содержит восемь ускорителей Tesla P100 с суммарной производительностью 170 Тфлопс (FP16). Среди прочего, сервер включает два 20-ядерных процессора Intel Xeon E5-2698 v4, 512 Гбайт памяти DDR4-2133 и четыре 1,92-Тбайт SSD-накопителя в RAID 0.

А так выглядит NVIDIA DGX-1 второго поколения (наше фото с ISC 2017):

Имеются в ассортименте PNY и серверы попроще. Как, например, следующая двухпроцессорная система с платой Gigabyte:

Однако системы наподобие PNY/TYAN FT77D-B7109 (см. ниже) всё-таки выглядят более впечатляюще. Мощь восьми ускорителей NVIDIA и двух Xeon может использоваться для научных исследований широкого спектра, анализа генетических последовательностей, обнаружения месторождений нефти и газа, масштабных проектов в области распознавания лиц и расшифровки важных данных методом полного перебора или «грубой силы» (англ. brute force). В 4U-корпусе также имеются посадочные места для четырнадцати 2,5-дюймовых SSD и четырёх M.2-накопителей.

Посетители ISC 2017 могли оценить прямо со стенда PNY работу кластера компании в г. Бордо. Для доступа к ресурсам HPC-системы было достаточно воспользоваться QR-кодом.

Постоянный URL: http://servernews.ru/954336
06.02.2017 [18:00], Иван Грудцын

NVIDIA анонсировала Quadro GP100 и младшие ускорители на чипах Pascal

До сих пор единственными профессиональными ускорителями NVIDIA Pascal для рабочих станций были модели верхнего ценового сегмента Quadro P6000 и P5000. И вот, наконец, калифорнийский разработчик решил отправить карты семейств Kepler и Maxwell на покой, предложив им альтернативу в виде пяти адаптеров Quadro — от P4000 на чипе GP104 до P400 на GP107. Параллельно дебютировал новый флагман — Quadro GP100 на одноимённом ядре. С него, пожалуй, и начнём.

Модель GP100 позиционируется как альтернатива Quadro P6000 для тех, кому необходима высокая производительность при операциях с числами двойной точности (FP64) — около 5 Тфлопс. Новинка имеет меньший объём памяти, чем P6000, но, с другой стороны, пропускная способность микросхем HBM2 выше, чем у GDDR5X. Она достигает 716,8 Гбайт/с при эффективной частоте памяти в 1400 МГц. Карта занимает два слота расширения и потребляет 235 Вт. Её стоимость, скорее всего, превысит отметку в $5000 (для рынка США).

 Кристалл GP100 в окружении четырёх микросхем HBM2

Кристалл GP100 в окружении четырёх микросхем HBM2

Графический адаптер Quadro P4000 8GB призван заменить Quadro M4000 (GM204) с тем же объёмом буферной памяти. Дебютант базируется на урезанном ядре Pascal GP104, а к его достоинствам стоит отнести невысокое энергопотребление (105 Вт) и однослотовое исполнение. По соотношению производительности и энергопотребления в FP32-вычислениях Quadro P4000 предпочтительнее GP100.

Quadro P2000 5GB имеет «экзотическую» конфигурацию ядра GP106: из шести 32-битных контроллеров памяти работают пять, количество потоковых процессоров, TMU и ROP уменьшено до 1024, 64 и 40 (по другим данным — 32) соответственно. Козырем новинки является отсутствие потребности в дополнительном питании и наличие четырёх разъёмов DisplayPort 1.4, как и у Quadro P4000.

Для относительно скромных низкопрофильных видеоадаптеров Quadro P1000, Quadro P600 и Quadro P400 избран 14-нм графический чип GP107. Производительность модели P1000 примерно в три раза выше, чем у P400, что заставляет усомниться в наличии у последней 128-разрядной шины памяти.

Синтетический тест SPECviewperf 12 показал значительное преимущество новых моделей Quadro Pascal над предшественниками — от 30 % до 100 %. Двукратный прирост был отмечен у Quadro P400 в сравнении с Quadro K420.

Поставки профессиональных ускорителей Quadro GP100, P4000, P2000, P1000, P600 и P400 начнутся в марте. Компании Dell, HP, Lenovo, Fujitsu и другие включат их в состав фирменных рабочих станций. В розничной продаже новинки можно будет встретить под брендом PNY.

Постоянный URL: http://servernews.ru/947106
21.11.2016 [14:32], Иван Грудцын

SC16: новая конфигурация сервера Hitachi SR24000 на базе Tesla P100

В рамках мероприятия SC16 (Supercomputing Conference 2016), которое в этом году прошло в столице американского штата Юта Солт-Лейк-Сити, компания Hitachi продемонстрировала новую серверную систему семейства SR24000. Конфигурация Hitachi SR24000/DL1 призвана решать задачи глубинного обучения и имеет для этого внушительный набор компонентов.

Сервер собран в корпусе форм-фактора 2U со сторонами 822(Д) × 442(Ш) × 86(В) мм. Его масса может достигать по крайней мере 30 кг. Ключевыми узлами системы являются 10-ядерные процессоры IBM POWER8 и высокопроизводительные ускорители NVIDIA Tesla P100, взаимодействующие с другими комплектующими с помощью интерфейса NVLink. Процессоры работают в составе сервера попарно (номинальная частота каждого — 2,86 ГГц), а количество плат Tesla P100 может равняться двум или четырём. Соответственно, пиковая производительность Hitachi SR24000/DL1 при операциях с числами половинной точности (FP16) оценена в 42,4—84,8 Тфлопс.

Процессоры POWER8 охлаждаются медно-алюминиевыми кулерами башенного типа, пластины которых пронизаны четырьмя U-образными тепловыми трубками. На карты Tesla P100 устанавливаются медные охладители с четырьмя-пятью медными теплотрубками. Радиаторы, находящиеся ближе к вентиляторам в передней части корпуса, имеют «прорехи» для лучшей продуваемости соседних радиаторов.

Каждый ускоритель Tesla P100 обеспечивает 21,2 Тфлопс «чистой» производительности (FP16) и оборудован 16 Гбайт буферной памяти HBM2 с пропускной способностью 720 Гбайт/с. В соответствии с официальной спецификацией, одна карта P100 использует 16-нм графический чип NVIDIA GP100, оперирующий 3584 потоковыми процессорами с номинальной частотой 1328 МГц и boost-частотой 1480 МГц, а также 4096-разрядным интерфейсом VRAM (объём доступной памяти стандарта HBM2 указан выше).

 Tesla P100

Tesla P100

В числе других узлов сервера Hitachi SR24000/DL1, пожалуй, стоит выделить 256 или 512 Гбайт оперативной памяти DDR4, интерфейс проводной сети с пропускной способностью 1, 10 или 40 Гбит/с, накопители HDD (2 × 2 Тбайт) или SSD (2 × 1,92 Тбайт) и блок питания мощностью 2550 Вт. Последний рассчитан на работу в сетях 200–240 В и, как и сервер в целом, греется незначительно при температуре окружения до 27 °C (нижний порог — 18 °C). Рекомендованной операционной системой для Hitachi SR24000/DL1 служит Ubuntu Server.

Постоянный URL: http://servernews.ru/943028
28.10.2016 [00:11], Иван Грудцын

Supermicro анонсировала новые системы семейства SuperServer 4028GR

Известный производитель серверного оборудования Supermicro продолжает содействовать NVIDIA в увеличении спроса на её ускорители Tesla P100, предназначенные для решения ресурсоёмких задач. В частности, американская компания готовит поставки новых 4U-серверов семейства SuperServer 4028GR, оптимизированных для работы с устройствами Tesla P100 в виде плат SMX2 (интерфейс NVLink) и карт расширения PCI Express x16. О новых продуктах в семействе 4028GR представители Supermicro поведали в ходе недавнего мероприятия GPU Technology Conference (GTC) в г. Вашингтон.

 Tesla P100

В число топовых решений Supermicro форм-фактора 4U вошли системы SuperServer 4028GR-TXR и SuperServer 4028GR-TXRT, поддерживающие одновременную установку восьми плат NVIDIA Tesla P100 (SXM2) и способствующие их эффективному охлаждению (благодаря оптимизированному дизайну корпуса). Пиковая производительность таких серверов при выполнении операций с числами половинной точности (FP16) может достигать 170 Тфлопс. Основное предназначение систем — вычисления, связанные с решением задач машинного обучения.

 Tesla P100 в виде SMX2-устройства на стенде Supermicro в рамках ISC 2016

Tesla P100 в виде SMX2-устройства на стенде Supermicro в рамках ISC 2016

Вторая группа новинок — 4U-серверы SuperServer 4028GR-TR2/4028GR-TRT2 — поддерживают установку десяти карт Tesla P100 с разъёмом подключения PCI Express 3.0 x16. Производительность систем при выполнении FP16-операций может достигать 187 Тфлопс. Оптимизация компоновки материнской платы в части взаимодействия PCI-E устройств с CPU позволила более эффективно использовать интерфейс QPI. Кроме того, уменьшение различных задержек достигает 60 %.

 Supermicro SuperServer 4028GR-TR2/4028GR-TRT2

В спецификациях систем SuperServer 4028GR-TR(T)2, с которыми можно ознакомиться по вышеприведённым ссылкам, имеется одно существенное различие: модель с суффиксом T оборудована двумя сетевыми адаптерами Intel X540 с пропускной способностью портов 10 Гбит/с, а 4028GR-TR(T)2, в свою очередь, ограничивается двумя контроллерами Intel i350 (10/100/1000 Мбит/с). Оба сервера рассчитаны на установку двух процессоров Intel Xeon E5-2600 v4/v3 с тепловым пакетом до 160 Вт и 24 накопителей форм-фактора 2,5 дюйма. Мощность используемых в 4028GR-TR2/4028GR-TRT2 источников питания составляет 2000 Вт, их высокий уровень КПД подтверждён сертификатом 80 PLUS Titanium.

Менее производительные, но и одновременно более доступные в ценовом отношении серверы с GPU Tesla P100 также входят в состав следующих семейств:

  • 1U 4 Pascal GPU Optimized SuperServer: модель 1028GQ-TR для задач машинного обучения;
  • 2U 6 Pascal GPU Optimized SuperServer: модель 2028GR-TRHT для задач машинного обучения;
  • 1U Ultra SuperServer: серия 1028U для ресурсоёмких корпоративных (enterprise) вычислений;
  • 2U Ultra SuperServer: серия 2028U для ресурсоёмких корпоративных (enterprise) вычислений, до четырёх GPU Pascal.
Постоянный URL: http://servernews.ru/941727
10.09.2016 [02:00], Алексей Степин

IBM анонсировала новые процессоры Power8 с поддержкой NVLink

Несмотря на серьезную заявку архитектуры х86 на полное доминирование в компьютерном мире, остаются сферы и области, где используются иные, более эффективные в ряде задач архитектуры. Одной из таких областей является сфера супервычислений, где довольно прочно укрепилась компания IBM со своими процессорами Power. Текущее поколение этих процессоров носит общее название Power8, впервые оно было представлено ещё в 2013 году в версиях с количеством ядер от 4 до 12. Поколение Power9 должно увидеть свет в следующем году, ну а пока на днях корпорация анонсировала выпуск новых, усовершенствованных процессоров поколения Power8, получивших название Power8+.

 IBM Power8 (без NVLink)

IBM Power8 (без NVLink)

Отличий у новинок немного. Самым главным является поддержка высокоскоростной шины обмена данными NVLink, разработанной и продвигаемой NVIDIA. Это позволяет создавать гетерогенные системы на базе Power8+ и ускорителей NVIDIA Pascal GP100 с невиданной ранее производительностью и отсутствием узких мест, ведь даже базовая версия NVLink обеспечивает пропускную способность 80 Гбайт/с. Каждый процессор Power8+ поддерживает прямое подключение до четырёх устройств NVLink, то есть, четырёхпроцессорная система с четырьмя 12-ядерными чипами может оснащаться шестнадцатью ускорителями GP100. Пока Power8+ имеет только один чип в семействе — десятиядерную модель с частотой до 3,26 ГГц. Интегрированный контроллер памяти DDR4 обладает пропускной способностью 115 Гбайт/с на процессор. Максимальный поддерживаемый объём составляет 512 Гбайт на чип.

 Новое семейство серверов на базе Power8

Новое семейство серверов на базе Power8

Помимо обновлённых процессоров, компания также продемонстрировала новые серверные системы, но только одна из новинок, Power S822LC, предназначенная для рынка HPC, базируется на Power8+ и поддерживает NVLink. По словам производителя, скорость передачи данных у нее в пять раз превышает аналогичный параметр у сопоставимой по характеристикам системы на базе х86, а использование единого пространства памяти существенно облегчает разработку программного обеспечения, использующего ресурсы графических процессоров. Эта система может нести на борту два 10-ядерных чипа Power8+ и до четырёх модулей NVIDIA GP100. Максимальная ёмкость оперативной памяти составляет 1 Тбайт в 32 модулях DIMM, общая пропускная способность подсистемы составляет 230 Гбайт/с. Имеются дополнительные слоты расширения PCIe, поддерживается как жидкостное, так и воздушное охлаждение.

 NVLink позвляет ЦП и ГП общаться гораздо более эффективно

NVLink позволяет ЦП и ГП общаться гораздо более эффективно

Аналогичная модель выпущена для рынка Big Data, но она не использует ускорители GP100, а вместо этого поддерживает обычные ускорители NVIDIA в формате PCI Express. Зато количество дисковых отсеков в этой модели увеличено с двух до двенадцати, что позволяет разместить до 96 Тбайт дискового пространства в одном корпусе. Базовая модель S821LC выполнена в корпусе 1U (старшие имеют конструктив 2U) и по конфигурации напоминает S822LC for Big Data, но у неё всего четыре дисковых отсека и четыре слота PCIe. Возможна установка одного ускорителя NVIDIA K80 в форм-факторе PCI Express. В моделях S822LC for Big Data и 821LC максимальный объём оперативной памяти уменьшен до 512 Гбайт в 16 слотах DIMM. Напомним, что контроллеры памяти у Power8 внешние, выполненные в виде чипов Centaur, служащих также в качестве кеша L4.

 IBM S822LC for High Performance Computing: два процессора и четыре ускорителя GP100

IBM S822LC for High Performance Computing: два процессора и четыре ускорителя GP100

Согласно данным, опубликованным IBM, ранние тесты, проделанные одним из крупнейших интернет-провайдеров, компанией Tencent, показали, что кластер на базе S822LC for BigData под нагрузкой показал результаты в три раза превосходящие результаты кластера на базе х86, причём, общее количество серверов в первом случае было на 2/3 меньше. На новые системы IBM ожидается существенный спрос: многие организации уже провели собственные тесты и разместили соответствующие заказы. В числе первых заказчиков значится лаборатория департамента энергетики США Oak Ridge National Laboratory (ORNL), а также ряд крупных межнациональных корпораций. ORNL планирует использовать новинки в качестве тестовой платформы для подготовки к выпуску следующего поколения процессоров IBM — Power9, которые также будут поддерживать NVLink, но уже новой, второй версии.

Постоянный URL: http://servernews.ru/939220
25.08.2016 [00:13], Иван Грудцын

Интерфейс NVLink 2.0 соединит GPU Volta и процессоры IBM Power9

В этом году NVIDIA порадовала любителей нерядовых новинок в сегменте дискретной графики картами на 16-нм чипах GP100 и GP102. Различия между старшим GPU для HPC-систем (GP100) и его производным — адаптером для широкого круга задач (GP102) оказались весьма существенными. В частности, проприетарный интерфейс NVLink, отличающий серверный графический процессор от собрата, способен обеспечивать пропускную способность в 40 Гбайт/с на один порт. Для сравнения, аналогичное значение для разъёма PCI Express 3.0 x16 составляет 16 ГТ/с (15,75 Гбайт/с), а для будущего PCI Express 4.0 x16 — 32 ГТ/с (31,5 Гбайт/с). При этом одним соединением NVLink дело не ограничивается. Так, у ускорителя Tesla P100 на чипе Pascal GP100 четыре порта NVLink, и, соответственно, пиковая пропускная способность достигает 160 Гбайт/с (4 × 40 Гбайт/с).

 NVLink открывает возможность взаимодействия GPU двух систем

NVLink открывает возможность взаимодействия GPU двух систем

Среди тех, кто по достоинству оценил труд инженеров NVIDIA, оказалась корпорация IBM. Её 22-нм процессоры POWER8 прекрасно «дружат» с NVLink 1.0 и Tesla P100. В частности, был спроектирован 2P-сервер типоразмера 2U на основе процессоров POWER8 (POWER8+) и двух-четырёх адаптеров Tesla P100 с вышеупомянутым интерфейсом. На 2017 год запланировано создание ещё более мощной системы. В её состав войдут два CPU POWER9 и от четырёх до шести ускорителей NVIDIA Volta, содержащих порты NVLink 2.0. Форм-фактор останется прежним — 2U.

 NVLink 2.0

По сообщению ресурса Fudzilla, вторая версия NVLink принесёт увеличение пропускной способности интерфейса с 20 до 25 Гбит/с на контакт, с 40 до 50 Гбайт/с на один порт и со 160 до 200 Гбайт/с на один GPU. Преимущество NVLink над PCI Express 4-го поколения будет весьма впечатляющим — 6,35 раза (четыре порта NVLink против 16-скоростного PCI-E 4.0).

 NVLink 2.0

Внедрение NVLink 2.0 тесно связано с ожидающимся дебютом графических процессоров Volta в следующем году. Последние, по предварительным данным, будут выпускаться по нынешнему, но при этом «повзрослевшему» 16-нм техпроцессу, а в качестве буферной памяти будут использоваться микросхемы HBM2 (до внедрения HBM3 пока ещё далеко).

 HBM2 — это надолго

HBM2 — это надолго

Что касается процессоров IBM POWER9, то они будут выпускаться по 14-нм технологической норме начиная со следующего года. Количество ядер составит 12 или 24. В данных CPU предусмотрены кеш третьего и четвёртого уровней, контроллер памяти DDR4, линии PCI Express 4.0, а также скоростной интерфейс для синхронизации работы двух процессоров на одной плате.

 IBM POWER9

IBM POWER9

Постоянный URL: http://servernews.ru/938344
26.07.2016 [00:19], Иван Грудцын

NVIDIA представила видеоускорители Quadro P6000 и P5000

«Тяжеловес» рынка дискретной графики NVIDIA продолжает расширять ассортимент видеоадаптеров на 16-нм чипе Pascal GP100. До сегодняшнего дня калифорнийская компания анонсировала эталонный вариант GP100 с 3840 потоковыми процессорами, HPC-ускоритель Tesla P100 с интерфейсами NVLink и PCI Express, а также объявила о грядущем выходе видеокарты NVIDIA Titan X для широкого круга задач, включая игры и работу в GPU-ускоренных приложениях. Теперь же пришло время для анонса видеоадаптера Quadro P6000 (3584 ядра CUDA, 384-разрядная шина памяти), компанию которому составила модель Quadro P5000 на полнофункциональном чипе GP104 с 2560 ядрами CUDA и 256-битной шиной RAM.

Устройства Quadro последних поколений всегда выделялись внушительным объёмом буферной памяти, и карты Quadro P6000 не стали в этом плане исключением. Впрочем, ради увеличения общей ёмкости микросхем RAM инженеры NVIDIA принесли в жертву скорость доступа к ним (как и в Titan X): чипы HBM2 уступили место памяти GDDR5X суммарным объёмом 24 Гбайт. Тот же тип RAM задействован и в ускорителе Quadro P5000, который располагает вдвое большим объёмом локальной памяти (16 Гбайт) по сравнению с игровым GeForce GTX 1080. Производительность Quadro P6000 в FP32-вычислениях NVIDIA оценила в 12 TFLOPS.

Оба новых видеоускорителя Quadro характеризуются наличием разъёмов для вывода изображения DVI-D и DisplayPort 1.4 (4 шт.). С их помощью можно организовать рабочее пространство из четырёх мониторов с разрешением 4096 × 2160 пикселей при 120 Гц или 5120 × 2880 при 60 Гц. Активное охлаждение Quadro P6000/P5000 открывает возможность интеграции данных устройств в состав моделей серверов и рабочих станций, которые не оборудованы высокопроизводительными вентиляторами или СЖО.

 NVIDIA Quadro P6000, P5000
 NVIDIA Quadro P6000, P5000

NVIDIA подчёркивает, что новинки семейства Quadro должны справиться с практически с любыми задачами, в том числе теми, которые нецелесообразно выполнять на профессиональных картах поколений Kepler и Maxwell ввиду больших временных и эксплуатационных затрат. Так, Quadro P6000 способна отрисовывать очень большие CAD-модели, фотореалистичные сцены, выполнять GPGPU-вычисления и решать задачи, связанные с прогнозированием сейсмической активности. У Quadro P5000 возможности скромнее: работа с большими (сложными) объектами в CAD-приложениях, вычисления, связанные с сейсмическими исследованиями, отрисовка сложных DCC-эффектов и объёмных изображений в медицине (например, воссоздание моделей органов человека на основе вводных данных).

Видеоускорители NVIDIA Quadro P6000 и P5000 появятся у авторизованных поставщиков в октябре текущего года. Рекомендованные цены продуктов пока не объявлены.

Постоянный URL: http://servernews.ru/936733
15.04.2016 [12:00], Антон Тестов

IBM, NVIDIA и Wistron разработали новый HPC-сервер на базе POWER8 и Tesla P100

IBM, NVIDIA и Wistron представили совместно разработанный сервер для высокопроизводительных вычислений (high-performance computing, HPC) второго поколения. Данная машина базируется на центральных процессорах IBM POWER8, выходящих вскоре вычислительных ускорителях NVIDIA Tesla P100 (на основе архитектуры Pascal) и технологии межпроцессорных коммуникаций NVLink. Предполагается, что система покажет непревзойдённую производительность в области HPC-вычислений, но чтобы получить преимущества от неё, эксплуататорам суперкомпьютеров придётся оптимизировать свои программы под POWER8 и Pascal, с чем и помогут IBM и NVIDIA.

Новая HPC-платформа, разработанная IBM, NVIDIA и Wistron (один из крупных контрактных производителей серверов), базируется на процессорах IBM POWER8 и ускорителях NVIDIA Tesla P100. В настоящее время компании не раскрывают большого количество подробностей о данном сервере, но, судя по распространённой IBM фотографии, речь идёт машине на основе двух микросхем IBM POWER8, четырёх ускорителях NVIDIA Tesla P100 в форм-факторе SMX2 и восемью модулями оперативной памяти IBM Centaur (предположительно объёмом 1 Тбайт). Платформа имеет форм-фактор 2U и совместима с сегодняшними центрами обработки данных (ЦОД). Она не является наиболее мощным решением на базе NVIDIA Tesla P100, поскольку сама NVIDIA предлагает сервер DGX-1 в форм-факторе 3U и восемью ускорителями. Однако, система IBM и Wistron более приспособлена для работы в современных ЦОД с точек зрения энергопотребления и тепловыделения.

 HPC-ситема, разработанная IBM, NVIDIA и Wistron

HPC-сиcтема, разработанная IBM, NVIDIA и Wistron

Процессоры IBM POWER8 имеют до 12 ядер, каждое из которых может обрабатывать восемь аппаратных потоков одновременно благодаря 16 исполнительным конвейерам. 12-ядерный POWER8 может работать при достаточно высоких тактовых частотах (до 3–3,5 ГГц) и интегрировать в общей сложности 6 Мбайт кеша второго уровня (512 кбайт на ядро) и 96 Мбайт кеша третьего уровня. Каждый такой процессор может поддерживать до 1 Тбайт оперативной памяти DDR3 или DDR4 с устойчивой пропускной способностью до 230 Гбайт/с (для сравнения, Intel Xeon E5 v4 имеет пропускную способность памяти «всего» до 76,8 Гбайт/с при условии использования DDR4-2400). Поскольку новейшие версии процессоров POWER8 были разработаны как для высокопроизводительных серверов, так и суперкомпьютеров, они также имеют множество линий PCI Express с поддержкой технологии когерентности памяти IBM CAPI для специализированных ускорителей на базе FPGA, а также поддержку шины NVLink для соединения с вычислительными процессорами NVIDIA Tesla.

 NVIDIA Tesla P100

NVIDIA Tesla P100

Каждый cуперкомпьютерный ускоритель NVIDIA Tesla P100 имеет 3584 потоковых процессоров, 4 Мбайт кеша второго уровня и 16 Гбайт памяти типа HBM2, которые подключаются к GPU посредством 4096-разрядной шины. Производительность Tesla P100 на операциях с одинарной точностью (single precision, FP32) составляет около 10,6 триллионов операций с плавающей запятой в секунду (TFLOPS), тогда как мощность при операциях с двойной точностью (double precision, FP64) составляет примерно 5,3 TFLOPS. Одним из основных отличий NVIDIA Tesla P100 на базе процессора GP100 от предшественников является поддержка четырёх линий шины NVLink первого поколения, которая позволяет передавать до 20 Гбайт данных в секунду по одной линии (для сравнения, пропускная способность PCIe 3.0 x16 составляет 16 Гбайт/с). NVLink позволяет ускорить как коммуникации между GPU, так и скорость передачи данных между GPU и центральными процессорами IBM POWER8. Кроме того, NVLink способна обеспечить когерентность содержимого памяти различных процессоров, что крайне важно для суперкомпьютерных вычислений.

 Преимущества NVLink

Преимущества NVLink

Таким образом, система IBM, NVIDIA и Wistron с четырьмя P100 обладает вычислительной мощностью в 42,4 TFLOPS (FP32) или в 21,2 TFLOPS (FP64), что впечатляет. Впрочем, NVIDIA DGX-1 способен производить ещё большее количество вычислительных операций — 42,4 TFLOPS (FP32) и 84,8 TFLOPS (FP64) при условии одинаковых с P100 тактовых частот.

Для сравнения: суперкомпьютер Earth Simulator компании NEC, который являлся самой мощной системой в мире с июня 2002 года по июнь 2004 года, имел производительность 35,86 TFLOPS согласно тесту Linpack. Earth Simulator состоял из 640 узлов с восемью векторными процессорами и 16 Гбайт оперативной памяти в каждом (в общей сложности, он базировался на 5120 процессорах и 10 Тбайт оперативной памяти), а его энергопотребление было около 3200 кВт. Благодаря Tesla P100 производительность Earth Simulator мощно получить, используя пару новых 2U-систем Wistron или одну NVIDIA DGX-1.

 Возможные топологии систем с NVLink на базе процессоров Intel Xeon

Возможные топологии систем с NVLink на базе процессоров Intel Xeon

IBM, NVIDIA и Wistron ожидают, что их HPC-платформа второго поколения на базе процессоров POWER8 станет доступной для покупки в четвёртом квартале 2016 года. Впрочем, это едва ли означает, что такие машины получат широкое распространение даже по меркам суперкомпьютеров в ближайший год. В настоящее время большинство систем HPC основаны на процессорах x86 производства Intel или AMD. Для того чтобы получить все преимущества от NVIDIA Tesla P100 с шиной NVLink, программистам придётся переделать свои программы под IBM POWER8. IBM и NVIDIA намерены создать сеть лабораторий, чтобы помочь разработчикам приложений портировать свои программы на новые высокопроизводительные вычислительные платформы. Эти лаборатории будут очень важны не только для IBM и NVIDIA, но и для будущего высокопроизводительных систем в целом. Гетерогенные суперкомпьютеры могут предложить очень высокую производительность, но для того, чтобы использовать их в полной мере, необходимы новые методы программирования.

Появление второго поколения HPC-систем на базе IBM POWER8 является важным шагом на пути к созданию суперкомпьютеров Sierra для национальной лаборатории Ок-Ридж и Summit для Ливерморской национальной лаборатории. Sierra и Summit будут базироваться на процессорах IBM POWER9, а также на ускорителях NVIDIA Tesla на основе архитектуры Volta с поддержкой шины NVLink второго поколения.

Постоянный URL: http://servernews.ru/931493
07.04.2016 [12:30], Алексей Степин

Поставки плат NVIDIA GP100 начнутся в июне, OEM — в 2017 году

Главным событием недели, несомненно, является анонс новой графической архитектуры NVIDIA Pascal и демонстрация работоспособных устройств на основе первого процессора на базе этой архитектуры — чипа GP100. Как и обещалось ранее, новинка идеально вписывается в рынок супервычислений, будучи оснащённой специальной высокоскоростной шиной NVLink и неся на борту 16 Гбайт локальной памяти HBM2. Если верить NVIDIA, сервер DGX-1 на базе новой архитектуры (8 плат Tesla P100) мощнее 250 традиционных серверов, использующих процессоры Intel Xeon. Для общения с другими серверами в нём имеется пара интерфейсов 10GbE и шина Infiniband с пропускной способностью 100 Гбит/с. Иными словами, это мощный строительный блок для создания суперкомпьютеров самой разной направленности. Но что же с доступностью плат Tesla P100, составляющих сердце DGX-1?

 «Пять чудес NVIDIA»

«Пять чудес NVIDIA»

Как сообщают средства массовой информации, массовое производство плат NVIDIA Tesla P100 уже начато, но первые более или менее объёмные поставки целиком уйдут создателям систем глубокого обучения (deep learning) и облачных компьютерных систем. Начнутся эти поставки уже в июне этого года. А вот ОЕМ-производителям придётся подождать: очередь до них дойдёт лишь в первом квартале следующего 2017 года. NVIDIA чётко следует объявленной ранее стратегии в отношении GP100: сначала рынок суперкомпьютеров и всё, что с ним связано, и лишь затем остальные клиенты, в том числе, производители графических карт. Надо отметить, что это несколько необычная стратегия с учётом того, что основу доходов NVIDIA составляют именно игровые приложения, то есть, банальные видеокарты, и ранее компания всегда уделяла основное внимание именно этому сектору рынка.

 QuantaPlex T21W-3U изнутри

QuantaPlex T21W-3U изнутри

Но расстраиваться тем, кто ждёт новых решений NVIDIA не стоит: вполне возможно, что мы увидим потребительские устройства на базе архитектуры Pascal уже на Computex 2016 — всемирной выставке, которая пройдёт в Тайбэе с 31 мая по 4 июня. Наши коллеги с ресурса Computerbase уже отследили первую партию плат Tesla P100, которые поставляются в составе систем QuantaPlex T21W-3U, выпускаемых компанией Quanta. Спецификации этой модели внушают уважение: в ней используются процессоры Intel Xeon последнего поколения (E5-2600 v4), объём памяти достигает терабайта, гибридная система хранения данных состоит из 12 накопителей SATA/SFF и 8 накопителей U.2 (PCIe x4), и все компоненты системы объединяет шина NVLink, позволяющая устанавливать до 8 навесных (mezzanine) плат Tesla P100. Удивительно, но при всей своей мощи эта установка обходится воздушным охлаждением.

 GP100: 40 неделя 2015 года, HBM1

GP100: 40 неделя 2015 года, HBM1

Также любопытно, что существует две версии чипа GP100: одна из них, выпущенная на 41 неделе, оснащена памятью HBM1, но уже на 43 неделе производство было переведено на использование HBM2. Упомянутые системы продемонстрированы не самой NVIDIA, а их производителем, компанией Quanta, но история с типами HBM доказывает, что NVIDIA имела на руках и рассылала своим партнёрам образцы Pascal довольно давно: версия HBM1 появилась еще в 2015 году, в то время как современная модель с HBM2 только в 2016 году. Quanta уже продемонстрировала свои суперсерверы в рамках GTC 2016, показав, в том числе, и работу NVLink.

 GP100: 43 неделя 2015 года, HBM2

GP100: 43 неделя 2015 года, HBM2. Хорошо видны более крупные кристаллы сборок HBM

С учётом уже начатого Samsung массового производства HBM2 неудивительно, что первые партии Tesla P100 попадут к заказчикам уже в июне этого года. Одним из первых клиентов станет CSCS (Швейцарский национальный суперкомпьютерный центр). В рамках модернизации суперкомпьютера Piz Daint NVIDIA поставит CSCS более 4500 чипов Pascal, что позволит существенно нарастить мощность системы свыше теперешних пиковых 7,8 петафлопс. Это облегчит работу учёным, работающим над сложными проблемами, требующими обширных вычислений. Сфера применения Pascal благодаря его универсальной вычислительной архитектуре очень широка: от космологии и материаловедения до климатологии и нейромоделирования.

Постоянный URL: http://servernews.ru/931134
07.04.2016 [12:14], Дмитрий Мякин

NVIDIA: суперкомпьютер DGX-1 мощнее 250 серверов на Intel Xeon

В ходе мероприятия, проведённого в рамках конференции GTC 2016, компания NVIDIA представила не только графический процессор GP100, являющийся её первым чипом на архитектуре Pascal, но и анонсировала суперкомпьютер DGX-1, в основе которого лежат восемь взаимодействующих посредством интерфейса NVLink ускорителей Tesla P100 с уже упомянутым GPU и 16 Гбайт памяти HBM2 каждый.

Они обеспечивают системе пиковую производительность на уровне 170 Тфлопс в режиме FP16, что позволяет разработчикам позиционировать её как «первый в мире суперкомпьютер для глубокого обучения, который обладает достаточной вычислительной мощью для развития искусственного интеллекта». По скорости обработки данных NVIDIA сравнивает DGX-1 с 250 обычными серверами на базе процессоров Intel Xeon.

Остальные спецификации NVIDIA DGX-1 включают 512 Гбайт оперативной памяти, четыре твердотельных накопителя суммарным объёмом более 7 Тбайт, два 10-гигабитных сетевых адаптера и 100-Гбит/с шину Quad InfiniBand. Всё перечисленное железо «упаковано» в корпус форм-фактора 3U и, согласно паспортным данным, потребляет до 3200 Вт.

Что касается софтверной составляющей, то NVIDIA DGX-1 поставляется с набором ПО для глубокого обучения. В него входят, в частности, интерактивная система для создания глубоких нейронных сетей (DNN) и GPU-ускоряемая библиотека примитивов для создания DNN (NVIDIA CUDA Deep Neural Network — cuDNN), а также пакеты Caffe, Theano и Torch. Поставки DGX-1 должны начаться в июне текущего года.

Постоянный URL: http://servernews.ru/931127
Система Orphus