IBM, NVIDIA и Wistron разработали новый HPC-сервер на базе POWER8 и Tesla P100

 

IBM, NVIDIA и Wistron представили совместно разработанный сервер для высокопроизводительных вычислений (high-performance computing, HPC) второго поколения. Данная машина базируется на центральных процессорах IBM POWER8, выходящих вскоре вычислительных ускорителях NVIDIA Tesla P100 (на основе архитектуры Pascal) и технологии межпроцессорных коммуникаций NVLink. Предполагается, что система покажет непревзойдённую производительность в области HPC-вычислений, но чтобы получить преимущества от неё, эксплуататорам суперкомпьютеров придётся оптимизировать свои программы под POWER8 и Pascal, с чем и помогут IBM и NVIDIA.

Новая HPC-платформа, разработанная IBM, NVIDIA и Wistron (один из крупных контрактных производителей серверов), базируется на процессорах IBM POWER8 и ускорителях NVIDIA Tesla P100. В настоящее время компании не раскрывают большого количество подробностей о данном сервере, но, судя по распространённой IBM фотографии, речь идёт машине на основе двух микросхем IBM POWER8, четырёх ускорителях NVIDIA Tesla P100 в форм-факторе SMX2 и восемью модулями оперативной памяти IBM Centaur (предположительно объёмом 1 Тбайт). Платформа имеет форм-фактор 2U и совместима с сегодняшними центрами обработки данных (ЦОД). Она не является наиболее мощным решением на базе NVIDIA Tesla P100, поскольку сама NVIDIA предлагает сервер DGX-1 в форм-факторе 3U и восемью ускорителями. Однако, система IBM и Wistron более приспособлена для работы в современных ЦОД с точек зрения энергопотребления и тепловыделения.

HPC-ситема, разработанная IBM, NVIDIA и Wistron

HPC-сиcтема, разработанная IBM, NVIDIA и Wistron

Процессоры IBM POWER8 имеют до 12 ядер, каждое из которых может обрабатывать восемь аппаратных потоков одновременно благодаря 16 исполнительным конвейерам. 12-ядерный POWER8 может работать при достаточно высоких тактовых частотах (до 3–3,5 ГГц) и интегрировать в общей сложности 6 Мбайт кеша второго уровня (512 кбайт на ядро) и 96 Мбайт кеша третьего уровня. Каждый такой процессор может поддерживать до 1 Тбайт оперативной памяти DDR3 или DDR4 с устойчивой пропускной способностью до 230 Гбайт/с (для сравнения, Intel Xeon E5 v4 имеет пропускную способность памяти «всего» до 76,8 Гбайт/с при условии использования DDR4-2400). Поскольку новейшие версии процессоров POWER8 были разработаны как для высокопроизводительных серверов, так и суперкомпьютеров, они также имеют множество линий PCI Express с поддержкой технологии когерентности памяти IBM CAPI для специализированных ускорителей на базе FPGA, а также поддержку шины NVLink для соединения с вычислительными процессорами NVIDIA Tesla.

NVIDIA Tesla P100

NVIDIA Tesla P100

Каждый cуперкомпьютерный ускоритель NVIDIA Tesla P100 имеет 3584 потоковых процессоров, 4 Мбайт кеша второго уровня и 16 Гбайт памяти типа HBM2, которые подключаются к GPU посредством 4096-разрядной шины. Производительность Tesla P100 на операциях с одинарной точностью (single precision, FP32) составляет около 10,6 триллионов операций с плавающей запятой в секунду (TFLOPS), тогда как мощность при операциях с двойной точностью (double precision, FP64) составляет примерно 5,3 TFLOPS. Одним из основных отличий NVIDIA Tesla P100 на базе процессора GP100 от предшественников является поддержка четырёх линий шины NVLink первого поколения, которая позволяет передавать до 20 Гбайт данных в секунду по одной линии (для сравнения, пропускная способность PCIe 3.0 x16 составляет 16 Гбайт/с). NVLink позволяет ускорить как коммуникации между GPU, так и скорость передачи данных между GPU и центральными процессорами IBM POWER8. Кроме того, NVLink способна обеспечить когерентность содержимого памяти различных процессоров, что крайне важно для суперкомпьютерных вычислений.

Преимущества NVLink

Преимущества NVLink

Таким образом, система IBM, NVIDIA и Wistron с четырьмя P100 обладает вычислительной мощностью в 42,4 TFLOPS (FP32) или в 21,2 TFLOPS (FP64), что впечатляет. Впрочем, NVIDIA DGX-1 способен производить ещё большее количество вычислительных операций — 42,4 TFLOPS (FP32) и 84,8 TFLOPS (FP64) при условии одинаковых с P100 тактовых частот.

Для сравнения: суперкомпьютер Earth Simulator компании NEC, который являлся самой мощной системой в мире с июня 2002 года по июнь 2004 года, имел производительность 35,86 TFLOPS согласно тесту Linpack. Earth Simulator состоял из 640 узлов с восемью векторными процессорами и 16 Гбайт оперативной памяти в каждом (в общей сложности, он базировался на 5120 процессорах и 10 Тбайт оперативной памяти), а его энергопотребление было около 3200 кВт. Благодаря Tesla P100 производительность Earth Simulator мощно получить, используя пару новых 2U-систем Wistron или одну NVIDIA DGX-1.

Возможные топологии систем с NVLink на базе процессоров Intel Xeon

Возможные топологии систем с NVLink на базе процессоров Intel Xeon

IBM, NVIDIA и Wistron ожидают, что их HPC-платформа второго поколения на базе процессоров POWER8 станет доступной для покупки в четвёртом квартале 2016 года. Впрочем, это едва ли означает, что такие машины получат широкое распространение даже по меркам суперкомпьютеров в ближайший год. В настоящее время большинство систем HPC основаны на процессорах x86 производства Intel или AMD. Для того чтобы получить все преимущества от NVIDIA Tesla P100 с шиной NVLink, программистам придётся переделать свои программы под IBM POWER8. IBM и NVIDIA намерены создать сеть лабораторий, чтобы помочь разработчикам приложений портировать свои программы на новые высокопроизводительные вычислительные платформы. Эти лаборатории будут очень важны не только для IBM и NVIDIA, но и для будущего высокопроизводительных систем в целом. Гетерогенные суперкомпьютеры могут предложить очень высокую производительность, но для того, чтобы использовать их в полной мере, необходимы новые методы программирования.

Появление второго поколения HPC-систем на базе IBM POWER8 является важным шагом на пути к созданию суперкомпьютеров Sierra для национальной лаборатории Ок-Ридж и Summit для Ливерморской национальной лаборатории. Sierra и Summit будут базироваться на процессорах IBM POWER9, а также на ускорителях NVIDIA Tesla на основе архитектуры Volta с поддержкой шины NVLink второго поколения.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Источник:

Постоянный URL: https://servernews.ru/931493
Поделиться:  
Система Orphus