Материалы по тегу: volta

18.06.2019 [12:54], Константин Ходаковский

В тесте ИИ мощнейший суперкомпьютер утроил результат за счёт вычислений смешанной точности

Недавно мы писали большой материал, посвящённый июньскому обновлению публичного рейтинга суперкомпьютеров Top 500. В нём, в частности, упоминались проблемы, связанные с оценкой реальной производительности систем. Дело в том, что в список попадают суперкомпьютеры, которые прошли тест High-Performance Linpack (HPL) вне зависимости от того, используются ли они для реальных нагрузок HPC или ИИ. Но есть и другая сторона дела: Linpack оценивает 64-бит производительность систем в вычислениях с плавающей запятой, но многие современные нагрузки в области ИИ не всегда требуют такой точности, и потому реальная производительность может быть заметно выше.

Именно это недавно продемонстрировала Национальная лаборатории Ок-Риджа, протестировав свой суперкомпьютер Summit (текущий лидер среди участников публичного рейтинга Top500, создан IBM при участии NVIDIA и Mellanox) в особом тесте HPL-AI, призванном оценивать производительность суперкомпьютеров в задачах машинного обучения и искусственного интеллекта. В этом тесте Summit набрал 445 петафлопс — втрое больше стабильных 148,6 петафлопс в тесте HPL.

HPL, представленный три десятка лет назад, остаётся эталоном для измерения производительности систем Top500 в задачах HPC. Более современная альтернатива — HPCG Benchmark — пока так и не достигла заветной цифры в 500 участников рейтинга.

Однако нынешние суперкомпьютеры теперь используются и в сфере «искусственного интеллекта», а не только для классических «тяжёлых» расчётов. При этом в большинстве ИИ-моделей применяются вычисления половинной или смешанной точности — принципиально иной метод, который позволяет исследователям повысить вычислительную эффективность, получив доступ к неиспользованному потенциалу производительности современных суперкомпьютеров.

Чтобы учесть этот фактор и был предложен тест HPL-AI, представляющий собой развитие HPL для оценки производительности вычислений смешанной точности, широко используемых для обучения моделей искусственного интеллекта. Методология HPL-AI изложена в документе, опубликованном на SC 2018 Аззамом Хайдаром (Azzam Haidar), Джеком Донгаррой и его командой.

«Методы смешанной точности становятся все более важными для повышения вычислительной эффективности суперкомпьютеров, как для традиционного моделирования с методами итеративного уточнения, так и для задач ИИ, — отметил господин Донгарра. — Так же, как HPL позволяет сравнивать потенциал систем в вычислениях двойной точности, этот новый подход, основанный на HPL, позволяет сравнивать возможности суперкомпьютеров в задачах смешанной точности».

NVIDIA удалось осуществить весь массив вычислений в рамках тестового запуска HPL-AI на Summit всего за полчаса — втрое быстрее, чем исполняется оригинальный HPL. В ряде задач, как можно видеть, это может давать кратно ощутимое преимущество. Напомним: в Summit используется 27 000 графических ускорителей NVIDIA Tesla V100.

Учёные используют суперкомпьютеры с поддержкой вычислений смешанной точности для моделирования и задач искусственного интеллекта в области химии, атомной энергетики, нефтегазовой промышленности и так далее.

Постоянный URL: http://servernews.ru/989365
28.03.2018 [14:00], Иван Грудцын

Ускоритель NVIDIA Quadro GV100 оперирует 32 Гбайт памяти HBM2

Одним из ключевых анонсов в рамках конференции GTC 2018 (26–29 марта, г. Сан-Хосе, США) стала презентация профессионального графического ускорителя NVIDIA Quadro GV100 для рабочих станций. Подобно Quadro GP100, новый адаптер назван в честь графического чипа, ставшего его основой — Volta GV100. Напомним, что последний уже используется в ускорителях Tesla V100 и TITAN V.

Quadro GV100 выполнен в виде двухслотовой карты расширения с интерфейсом PCI Express 3.0 x16. Устройство характеризуется значительным сходством с TITAN V, правда, в отличие от последнего, оперирует не 12, а 32 Гбайт памяти HBM2 с более высокой пропускной способностью — 870 Гбайт/с. Ещё одно важное различие между Quadro GV100 и TITAN V заключается в том, что новая модель Quadro обладает поддержкой интерфейса NVLink с пропускной способностью 200 Гбайт/с. Наконец, вместо разъёма HDMI 2.0b на задней панели TITAN V в Quadro GV100 используется четвёртый DisplayPort 1.4.

В новом ускорителе задействована полноценная версия 12-нм ядра NVIDIA GV100 с 5120 потоковыми процессорами Volta, 320 TMU, 128 ROP и 640 блоками матричных вычислений (Tensor). Разрядность шины памяти составляет 4096 бит, частотная формула — 1450/850(1700) МГц для ядра (с учётом boost-режима) и памяти HBM2 соответственно. «Чистая» производительность Quadro GV100 оценивается в 7,4 Тфлопс для операций с числами двойной точности, 14,8 Тфлопс — одинарной, и 118,5 Тфлопс — Tensor-вычислений.

Перечень поддерживаемых Quadro GV100 разрешений включает 4 × 4096 × 2160 при 120 Гц (т. е. предусмотрена возможность подключения четырёх 120-Гц 4K-мониторов), 4 × 5120 × 2880 при 60 Гц и 2 × 7680 × 4320 при 60 Гц. В числе поддерживаемых технологий отдельно упоминаются NVIDIA RTX (трассировка лучей в реальном времени), API OptiX (графический движок с поддержкой трассировки лучей), Microsoft DXR и Vulkan. Рекомендованная цена нового ускорителя для заказчиков из США составляет $9000 без учёта налога с продаж.

Параллельно стало известно о переводе HPC-ускорителя Tesla V100 на конфигурацию кристалла GPU с двойным объёмом буферной памяти HBM2 — 32 Гбайт. Изменения затронули как SMX2-версию V100, так и вариант данного адаптера в виде карты расширения PCI-E. Повлияло ли обновление ускорителя на его стоимость, пока не ясно.

Постоянный URL: http://servernews.ru/967626
31.12.2017 [12:07], Алексей Степин

NVIDIA Volta экономит электричество в суперкомпьютерах

Джек Донгарра (Jack Dongarra), заслуженный профессор университета Теннесси, известный исследователь, работающий в лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), один из отцов-создателей кластерной системы Summit, в докладе, сделанном на мероприятии SC17, подробно осветил тему экономичности суперкомпьютеров, и как в этом помогает новое поколение ускорителей NVIDIA Volta.

Сам по себе доклад также весьма интересен — хотя бы графиком роста производительности кластерных систем с 1994 года по настоящее время. Если в начале пути суперкомпьютеры могли похвастаться мощностями порядка 1,17 терафлопс, и это в лучшем случае, то сегодня мы вплотную приближаемся к отметке 1 экзафлопс, что на шесть порядков выше (1012 против 1018). Петафлопсный масштаб освоен нашей цивилизацией полностью: по состоянию на 2017 год в мире действует 181 система с таким порядком производительности.

Что касается Volta, то в тесте MAGMA 2.3 LU (факторизация, двойная точность), V100 демонстрирует десятикратное превосходство над классическими процессорами (Haswell E5-2650 v3, 2×10 ядер, 2,3 ГГц) при равном уровне энергопотребления. Не стоит и говорить, насколько это важно при масштабах энергопотребления и тепловыделения суперкомпьютеров. Помогают V100 и тензорные ядра: на задачах с математикой смешанной точности в режиме FP16 чип выдает 120 терафлопс, в то время, как без них этот показатель составляет лишь 30 терафлопс. В целом, всё звучит вполне логично: время обычных ЦП ушло, а на их место пришли специализированные решения с особой архитектурой и высокой степенью параллелизма.

Постоянный URL: http://servernews.ru/963580
21.12.2017 [18:50], Алексей Степин

POWER9 идёт в народ: описание сервера IBM AC922

Инициатива OpenPOWER, как мы уже рассказывали читателям, приносит свои плоды, особенно вместе с проектом OpenCAPI. Итоговая платформа получается более универсальной и сбалансированной, нежели Intel Purley или AMD EPYC. Хотя бы потому, что имеет поддержку PCI Express 4.0 и умеет работать с интерфейсами CAPI и NVLink, а это настоящая находка при проектировании кластерных систем, основанных на использовании дополнительных ускорителей, будь то NVIDIA Volta или платы на базе FPGA. Всё это собрано в едином узле или сервере под названием IBM Winterspoon. Система отличается от другого варианта под названием Cumulus использованием процессоров POWER9 с менее развитым SMT (как известно, POWER9 существует в вариантах SMT4 и SMT8; столь развитой многопоточностью не может похвастаться ни один процессор x86). В Winterspoon использована версия SMT4.

Новинка уже поставляется на рынок с модельным номером AC922. AC в этом случае означает гибридную систему на базе ЦП и ГП, цифра 9 указывает на модель процессора, а две двойки означают два процессорных разъёма и высоту корпуса 2U. IBM очень активно рекламирует платформу POWER9 для задач искусственного интеллекта и машинного обучения, однако AC922 является универсальной системой, подходящей для любого рода задач. Серия процессоров POWER9 Nimbus может насчитывать от 16 до 24 ядер, серверы AC922 поставляются с 22-ядерными чипами, частоты которых мы не знаем. Но речь об опытных поставках. Коммерческие версии получают либо 16-ядерные процессоры с частотной формулой 2,6/3,09 ГГц, либо 20-ядерные с формулой 2,0/2,87 ГГц. Оба варианта удерживаются в рамках теплопакета 190 ватт, так что место для роста ещё есть: к примеру, Intel Xeon SP-8180M имеет теплопакет целых 205 ватт. Стоят процессоры достаточно дорого: 16-ядерный вариант POWER9 обойдётся в $3000, а 20-ядерный будет стоить $4000. Впрочем, на фоне ускорителей Volta это недорого — те оцениваются в $11500 за модуль.

Узел AC922 имеет 16 слотов для установки регистровых модулей DDR4 с коррекцией ошибок. Память, в отличие от POWER8, не использует специального чипа-буфера и подключается к интегрированному в ЦП контроллеру напрямую, что понижает задержки. Поддерживаются модули DDR4-2667 ёмкостью до 64 Гбайт, что позволяет оснащать систему 1 Тбайт оперативной памяти. Обещается поддержка и модулей объёмом 128 Гбайт, что даст AC922 уже 2 Тбайт памяти. Совокупная ПСП при заполнении всех слотов достигает 306 Гбайт/с. Серверы специально ориентированы на использование ускорителей серии NVIDIA Volta в формате SXM2, которые на сегодня можно считать одними из самых мощных. Поддерживается конфигурация либо с четырьмя, либо с шестью модулями Volta G100, причём последняя требует жидкостного охлаждения. Проблем с пропускной способностью нет: четыре линии NVLink 2.0 ускорители используют для общения между собой, а ещё четыре — для общения с процессором; во всех случаях скорость составляет 100 Гбайт/с.

Для суперкомпьютера Summit, о котором мы писали ранее, выбран более мощный вариант с СЖО. Было бы обидно при такой плотности упаковки вычислительных мощностей терять два модуля Volta на узел. Но есть преимущества и у версии с четырьмя ГП: здесь каждый ускоритель имеет канал общения с соседями и процессором шириной уже 150 Гбайт/с, а в некоторых задачах это может оказаться важнее. Подход к подсистеме ввода-вывода у систем AC922 минималистский: каждая имеет два сетевых порта InfiniBand со скоростью 100 Гбит/с, контроллеры которых напрямую подключены к ЦП посредством PCIe x8 4.0. Каждый разъём имеет также слот x16, совместимый с CAPI. Он предназначен для установки специализированных ускорителей или кеширующих модулей, таких, как Intel Optane или решений на базе ReRAM. Имеется дополнительный интерфейс PCIe x4 4.0. Коммутатор PLX Technologies PEX 8733 соединяет всю систему с ЦП и ГП с контроллером подсистемы хранения данных, так что ускорители Volta могут получать данные с SSD, минуя ЦП. AC922 располагает также четырьмя традиционными портами 10GbE, а контроллеры USB, базовый хаб и средства дистанционного управления подключены к первому процессору в системе посредством шины PCIe x1 всё той же версии 4.0.

Локальная система хранения данных представлена двумя двухдюймовыми корзинами SATA, причём, опционально можно использовать и традиционные жесткие диски со скоростью вращения шпинделя 7200 об/мин. Среди опций имеются платы NVMe объёмом 1,6 Тбайт ($3100), а к концу года появится версия объёмом 3,2 Тбайт. Их роль, по словам представителя проекта, в основном, кеширующая, чтобы узлам не приходилось лишний раз нагружать сеть. На данный момент IBM AC922 сертифицирован для использования совместно с Red Hat Enterprise Linux 7.4 (версия little endian for POWER), а во втором квартале появятся специализированные серверные версии Ubuntu. Возможность использования SUSE Linux Enterprise Server пока рассматривается, но остаётся под вопросом, что странно, учитывая популярность именно этой ОС в секторе HPC и платформ SAP HANA. Что касается цен на готовые системы, то предыдущий узел на базе POWER8 под кодовым названием Minksy стоил порядка $65 тысяч, и IBM говорит о сохранении порядка цен. Так что примерно за ту же сумму можно будет получить вдвое больше процессорной мощности и в 2‒6 раз больше мощности ускорителей на базе ГП.

 POWER9 это не только серверный сегмент, но в потенциале и неплохие рабочие станции

POWER9 это не только серверный сегмент, но в потенциале и неплохие рабочие станции

У энтузиастов может возникнуть вопрос: а совместимы ли эти процессоры POWER9 с платой Talos II? Увы, ответа на этот вопрос мы пока дать не можем, но теоретически новые чипы IBM используют одинаковый форм-фактор и тип разъёма. Но вот кулеры 16-ядерным POWER9, не говоря уж о более мощных моделях с 20, 22 или 24 ядрами, явно понадобятся более солидные, если пользователь такой рабочей станции хочет сберечь свой слух.

Постоянный URL: http://servernews.ru/963247
06.12.2017 [23:45], Сергей Юртайкин

IBM представила первый сервер на процессоре POWER9

IBM представила свой первый собственный сервер на процессоре POWER9. Особенность решения под названием IBM Power Systems AC922 заключается в том, что новая аппаратная платформа разработана специально для работы с интенсивными вычислительными нагрузками технологий искусственного интеллекта (ИИ).

 CPU IBM POWER9

CPU IBM POWER9

В IBM отмечают, что Power 9 позволяет ускорить тренировки фреймворков глубинного обучения обучения почти в четыре раза, благодаря чему клиенты смогут быстрее создавать более точные ИИ-приложения. Утверждается, что новый сервер разработан для получения значительных улучшений производительности всех популярных фреймворков ИИ, таких как Chainer, TensorFlow и Caffe, а также современных баз данных, использующих ускорители, например, Kinetica.

 Сервер IBM Power System AC922

Сервер IBM Power System AC922

Сервер IBM Power Systems AC922 использует шину PCI-Express 4.0 и технологии NVIDIA NVLink 2.0 и CAPI 2.0/OpenCAPI, способные ускорить пропускную способность в 9,5 раза по сравнению с системами x86 на базе PCI-E 3.0. Это, в частности, позволяет задействовать ускорителям (GPU или FPGA) системную ОЗУ без значительных, по сравнению с прошлыми решениями, потерь производительности, что важно для обработки больших массивов данных. Кроме того, новые поколения карт расширения и ускорителей уже поддерживают эту шину.

IBM Power Systems AC922 создан в нескольких конфигурациях, оснащаемых двумя процессорами POWER9. Стандартные версии включают CPU c 16 (2,6 ГГц, турбо 3,09 ГГц) и 20 (2,0/2,87 ГГц) ядрами (4 потока на ядро), а позже появятся версии с 18- и 22 -ядерными процессорами. Всего в сервере есть 16 слотов для модулей ECC DDR4-памяти, что на текущий момент позволяет оснастить его 1 Тбайт RAM. Для хранения данных предусмотрено два слота для 2,5" SSD/HDD (RAID-контроллера нет).

AC922 может иметь на борту от двух до четырёх ускорителей NVIDIA Tesla V100 форм-фактора SXM2 с памятью 16 Гбайт и шиной NVLink 2.0. В сумме они дают до 500 Тфлопс на расчётах половинной точности. Дополнительные ускорители можно подключить к слотам PCI-E 4.0.

Сервер рассчитан на установку четырёх дополнительных низкопрофильных карт расширения: два слота PCI-E 4.0 x16, один PCI-E 4.0 x8 и один PCI-E 4.0 x4. Все слоты, кроме последнего, также умеют работать с CAPI. Также есть два порта USB 3.0. Поддерживается ОС Red Hat Enterprise Linux 7.4 for Power LE.

Процессоры IBM Power 9, которые нашли применение в IBM Power Systems AC922, легли в основу суперкомпьютеров Summit и Sierra Министерства энергетики США, а также используются компанией Google. Чипы и использующие их системы стали частью совместной работы участников организации OpenPower Foundation, в которую входят IBM, Google, Mellanox, NVIDIA и др.

 Процессор IBM Power 9

Процессор IBM Power 9

«Мы создали уникальную в своём роде систему для работы с технологиями ИИ и когнитивными вычислениями, — говорит старший вице-президент подразделения IBM Cognitive Systems Боб Пиччиано (Bob Picciano). — Серверы на Power 9 являются не только основой самых высокопроизводительных компьютеров, они позволят заказчикам масштабировать невиданные ранее инсайты, что будет способствовать научным прорывам и революционным улучшениям бизнес-показателей».

Сервер имеет стандартное 2U-шасси и оснащается двумя (1+1) блоками питания мощностью 2,2 кВт каждый. Система охлаждения может быть гибридной. Начало продаж IBM Power Systems AC922 намечено на 22 декабря 2017 года. В 2018 году будут доступны конфигурации с шестью ускорителями Tesla и СЖО.

Постоянный URL: http://servernews.ru/962463
14.11.2017 [18:00], Иван Грудцын

NVIDIA строит суперкомпьютер на 5280 ускорителях Tesla V100

Год назад компания NVIDIA представила суперкомпьютер DGX SaturnV для исследований в области искусственного интеллекта. Система включала 125 серверных узла DGX-1 (стоимостью $129 000 каждый) с весьма достойным соотношением производительности и энергопотребления, равным 9,46 Гфлопс/Вт. В престижном рейтинге TOP500 годичной давности сервер занял почётное 28 место, но за год опустился на восемь строчек, и в Санта-Кларе было принято решение построить подобный суперкомпьютер с бóльшим количеством узлов — 660 шт. При этом вместо DGX-1 на основе HPC-ускорителей Tesla P100 (Pascal) была сделана ставка на более мощные одноимённые узлы, оснащённые ускорителями Tesla V100 (Volta) — по восемь штук на узел, как и в DGX SaturnV первого поколения.


Согласно подсчётам NVIDIA, решение задач из области глубинного обучения занимает у восьми адаптеров Tesla V100 почти в два с половиной раза меньше времени, чем у DGX-1 с восемью Tesla P100, а «чистая» производительность в вычислениях половинной точности (они же FP16 или, по определению NVIDIA, «AI-вычисления») выше почти в шесть раз. Суммарная производительность 124 узлов DGX-1/P100 составляет всего 21,25 Пфлопс FP16, тогда как 660 узлов DGX-1/V100 — 660 Пфлопс.

 DGX-1 на базе Tesla V100

NVIDIA DGX-1

«Пробный» сервер DGX SaturnV с несколькими десятками узлов DGX-1/V100 прописался на 149 месте в TOP500 и на почётном 4 месте в Green500.

Соотношение производительности и энергопотребления выросло с 9,46 Гфлопс/Вт до 15,11 Гфлопс/Вт, но для сотен узлов нового DGX SaturnV всё равно необходимы порядка 2 МВт мощности. Таким образом, количество блоков питания измеряется уже не сотнями, как у прошлогоднего SaturnV, а тысячами. На один серверный узел DGX-1 по-прежнему приходится два 20-ядерных процессора Intel Xeon E5-2698 v4 (Broadwell-EP) с частотой от 2,2 до 3,6 ГГц. Объём оперативной памяти LRDIMM DDR4-2133 составляет 512 Гбайт на узел, также применяются четыре 1,92-Тбайт SSD-накопителя.

Судя по отсутствию нового DGX SaturnV на третьей строчке в TOP500, где он мог бы оказаться с ~30 Пфлопс в Linpack, сборка суперкомпьютера займёт ещё какое-то время. Параллельно NVIDIA принимает заказы на AI-серверы с DGX-1/V100 в качестве «строительного блока». Один такой «кирпич» (узел) стоит $149 000 — на 20 тыс. долларов дороже, чем аналог на Tesla P100.

Постоянный URL: http://servernews.ru/961485
28.10.2017 [21:30], Алексей Степин

Amazon предлагает виртуальные системы EC2 с ускорителями Tesla V100

Компания Amazon — это не только владелец крупнейшей в мире торговой площадки, на которой можно приобрести практически всё, но и весьма серьёзный поставщик облачных услуг. К этим услугам недавно добавилась новая: компания первая в мире предложила потенциальным клиентам виртуальные системы EC2, в состав которых входят вычислительные ускорители NVIDIA Tesla V100. Нацелены такие услуги на тех, кто занимается машинным обучением, рассчитывает поведение жидкостей и газов, работает с сейсмическими данными и вообще всех тех, кому нужны серьёзные вычислительные мощности.

 Возможные конфигурации новых платформ Amazon EC2

Возможные конфигурации новых платформ Amazon EC2

В настоящий момент доступны конфигурации с одним, четырьмя и восемью ускорителями Tesla V100. На каждый графический процессор приходится по восемь ядер Xeon, хотя и не уточняется какой архитектуры. Соответственно, в максимальном варианте (p3.16xlarge) в распоряжении пользователя имеется 64 виртуальных ЦП, три ускорителя V100 с общим объёмом памяти 128 Гбайт, шина NVLink (300 Гбайт/с), 488 Гбайт оперативной памяти и сетевая подсистема, работающая на скорости 25 Гбит/с. У менее мощных конфигураций эти параметры могут варьироваться в меньшую сторону. Цены довольно существенны: использование самой мощной конфигурации может стоить почти $25 в час в США и почти вдвое дороже в Японии, но всё же в ряде случаев это будет дешевле, нежели сборка собственной системы с сопоставимым уровнем производительности и поддержание её в рабочем состоянии.

 NVIDIA Tesla V100: NVLink (слева) и PCI Express

NVIDIA Tesla V100: NVLink (слева) и PCI Express

Зарубежные обозреватели предполагают, что особенно востребованными новые конфигурации виртуальных машин Amazon будут у тех, кто занимается проблемами машинного обучения. Неудивительно: в составе ядра V100 имеются специальные блоки тензорных вычислений, и производительность на подобного рода задачах составляет внушительные 125 терафлопс. Но и в обычных вычислениях показатели достаточно солидны: 7,8 терафлопс в режиме FP64 и вдвое больше в режиме FP32. По всей видимости, в ближайшее время представят свои аналоги виртуальных систем с ускорителями Microsoft и Google: первая может сделать упор на широкое применение ПЛИС, а у Google есть тензорный процессор собственной разработки. Тем не менее, пальма первенства по праву принадлежит Amazon.

Постоянный URL: http://servernews.ru/960668
12.10.2017 [13:03], Валерий Косихин

GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решением

NVIDIA представила третью версию пакета TensorRT, который представляет собой набор высокопроизводительных библиотек, выполняющих операции вывода (inference) на основе сетей глубинного обучения, и инструмент оптимизации сетей. В число функций TensorRT входит модификация параметров узлов нейросети (веса, пороги активации), объединение слоев, настройка и многопоточное исполнение вычислительных ядер (kernels).

TensorRT 3 находится в статусе релиз-кандидата и доступен для скачивания на сайте NVIDIA. Программа совместима с ускорителями вычислений на основе архитектур Pascal и Volta и встраиваемыми компьютерами семейства Jetson. Использование TensorRT 3 обеспечивает 3,7-кратный прирост пропускной способности на платформе Tesla V100 (Volta) по сравнению с Tesla P100 (Pascal). Кроме того, решение NVIDIA обладает в 18 раз более высокой производительностью, нежели универсальная библиотека TensorFlow, запущенная на оборудовании NVIDIA.

По сравнению с центральными процессорами Tesla V100 под управлением TensorRT 3 в 40–140 раз ускоряет задачу опознания изображений и вдвое снижает латентность операций. Сервер NVIDIA HGX, оснащенный восемью ускорителями Tesla V100, обеспечивает быстродействие, сопоставимое со 160 центральными процессорами (NVIDIA не уточняет количество ядер CPU), потребляя 1/20 долю электроэнергии. Общая стоимость владения с учетом цены оборудования и электрической мощности отдает 10-кратное преимущество решению NVIDIA.

Постоянный URL: http://servernews.ru/959837
17.09.2017 [20:00], Иван Грудцын

Сервер NVIDIA DGX-1 возглавил рейтинг производительности Geekbench

Онлайн-база Geekbench Browser время от времени пополняется результатами, в которых фигурируют опытные образцы комплектующих — процессоров, материнских плат, графических адаптеров и т. д. И вот недавно в ней обнаружились записи, в которых фигурировал обновлённый сервер NVIDIA DGX-1 для задач глубинного обучения. Найти результаты системы на базе восьми HPC-ускорителей Tesla V100 было совсем несложно, ведь расположились они на первом и втором местах в табели о рангах Geekbench 4.

В ходе тестирования использовались разные API — OpenCL и CUDA. Прогон бенчмарка Geekbench 4 с проприетарным API NVIDIA оказался значительно более успешным, чем с альтернативным интерфейсом программирования приложений. Разница между результатами составила 54,4 % — 743 537 очков против 481 504. Лучшие результаты на ускорителях Tesla P100 сегодня выглядят совсем уж скромно на фоне успехов представителей семейства NVIDIA Volta. Лучший из них едва превысил отметку в 320 тыс. очков.

Тестирование проводилось в Linux-среде (Ubuntu 16.04.2 LTS), а конфигурация сервера DGX-1, скорее всего, соответствовала базовой. По умолчанию в 3U-корпусе установлены восемь ускорителей Tesla V100 16GB HBM2 в форм-факторе SXM2 (интерфейс NVLink 2.0 с ПСП 300 Гбайт/с), дуэт 20-ядерных процессоров Intel Xeon E5-2698 v4, 512 Гбайт оперативной памяти LRDIMM DDR4-2133, четыре 1,92-Тбайт SSD-накопителя в массиве RAID 0, такое же количество блоков питания номиналом 1600 Вт каждый и множество элементов системы охлаждения.

 Сравнение характеристик PCI-E и SXM2-версий Tesla V100

Сравнение характеристик PCI-E и SXM2-версий Tesla V100

Вычислительные возможности сервера NVIDIA DGX-1 образца 2017 года (ранее система базировалась на Tesla P100) наглядно иллюстрирует сравнение его результатов с показателями двух- и четырёхпроцессорных серверов, «заряженных» CPU Intel Xeon Platinum серии 8100. Шестикратное преимущество DGX-1 — веский аргумент в пользу решения NVIDIA. Напомним, что в матричных (Tensor) вычислениях производительность SXM2-версии Tesla V100 составляет 120 Тфлопс, а PCI-E версии — 112 Тфлопс. Последняя используется в рабочих станциях DGX Station «всего лишь» с четырьмя HPC-ускорителями NVIDIA и одним процессором Intel Xeon E5-2698 v4.

Поставки серверов DGX-1 на базе решений NVIDIA Volta начались более полутора месяцев назад. За одну систему заказчикам предлагается заплатить $149 000 — на 20 тыс. долларов больше, чем за аналогичный сервер на ускорителях Tesla P100.

Постоянный URL: http://servernews.ru/958629
10.08.2017 [13:00], Алексей Степин

Национальная лаборатория Ок-Ридж начала монтаж суперкомпьютера Summit

Как сообщают зарубежные средства массовой информации, национальная лаборатория министерства энергетики США, известная как Национальная лаборатория Ок-Ридж (Oak Ridge National Laboratory, ORNL), начала работы по установке новейшего суперкомпьютера Summit, базирующегося на синтезе технологий IBM и NVIDIA. Ранее мы рассказывали об этом проекте, когда речь шла о быстродействии новых ускорителей NVIDIA Volta GV100. Напомним, что каждый из 4600 узлов Summit будет иметь производительность свыше 40 терафлопс, а в качестве начинки выступает связка из двух процессоров IBM POWER9 и шести ускорителей Volta GV100 производительностью порядка 7,5 терафлопс каждый. В качестве связующего звена задействован интерфейс NVLink 2.0 с пропускной способностью до 200 Гбайт/с.

Summit должен стать ответом китайскому проекту TaihuLight — пиковая производительность нового суперкомпьютера планируется на уровне 200 петафлопс, тогда как конкурент развивает лишь чуть более 125 петафлопс. Эти два суперкомпьютера станут самыми мощными вычислительными комплексами на планете, не использующими архитектуры x86. В понедельник в лабораторию Ок-Ридж были доставлены первые контейнеры с узлами Summit, и по словам представителя ORNL, как только они будут распакованы, сразу же начнётся процесс установки и монтажа компонентов новой системы, а также её подключения к сетям питания и охлаждающим установкам. Процесс сборки должен занять порядка шести месяцев, полноценный ввод системы в эксплуатацию запланирован на январь 2019 года.

В последнем случае речь идёт об общей доступности для научно-исследовательских проектов, но до этого система будет проходить наладку, и к ней получат доступ разработчики из министерства энергетики и некоторые университеты. Скорее всего, первые «признаки жизни» Summit подаст не раньше 2018 года, так что процедуру смены короны лидера списка TOP500 мы увидим не раньше следующего июня. Новый суперкомпьютер ORNL превзойдёт не только китайского монстра, но и предыдущую систему Окриджской лаборатории под названием Titan. Сейчас эта система занимает четвёртое место в TOP500 с пиковой производительностью 27,1 петафлопса и измеренными с помощью Linpack 17,6 петафлопсами. Таким образом, Summit будет в 5‒10 раз быстрее предшественника. А благодаря архитектурным особенностям NVIDIA Volta на задачах глубинного обучения (смешанные 16/32-битные вычисления) мощность Summit и вовсе достигнет запредельных 3,3 экзафлопс.

Постоянный URL: http://servernews.ru/956728
Система Orphus