Материалы по тегу: nvidia

07.12.2017 [18:44], Алексей Степин

Новый кластер NVIDIA Saturn V: некоторые подробности

Крупнейшие разработчики и производители микропроцессоров не очень-то любят рассказывать о своих проектах суперкомпьютеров, и информацию о таких проектах буквально приходится выцеживать по крупицам. Оригинальный узловой сервер NVIDIA DGX-1, являющийся основой кластера Saturn V, был представлен ещё на конференции SC16. Вся система состояла из 124 серверов DGX-1P, в каждом из которых было установлено по два 20-ядерных процессора Broadwell-EP с частотой 2,2 ГГц и по 8 ускорителей на базе Pascal P100 в форм-факторе SXM2, позволявшим пользоваться интерфейсом NVLink 1.0. На сегодня, однако, в руках NVIDIA есть куда более подходящий ускоритель - Tesla V100, чьи тензорные ядра делают его отличным решением для задач машинного обучения.

С четырьмя узлами DGX-1P, каждый из которых, к слову, мог потреблять до 3200 ватт, система смогла достичь пиковой производительности 4,9 петафлопса на вычислениях двойной точности. Тест матричной математики Linpack Fortran показал 67,5 % эффективности (3,31 петафлопса), что обеспечило системе 28 место в списке Top 500 на ноябрь 2016 года. Стоимость Saturn V составила $13 миллионов. Если бы процессоры Xeon имели интерфейс NVLink, производительность была бы выше, но они такового не имеют, вот почему NVIDIA вкладывает усилия в создание нового узлового сервера на базе процессоров POWER9. Назовём такую модель DGP-1V: в этом названии зашифровано сочетание POWER9 и ускорителей Volta. Новая версия NVLink 2.0 и когерентность кешей ЦП и ГП должна существенно увеличить эффективность такого сервера.

От малого к большому: иерархия узлов Saturn V

От малого к большому: иерархия узлов Saturn V

Новый Saturn V в максимальной конфигурации будет насчитывать до 660 узлов, оснащённых ускорителями Tesla V100; впрочем, их количество на узел останется прежним — по восемь ускорителей на корпус. Всего в системе будет 5280 процессоров Volta, что даст ей 80 петафлопс пиковой производительности на одинарной точности и 40 петафлопс — на двойной. Но что самое важное, в задачах машинного обучения, где часто используется смесь FP16 и FP32, теоретическая эффективная производительность нового Saturn V может достичь 660 петафлопс. Пока NVIDIA протестировала лишь 33-узловую конфигурацию, показавшую 1,82 петафлопса и эффективность на уровне 58,8 %, но удельная производительность составила 15,1 Гфлопс/ватт против 9,46 Гфлопс/ватт у системы предыдущего поколения.

Среднее звено

Среднее звено

Дешёвой новая система не будет: стоимость одного узла в полном оснащении оценивается в $149 тысяч (против $129 тысяч у DGX-1P), и суперкомпьютер Saturn V в новом своём воплощении может обойтись в $100‒$110 миллионов, причём эта цена не включает программное обеспечение для машинного обучения и внешние файловые системы Lustre или GPFS. Но заявка у «зелёных» серьёзная: в районе следующего года NVIDIA надеется смонтировать полную 660-узловую версию Saturn V и достичь показателя 22,3 петафлопса в тестах Linpack, что выведет новый суперкомпьютер на третье место в списке Top 500. Особенно большие надежды возлагаются на задачи машинного обучения: DGX-1P мог обеспечивать в этих сценариях 170 терафлопс, а вот условный DGP-1V за счёт наличия тензорных ядер — уже 960 терафлопс или в 5,6 раз больше.

Высший уровень

Высший уровень

Что касается сетевой конфигурации, то основой межузловых соединений станет стандарт InfiniBand EDR со скоростью 100 Гбит/с на кабель. Доступ к основной сети и хранилищам данных обеспечит сеть Ethernet на скорости 10 Гбит/с (несколько странно, что не использован более новый стандарт 25G), а для целей управления и телеметрии хватит и обычного канала Gigabit Ethernet. На среднем уровне коммутацию IB будут выполнять устройства Mellanox Director с 216 портами, а на высшем — ещё более мощные коммутаторы той же серии с 324 портами. Узким местом система межузловых соединений, скорее всего, не станет —  у Mellanox наработан огромный опыт в этой области, и есть полный спектр решений, покрывающих все потребности NVIDIA в проектировании сетевой подсистемы нового Saturn V.

Постоянный URL: http://servernews.ru/962577
06.12.2017 [23:45], Сергей Юртайкин

IBM представила первый сервер на процессоре POWER9

IBM представила свой первый собственный сервер на процессоре POWER9. Особенность решения под названием IBM Power Systems AC922 заключается в том, что новая аппаратная платформа разработана специально для работы с интенсивными вычислительными нагрузками технологий искусственного интеллекта (ИИ).

CPU IBM POWER9

CPU IBM POWER9

В IBM отмечают, что Power 9 позволяет ускорить тренировки фреймворков глубинного обучения обучения почти в четыре раза, благодаря чему клиенты смогут быстрее создавать более точные ИИ-приложения. Утверждается, что новый сервер разработан для получения значительных улучшений производительности всех популярных фреймворков ИИ, таких как Chainer, TensorFlow и Caffe, а также современных баз данных, использующих ускорители, например, Kinetica.

Сервер IBM Power System AC922

Сервер IBM Power System AC922

Сервер IBM Power Systems AC922 использует шину PCI-Express 4.0 и технологии NVIDIA NVLink 2.0 и CAPI 2.0/OpenCAPI, способные ускорить пропускную способность в 9,5 раза по сравнению с системами x86 на базе PCI-E 3.0. Это, в частности, позволяет задействовать ускорителям (GPU или FPGA) системную ОЗУ без значительных, по сравнению с прошлыми решениями, потерь производительности, что важно для обработки больших массивов данных. Кроме того, новые поколения карт расширения и ускорителей уже поддерживают эту шину.

IBM Power Systems AC922 создан в нескольких конфигурациях, оснащаемых двумя процессорами POWER9. Стандартные версии включают CPU c 16 (2,6 ГГц, турбо 3,09 ГГц) и 20 (2,0/2,87 ГГц) ядрами (4 потока на ядро), а позже появятся версии с 18- и 22 -ядерными процессорами. Всего в сервере есть 16 слотов для модулей ECC DDR4-памяти, что на текущий момент позволяет оснастить его 1 Тбайт RAM. Для хранения данных предусмотрено два слота для 2,5" SSD/HDD (RAID-контроллера нет).

AC922 может иметь на  борту от двух до четырёх ускорителей NVIDIA Tesla V100 форм-фактора SXM2 с памятью 16 Гбайт и шиной NVLink 2.0. В сумме они дают до 500 Тфлопс на расчётах половинной точности. Дополнительные ускорители можно подключить к слотам PCI-E 4.0. 

Сервер рассчитан на установку четырёх дополнительных низкопрофильных карт расширения: два слота PCI-E 4.0 x16, один PCI-E 4.0 x8 и один PCI-E 4.0 x4. Все слоты, кроме последнего, также умеют работать с CAPI. Также есть два порта USB 3.0. Поддерживается ОС Red Hat Enterprise Linux 7.4 for Power LE.

Процессоры IBM Power 9, которые нашли применение в IBM Power Systems AC922, легли в основу суперкомпьютеров Summit и Sierra Министерства энергетики США, а также используются компанией Google. Чипы и использующие их системы стали частью совместной работы участников организации OpenPower Foundation, в которую входят IBM, Google, Mellanox, NVIDIA и др.

Процессор IBM Power 9

Процессор IBM Power 9

«Мы создали уникальную в своём роде систему для работы с технологиями ИИ и когнитивными вычислениями, — говорит старший вице-президент подразделения IBM Cognitive Systems Боб Пиччиано (Bob Picciano). — Серверы на Power 9 являются не только основой самых высокопроизводительных компьютеров, они позволят заказчикам масштабировать невиданные ранее инсайты, что будет способствовать научным прорывам и революционным улучшениям бизнес-показателей».

Сервер имеет стандартное 2U-шасси и оснащается двумя (1+1) блоками питания мощностью 2,2 кВт каждый. Система охлаждения может быть гибридной. Начало продаж  IBM Power Systems AC922 намечено на 22 декабря 2017 года. В 2018 году будут доступны конфигурации с шестью ускорителями Tesla и СЖО.

Постоянный URL: http://servernews.ru/962463
05.12.2017 [15:10], Сергей Юртайкин

Доступ к облачной платформе NVIDIA GPU Cloud получили сотни тысяч специалистов по искусственному интеллекту

Компания NVIDIA реализовала поддержку графических ускорителей NVIDIA Titan в своей облачной платформе GPU Cloud (NGC), благодаря чему «сотни тысяч исследователей», занимающихся технологиями искусственного интеллекта и использующих настольную графику NVIDIA, получили доступ к NGC.

Пользователи GPU Titan на архитектуре Pascal могут бесплатно зарегистрироваться в системе NGC, чтобы получить доступ к каталогу оптимизированных для GPU инструментов глубокого обучения и высокопроизводительных вычислений. В список поддерживаемых платформ также входят NVIDIA DGX-1, DGX Station и инстансы с NVIDIA Volta на Amazon EC2.

Одним из первых пользователей NGC стал американский производитель медицинского оборудования GE Healthcare. Эта компания использовала инструменты глубинного обучения из репозитория NGC для оснащения искусственным интеллектом своих 500 тыс. устройств для медицинской визуализации.

NVIDIA также расширила возможности NGC, добавив программные обновления для репозитория контейнеров этой облачной платформы. В результате исследователям стал доступен более широкий набор мощных решений, способных ускорить их работу, связанную с искусственным интеллектом и высокопроизводительными вычислениями, говорится в сообщении компании.

Постоянный URL: http://servernews.ru/962444
14.11.2017 [18:00], Иван Грудцын

NVIDIA строит суперкомпьютер на 5280 ускорителях Tesla V100

Год назад компания NVIDIA представила суперкомпьютер DGX SaturnV для исследований в области искусственного интеллекта. Система включала 125 серверных узла DGX-1 (стоимостью $129 000 каждый) с весьма достойным соотношением производительности и энергопотребления, равным 9,46 Гфлопс/Вт. В престижном рейтинге TOP500 годичной давности сервер занял почётное 28 место, но за год опустился на восемь строчек, и в Санта-Кларе было принято решение построить подобный суперкомпьютер с бóльшим количеством узлов — 660 шт. При этом вместо DGX-1 на основе HPC-ускорителей Tesla P100 (Pascal) была сделана ставка на более мощные одноимённые узлы, оснащённые ускорителями Tesla V100 (Volta) — по восемь штук на узел, как и в DGX SaturnV первого поколения.


Согласно подсчётам NVIDIA, решение задач из области глубинного обучения занимает у восьми адаптеров Tesla V100 почти в два с половиной раза меньше времени, чем у DGX-1 с восемью Tesla P100, а «чистая» производительность в вычислениях половинной точности (они же FP16 или, по определению NVIDIA, «AI-вычисления») выше почти в шесть раз. Суммарная производительность 124 узлов DGX-1/P100 составляет всего 21,25 Пфлопс FP16, тогда как 660 узлов DGX-1/V100 — 660 Пфлопс.

DGX-1 на базе Tesla V100

NVIDIA DGX-1

«Пробный» сервер DGX SaturnV с несколькими десятками узлов DGX-1/V100 прописался на 149 месте в TOP500 и на почётном 4 месте в Green500.

Соотношение производительности и энергопотребления выросло с 9,46 Гфлопс/Вт до 15,11 Гфлопс/Вт, но для сотен узлов нового DGX SaturnV всё равно необходимы порядка 2 МВт мощности. Таким образом, количество блоков питания измеряется уже не сотнями, как у прошлогоднего SaturnV, а тысячами. На один серверный узел DGX-1 по-прежнему приходится два 20-ядерных процессора Intel Xeon E5-2698 v4 (Broadwell-EP) с частотой от 2,2 до 3,6 ГГц. Объём оперативной памяти LRDIMM DDR4-2133 составляет 512 Гбайт на узел, также применяются четыре 1,92-Тбайт SSD-накопителя.

Судя по отсутствию нового DGX SaturnV на третьей строчке в TOP500, где он мог бы оказаться с ~30 Пфлопс в Linpack, сборка суперкомпьютера займёт ещё какое-то время. Параллельно NVIDIA принимает заказы на AI-серверы с DGX-1/V100 в качестве «строительного блока». Один такой «кирпич» (узел) стоит $149 000 — на 20 тыс. долларов дороже, чем аналог на Tesla P100.

Постоянный URL: http://servernews.ru/961485
28.10.2017 [21:30], Алексей Степин

Amazon предлагает виртуальные системы EC2 с ускорителями Tesla V100

Компания Amazon — это не только владелец крупнейшей в мире торговой площадки, на которой можно приобрести практически всё, но и весьма серьёзный поставщик облачных услуг. К этим услугам недавно добавилась новая: компания первая в мире предложила потенциальным клиентам виртуальные системы EC2, в состав которых входят вычислительные ускорители NVIDIA Tesla V100. Нацелены такие услуги на тех, кто занимается машинным обучением, рассчитывает поведение жидкостей и газов, работает с сейсмическими данными и вообще всех тех, кому нужны серьёзные вычислительные мощности.

Возможные конфигурации новых платформ Amazon EC2

Возможные конфигурации новых платформ Amazon EC2

В настоящий момент доступны конфигурации с одним, четырьмя и восемью ускорителями Tesla V100. На каждый графический процессор приходится по восемь ядер Xeon, хотя и не уточняется какой архитектуры. Соответственно, в максимальном варианте (p3.16xlarge) в распоряжении пользователя имеется 64 виртуальных ЦП, три ускорителя V100 с общим объёмом памяти 128 Гбайт, шина NVLink (300 Гбайт/с), 488 Гбайт оперативной памяти и сетевая подсистема, работающая на скорости 25 Гбит/с. У менее мощных конфигураций эти параметры могут варьироваться в меньшую сторону. Цены довольно существенны: использование самой мощной конфигурации может стоить почти $25 в час в США и почти вдвое дороже в Японии, но всё же в ряде случаев это будет дешевле, нежели сборка собственной системы с сопоставимым уровнем производительности и поддержание её в рабочем состоянии.

NVIDIA Tesla V100: NVLink (слева) и PCI Express

NVIDIA Tesla V100: NVLink (слева) и PCI Express

Зарубежные обозреватели предполагают, что особенно востребованными новые конфигурации виртуальных машин Amazon будут у тех, кто занимается проблемами машинного обучения. Неудивительно: в составе ядра V100 имеются специальные блоки тензорных вычислений, и производительность на подобного рода задачах составляет внушительные 125 терафлопс. Но и в обычных вычислениях показатели достаточно солидны: 7,8 терафлопс в режиме FP64 и вдвое больше в режиме FP32. По всей видимости, в ближайшее время представят свои аналоги виртуальных систем с ускорителями Microsoft и Google: первая может сделать упор на широкое применение ПЛИС, а у Google есть тензорный процессор собственной разработки. Тем не менее, пальма первенства по праву принадлежит Amazon.

Постоянный URL: http://servernews.ru/960668
12.10.2017 [13:03], Валерий Косихин

GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решением

NVIDIA представила третью версию пакета TensorRT, который представляет собой набор высокопроизводительных библиотек, выполняющих операции вывода (inference) на основе сетей глубинного обучения, и инструмент оптимизации сетей. В число функций TensorRT входит модификация параметров узлов нейросети (веса, пороги активации), объединение слоев, настройка и многопоточное исполнение вычислительных ядер (kernels).

TensorRT 3 находится в статусе релиз-кандидата и доступен для скачивания на сайте NVIDIA. Программа совместима с ускорителями вычислений на основе архитектур Pascal и Volta и встраиваемыми компьютерами семейства Jetson. Использование TensorRT 3 обеспечивает 3,7-кратный прирост пропускной способности на платформе Tesla V100 (Volta) по сравнению с Tesla P100 (Pascal). Кроме того, решение NVIDIA обладает в 18 раз более высокой производительностью, нежели универсальная библиотека TensorFlow, запущенная на оборудовании NVIDIA.

По сравнению с центральными процессорами Tesla V100 под управлением TensorRT 3 в 40–140 раз ускоряет задачу опознания изображений и вдвое снижает латентность операций. Сервер NVIDIA HGX, оснащенный восемью ускорителями Tesla V100, обеспечивает быстродействие, сопоставимое со 160 центральными процессорами (NVIDIA не уточняет количество ядер CPU), потребляя 1/20 долю электроэнергии. Общая стоимость владения с учетом цены оборудования и электрической мощности отдает 10-кратное преимущество решению NVIDIA.

Постоянный URL: http://servernews.ru/959837
29.09.2017 [23:40], Алексей Степин

Supermicro представила новые системы на базе NVIDIA Tesla V100

Одним из самых мощных вычислительных ускорителей на сегодня является NVIDIA Tesla V100, основанный на новейшей микроархитектуре Volta — она настолько нова, что на её базе пока не выпущено игровых решений. Разумеется, компания Supermicro, известнейший производитель серверных компонентов и готовых систем, не прошла мимо и объявила о поддержке обоих вариантов Tesla, как с шиной NVLink (V100 SXM2), так и в виде плат с интерфейсом PCIe (V100 PCI-E).

Система SuperServer 4028GR-TXRT поддерживает установку до восьми ускорителей Tesla с разъёмом NVLink. Эта новинка предназначена для исследований в области машинного интеллекта, глубинного машинного обучения, но пригодится она и в любом месте, где требуется серьёзный объём вычислений — в науке, медицине и инженерных отраслях. Конструктивно это стандартный корпус высотой 4U, так что проблем с интеграцией в существующую инфраструктуру нет. Есть и вариант с PCIe-ускорителями V100 — 4028GR-TRT2, но эта система вмещает уже целых 10 ускорителей. За счёт использования коммутаторов PCI Express ускорители могут общаться друг с другом напрямую.

Tesla V100 SXM2 (слева) и V100 PCI Express

Tesla V100 SXM2 (слева) и V100 PCI Express (снимок AnandTech.com)

Есть и более компактные решения: так, SuperServer 1028GQ-TRT при высоте корпуса всего 1U поддерживает установку четырёх ускорителей V100. Это идеальное решение для рендеринга, медицинской визуализации и мультимедийных приложений, включая потоковые игровые сервисы. Создание приложений, оптимизированных для работы в системах с множественными ускорителями Tesla, не так-то просто, поэтому Supermicro предлагает и рабочие станции для разработчиков такого ПО. Модель 7049GP-TRT выполнена в привычном башенном корпусе и поддерживает одновременную работу до четырёх ускорителей Tesla V100 в варианте PCI Express.

Постоянный URL: http://servernews.ru/959277
28.09.2017 [17:22], Сергей Юртайкин

Представлены серверы на графических ускорителях NVIDIA Tesla V100

Сразу несколько производителей серверов выпустили оборудование, использующее графические процессоры NVIDIA Volta для решения задач, связанных с искусственным интеллектом и выполнением других больших вычислительных нагрузок.

Dell EMC, Hewlett Packard Enterprise, IBM и Supermicro представили более десятка серверов на базе GPU-ускорителей Tesla V100 с архитектурой NVIDIA Volta.

techadvisor.co.uk

Среди новинок — системы HPE Apollo 6500 с поддержкой до восьми GPU V100 для PCIe и HPE ProLiant DL380 с поддержкой до трёх GPU V100 для PCIe.

IBM анонсировала серверы нового поколения IBM Power Systems на базе процессора Power9 с поддержкой нескольких GPU V100 и технологией NVLink с интерконнектом GPU-to-GPU и уникальным CPU-to-GPU OpenPOWER для быстрой передачи данных.

Графические процессоры Nvidia V100, производительность которых в задачах глубокого обучения превышает 120 терафлопс, созданы для обучения нейросетей, высокопроизводительных вычислений, ускорения аналитики и других ресурсоёмких компьютерных задач.

В NVIDIA говорят, что один GPU Volta обеспечивает производительность, эквивалентную 100 центральным процессорам, позволяя ученым, исследователям и инженерам решать сложные задачи.

Постоянный URL: http://servernews.ru/959201
31.08.2017 [08:35], Андрей Крупин

«Облакотека» запустила услугу аренды виртуальных графических станций

Компания «Облакотека», специализирующаяся на организации и размещении частных облаков и IT-инфраструктур клиентов, объявила о запуске услуги аренды виртуальных рабочих мест (Virtual Desktop Infrastructure, VDI) с поддержкой ресурсоёмких приложений для работы с 3D-графикой.

В основу запущенного компанией «Облакотека» сервиса VDI положена платформа Microsoft Hyper-V с графическим ускорителем NVIDIA Tesla M10 и технологией RemoteFX. Эта технология позволяет разворачивать рабочие станции на серверах на базе графических процессоров NVIDIA. Виртуализация графических ускорителей на уровне гипервизора позволяет поддерживать до 64 виртуальных машин на vGPU в зависимости от поставленных задач. Виртуальные станции с графическими процессорами поддерживают все основные программы для проектирования и моделирования, включая AVEVA, SolidWorks, AutoCAD, 3d Maya, 3DS Max, Revit, ArchiCAD и др.

Виртуальные рабочие места для 3D-проектирования доступны в двух конфигурациях: «Профи» для индивидуальной работы и «Команда» для групповой работы. Первый вариант подойдёт для дизайнеров, freelance-художников, сотрудников небольших студий, второй — для инженеров-проектировщиков, создателей анимации и мультипликации, архитектурных компаний с «тяжёлыми» проектами, студий разработки компьютерных и мобильных игр.

В компании подчёркивают, что VDI-решения позволяют организациями существенно сократить расходы на закупку и обслуживание рабочих станций, унифицировать парк рабочих мест за счёт создания функциональных шаблонов, а также обеспечить сохранность данных в случае поломки пользовательских устройств и оперативно разворачивать новые рабочие места.

Материалы по теме:

Источник:

Постоянный URL: http://servernews.ru/957882
10.08.2017 [13:40], Алексей Степин

IBM ставит рекорды масштабируемости в сфере машинного обучения

Технологии машинного обучения и искусственного интеллекта на базе нейронных сетей в наши дни являются широко востребованными, на них возлагаются большие надежды в самых различных промышленных и научных отраслях. Очевидно также, что тенденция к распараллеливанию программных алгоритмов и не думает сокращаться, но не всякий софт хорошо масштабируется по мере роста количества вычислительных блоков. Компания IBM это понимает хорошо — она активно работает над оптимизацией программного обеспечения нейронных сетей. Буквально на днях разработчики «голубого гиганта» продемонстрировали новое ПО, которое одновременно ускоряет обучение нейронных сетей и повышает аккуратность самого обучения.

Добиться этого удалось путём программной оптимизации масштабирования при увеличении количества графических ускорителей в системе. Исследовательская группа, возглавляемая Хиллери Хантер (Hillery Hunter), фокусировала свои усилия на уменьшении времени тренировки нейросетей на больших объёмах данных. В таких задачах ждать получения результата можно часами и даже днями, а задачей исследователей было добиться сокращения этого временного промежутка до минут или даже секунд при сохранении или повышении точности. Для этого пришлось активно оптимизировать фирменное программное обеспечение IBM для эффективной работы в системах с большим количеством GPU-ускорителей.

Оптимизации, внесённые в комплекс ПО Distributed Deep Learning (DDL), позволили добиться 95 % эффективности масштабирования в системе с 256 ускорителями NVIDIA Tesla P100. Тестирование было проведено в системе Caffe на задачах распознавания изображений. Полученный результат является новым рекордом. Ранее этот рекорд составлял 89 % и был достигнут командой Facebook при использовании аналогичного аппаратного комплекса. Точность распознавания на базе из 7,5 миллионов изображений достигла 33,8 %, что тоже выше предыдущего достижения, равного 29,8 %. Казалось бы, немного, но предыдущий результат занял у Microsoft 10 дней обучения сети в 2014 году, в то время, как IBM удалось уложиться всего в 7 часов за счёт использования графических ускорителей серии Tesla.

Постоянный URL: http://servernews.ru/956738