Материалы по тегу: gv100

28.03.2018 [14:00], Иван Грудцын

Ускоритель NVIDIA Quadro GV100 оперирует 32 Гбайт памяти HBM2

Одним из ключевых анонсов в рамках конференции GTC 2018 (26–29 марта, г. Сан-Хосе, США) стала презентация профессионального графического ускорителя NVIDIA Quadro GV100 для рабочих станций. Подобно Quadro GP100, новый адаптер назван в честь графического чипа, ставшего его основой — Volta GV100. Напомним, что последний уже используется в ускорителях Tesla V100 и TITAN V.

Quadro GV100 выполнен в виде двухслотовой карты расширения с интерфейсом PCI Express 3.0 x16. Устройство характеризуется значительным сходством с TITAN V, правда, в отличие от последнего, оперирует не 12, а 32 Гбайт памяти HBM2 с более высокой пропускной способностью — 870 Гбайт/с. Ещё одно важное различие между Quadro GV100 и TITAN V заключается в том, что новая модель Quadro обладает поддержкой интерфейса NVLink с пропускной способностью 200 Гбайт/с. Наконец, вместо разъёма HDMI 2.0b на задней панели TITAN V в Quadro GV100 используется четвёртый DisplayPort 1.4.

В новом ускорителе задействована полноценная версия 12-нм ядра NVIDIA GV100 с 5120 потоковыми процессорами Volta, 320 TMU, 128 ROP и 640 блоками матричных вычислений (Tensor). Разрядность шины памяти составляет 4096 бит, частотная формула — 1450/850(1700) МГц для ядра (с учётом boost-режима) и памяти HBM2 соответственно. «Чистая» производительность Quadro GV100 оценивается в 7,4 Тфлопс для операций с числами двойной точности, 14,8 Тфлопс — одинарной, и 118,5 Тфлопс — Tensor-вычислений.

Перечень поддерживаемых Quadro GV100 разрешений включает 4 × 4096 × 2160 при 120 Гц (т. е. предусмотрена возможность подключения четырёх 120-Гц 4K-мониторов), 4 × 5120 × 2880 при 60 Гц и 2 × 7680 × 4320 при 60 Гц. В числе поддерживаемых технологий отдельно упоминаются NVIDIA RTX (трассировка лучей в реальном времени), API OptiX (графический движок с поддержкой трассировки лучей), Microsoft DXR и Vulkan. Рекомендованная цена нового ускорителя для заказчиков из США составляет $9000 без учёта налога с продаж.

Параллельно стало известно о переводе HPC-ускорителя Tesla V100 на конфигурацию кристалла GPU с двойным объёмом буферной памяти HBM2 — 32 Гбайт. Изменения затронули как SMX2-версию V100, так и вариант данного адаптера в виде карты расширения PCI-E. Повлияло ли обновление ускорителя на его стоимость, пока не ясно.

Постоянный URL: http://servernews.ru/967626
02.08.2017 [12:00], Илья Гавриченков

NVIDIA начала поставлять Volta

AMD Vega – не единственная новая графическая архитектура, которая приходит на рынок этим летом. Поставки новых процессоров поколения Volta параллельно начала и NVIDIA, правда речь в данном случае идёт о GPU для расчётов в области искусственного интеллекта и глубинного обучения. Тем не менее, обойти вниманием это событие нельзя, поскольку продажи Volta стартовали раньше ожидаемого срока. Впрочем, это вряд ли может означать, что игровые видеокарты на базе NVIDIA Volta появятся в обозримом будущем.

Как сообщает Fudzilla, первая партия ускорителей Tesla V100, основанных на процессорах Volta GV100, была отгружена клиентам в составе обновлённых суперкомпьютерных модулей DGX-1 стоимостью $149 тыс. Каждый такой модуль, напомним, содержит восемь плат Tesla V100, которые в сумме могут предоставить разработчикам массив из более чем 40 тысяч CUDA-процессоров.

Первое поколение систем DGX-1 стоимостью $129 тыс, которое базировалось на картах Tesla P100, стало доступно в сентябре прошлого года, спустя полгода после премьеры архитектуры Pascal на конференции GTC 2016. Ускорители же Tesla V100 на базе архитектуры Volta, как можно судить по началу поставок обновлённых модулей DGX-1, оказались готовы к массовому выпуску заметно быстрее своих предшественников – спустя всего три месяца после анонса на мероприятии GTC 2017, которое прошло в мае. Это косвенно указывает на то, что цикл подготовки к серийному производству GPU поколения Volta оказался короче, чем в случае с процессором прошлого поколения, и NVIDIA потенциально готова начинать внедрение новой архитектуры в другие рыночные сегменты.

Это особенно важно, поскольку лежащий в основе Tesla V100 процессор GV100 – очень сложный чип площадью 815 мм2, состоящий из 21,1 млрд транзисторов. Глава NVIDIA, Дженсен Хуанг (Jensen Huang) в своё время называл Volta «самым большим чипом, который только можно сделать». Тем не менее, никаких проблем с его изготовлением по новому 12-нм FFN-техпроцессу, как можно судить, у TSMC не возникло.

В то же время столь скорое появление первых серийных профессиональных решений семейства Volta вряд ли можно считать признаком того, что игровые карты с перспективной архитектурой выйдут в обозримом будущем. Несколько дней тому назад мы стали свидетелями «триумфального возвращения AMD в область графики для энтузиастов» (так охарактеризовал выход Vega глава маркетингового отдела AMD, Крис Хук (Chris Hook)), однако это событие вряд ли способно подтолкнуть NVIDIA к каким-то активным действиям. Даже после появления на прилавках Radeon RX Vega 64 флагманский игровой ускоритель GeForce GTX 1080 Ti, очевидно, сохранит своё безальтернативное лидирующее положение. А это значит, что игровые видеокарты на базе Volta вряд ли увидят свет в текущем году, несмотря на циркулировавшие ранее слухи.

Постоянный URL: http://servernews.ru/956366
11.05.2017 [10:00], Иван Грудцын

Эра NVIDIA Volta началась с ускорителя Tesla V100

На конференции GTC 2017 в американском городе Сан-Хосе компания NVIDIA в лице её генерального директора Дженсена Хуанга (Jen-Hsun Huang) представила ускоритель Tesla V100 для дата-центров на основе графического процессора Volta GV100. Разработка последнего обошлась NVIDIA в $3 млрд, и в результате свет увидел чип площадью 815 мм², содержащий 21,1 млрд транзисторов, более 5000 потоковых процессоров и новые блоки Tensor, повышающие производительность GPU в так называемых матричных вычислениях. Изготовление ядер GV100 было поручено давнему партнёру NVIDIA — тайваньскому полупроводниковому гиганту TSMC. Техпроцесс выпуска — 12-нм FFN. Последняя буква в аббревиатуре FFN обозначает не что иное, как «NVIDIA»: технологическая норма разрабатывалась с учётом требований заказчика.

Tesla V100

Tesla V100

Из года в год сложность архитектуры кремниевых кристаллов для HPC-задач продолжает расти, и теперь, с дебютом NVIDIA Volta, остаётся констатировать, что помимо потоковых процессоров, кеш-памяти первого и второго уровней, текстурных блоков, контроллеров VRAM и системного интерфейса, частью high-end GPU становятся блоки Tensor. У GV100 их по 8 на мультипроцессорный кластер (SM) и 672 в целом.

SM-блок Volta GV100

SM-блок Volta GV100

Матричные вычисления в блоках Tensor увеличивают производительность нового ядра в задачах машинного обучения до 120 Тфлопс. В то же время быстродействие GV100 в FP32-вычислениях составляет 15 Тфлопс, а в FP64-вычислениях — 7,5 Тфлопс.

Ядро Volta GV100

Volta GV100

Ядро Volta GV100 неотделимо от буферной памяти — четырёх микросхем HBM2, взаимодействующих с GPU по 4096-битной шине. Объём каждого чипа составляет 4 Гбайт, пропускная способность подсистемы памяти — 900 Гбайт/с. Кристалл GV100 дебютирует одновременно с ускорителем Tesla V100, являясь его основой. В V100 ядро работает на частоте до 1455 МГц (с учётом динамического разгона) обеспечивая вышеуказанную производительность в FP32-, FP64- и матричных (Tensor) вычислениях. Адаптер с GPU впечатляющих размеров потребляет умеренные 300 Вт — столько же, сколько и Tesla P100.

Спецификации ускорителей NVIDIA Tesla разных лет

Спецификации ускорителей NVIDIA Tesla разных лет

Вычислительные возможности Volta GV100

Вычислительные возможности Volta GV100

По эскизу в начале данной заметки можно было догадаться, что соединение Tesla V100 с такими же ускорителями и центральным процессором обеспечивает интерфейс типа NVLink. В этот раз это не интерфейс первого поколения, а NVLink 2.0 — соответствующие контакты находятся на тыльной поверхности карты. В Tesla V100 реализовано шесть двунаправленных 25-Гбайт соединений (суммарно 300 Гбайт/с), а также функция согласования содержимого кеш-памяти с кешем центрального процессора IBM POWER9.

Распространение новых HPC-ускорителей будет осуществляться по межкорпоративным (B2B) каналам. При этом заказчики получат свободный выбор между готовыми решениями вкупе с сопутствующим программным обеспечением и технической поддержкой. Все три системы — DGX-1, HGX-1 и DGX Station — предназначены для решения задач, связанных с развитием искусственного интеллекта (AI).

С системой глубинного обучения NVIDIA DGX-1 первого поколения мы уже знакомили читателей — она использует восемь ускорителей Tesla P100 с производительностью 170 Тфлопс в вычислениях половинной точности (FP16). Обновлённый сервер DGX-1 содержит восемь карт Tesla V100 с быстродействием 960 Тфлопс (FP16), два центральных процессора Intel Xeon и блок(-и) питания суммарной мощностью не менее 3200 Вт. Такой апгрейд позволяет выполнять не только типичные задачи в области исследования AI, но и переходить к новым, целесообразность решения которых прежде была под вопросом ввиду высокой сложности вычислений.

Предварительный заказ системы NVIDIA DGX-1 второго поколения обойдётся всем желающим в $149 000. Ориентировочный срок начала поставок — третий квартал текущего года.

Сервер HGX-1 на восьми ускорителях Tesla V100 аналогичен DGX-1. Ключевое отличие данной системы заключается в применении жидкостного охлаждения компонентов. Кроме того, NVIDIA HGX-1 проще внедрить с ИТ-инфраструктуру компаний. Помимо глубинного обучения, этот сервер может использоваться в экосистеме GRID, а также для решения широкого круга HPC-задач.

NVIDIA HGX

NVIDIA DGX Station представляет собой высокопроизводительную рабочую станцию с четырьмя картами Tesla V100, центральным процессором Intel Xeon, системой жидкостного охлаждения и 1500-ваттным источником питания. Ускорители NVIDIA в составе DGX Station оснащены интерфейсом NVLink 200 Гбайт/с и тремя разъёмами DisplayPort с поддержкой разрешения 4K.

В матричных Tensor-вычислениях  DGX Station обеспечивает быстродействие на уровне 480 Тфлопс. Стоимость рабочей станции для рынка США равна $69 000.

Постоянный URL: http://servernews.ru/952008
21.12.2016 [08:39], Алексей Степин

Производительность NVIDIA Volta GV100 может достигнуть 9,5 терафлопс

Как известно, следующим после Pascal поколением графических процессоров NVIDIA является Volta. Впрочем, к современным чипам название «графический процессор» применимо всё меньше — с тех пор, как их архитектура стала полностью унифицированной и программируемой, они прочно утвердились в различных проектах суперкомпьютеров, некоторые из которых уже вступили в строй и вовсю заняты научными и другими сложными вычислениями. Создавая свой первый чип Pascal GP100, NVIDIA уделила больше внимания его вычислительным возможностям, нежели графическим, и, похоже, первенца в семействе Volta, чип GV100, ожидает аналогичный подход.

Новый принцип построения узлов суперкомпьютера. Количество плат ускорителей не соответствует указанному в заметке

Новый принцип построения узлов суперкомпьютера. Количество плат ускорителей не соответствует указанному в заметке

Уже подтверждено, что GV100 станет сердцем, а точнее, сердцами суперкомпьютеров Summit в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory) и Sierra в Ливерморской национальной лаборатории (Lawrence Livermore National Laboratory). Первый проект должен войти в рабочую стадию в начале 2018 года и развить пиковую мощность 200 петафлопс, что существенно превышает показатель самого быстрого сегодняшнего китайского суперкомпьютера Sunway TaihuLight, чьи возможности оцениваются в 125,4 петафлопса. К сожалению, о характеристиках и архитектуре GV100 мы до сих пор знаем не так много, как хотелось бы, но кое-какие сведения о проекте Summit позволяют сделать некоторые выводы.

Тот самый слайд

Тот самый слайд

Лаборатория в Ок-Ридже опубликовала слайд, на котором Summit сравнивается с суперкомпьютером Titan, базирующимся на чипах Kepler GK110. Состоит он из 18688 узлов, мощность каждого из них составляет 1,4 терафлопса. На том же плакате указаны спецификации Summit: 4600 узлов с мощностью более 40 терафлопс на узел. Указано также, что в каждом узле будет 512 Гбайт памяти DDR4, 800 Гбайт энергонезависимой памяти и некий объём памяти HBM (речь, разумеется, идёт о HBM2). Основой каждого узла станут пара процессоров IBM POWER9 и шесть процессоров NVIDIA Volta. Чипы POWER9, помимо традиционных линий PCI Express (версия 4.0) имеют и 48 линий интерфейса Bluelink, который будет работать в режиме NVLink 2.0 и соединять их с процессорами Volta, что позволит процессорам различных архитектур делить общее пространство памяти, практически не теряя в скорости: пропускная способность может составлять от 80 до 200 Гбайт/с.

Использование NVLink экономит энергию и повышает производительность

Использование NVLink экономит энергию и повышает производительность

Потребляемая Summit мощность составит 13 мегаватт — всего на 4 мегаватта больше, нежели у Titan, при более чем десятикратном превосходстве в производительности. Как мы знаем, NVIDIA объявила о том, что GV100 будет демонстрировать эффективность 72 гигафлопса на ватт при операции перемножения матриц с одинарной точностью (Single precision floating General Matrix Multiply). Для GP100 этот показатель равен 42 гигафлопса на ватт. Нетрудно посчитать, приняв за основу теплопакет GV100 на уровне 300 ватт, что этот чип в теории может достичь производительности 9,5 терафлопс на вычислениях двойной точности (FP64). Шесть чипов GV100 при потреблении не выше 300 ватт на чип как раз и дадут упомянутые на плакате «более 40 терафлопс», а точнее, в теории, смогут выдать 57,2 терафлопса. Даже при конфигурации с теплопакетом 200 ватт и на 20‒25 % более низкой производительности производительность узла составит 45,6 терафлопс, так что у создателей Summit явно есть задел по части экономии электроэнергии при сохранении заявленных характеристик. По крайней мере, такой подход может существенно облегчить работу холодильных установок Summit.

Постоянный URL: http://servernews.ru/944758
Система Orphus