Материалы по тегу: 12 нм

28.03.2018 [14:00], Иван Грудцын

Ускоритель NVIDIA Quadro GV100 оперирует 32 Гбайт памяти HBM2

Одним из ключевых анонсов в рамках конференции GTC 2018 (26–29 марта, г. Сан-Хосе, США) стала презентация профессионального графического ускорителя NVIDIA Quadro GV100 для рабочих станций. Подобно Quadro GP100, новый адаптер назван в честь графического чипа, ставшего его основой — Volta GV100. Напомним, что последний уже используется в ускорителях Tesla V100 и TITAN V.

Quadro GV100 выполнен в виде двухслотовой карты расширения с интерфейсом PCI Express 3.0 x16. Устройство характеризуется значительным сходством с TITAN V, правда, в отличие от последнего, оперирует не 12, а 32 Гбайт памяти HBM2 с более высокой пропускной способностью — 870 Гбайт/с. Ещё одно важное различие между Quadro GV100 и TITAN V заключается в том, что новая модель Quadro обладает поддержкой интерфейса NVLink с пропускной способностью 200 Гбайт/с. Наконец, вместо разъёма HDMI 2.0b на задней панели TITAN V в Quadro GV100 используется четвёртый DisplayPort 1.4.

В новом ускорителе задействована полноценная версия 12-нм ядра NVIDIA GV100 с 5120 потоковыми процессорами Volta, 320 TMU, 128 ROP и 640 блоками матричных вычислений (Tensor). Разрядность шины памяти составляет 4096 бит, частотная формула — 1450/850(1700) МГц для ядра (с учётом boost-режима) и памяти HBM2 соответственно. «Чистая» производительность Quadro GV100 оценивается в 7,4 Тфлопс для операций с числами двойной точности, 14,8 Тфлопс — одинарной, и 118,5 Тфлопс — Tensor-вычислений.

Перечень поддерживаемых Quadro GV100 разрешений включает 4 × 4096 × 2160 при 120 Гц (т. е. предусмотрена возможность подключения четырёх 120-Гц 4K-мониторов), 4 × 5120 × 2880 при 60 Гц и 2 × 7680 × 4320 при 60 Гц. В числе поддерживаемых технологий отдельно упоминаются NVIDIA RTX (трассировка лучей в реальном времени), API OptiX (графический движок с поддержкой трассировки лучей), Microsoft DXR и Vulkan. Рекомендованная цена нового ускорителя для заказчиков из США составляет $9000 без учёта налога с продаж.

Параллельно стало известно о переводе HPC-ускорителя Tesla V100 на конфигурацию кристалла GPU с двойным объёмом буферной памяти HBM2 — 32 Гбайт. Изменения затронули как SMX2-версию V100, так и вариант данного адаптера в виде карты расширения PCI-E. Повлияло ли обновление ускорителя на его стоимость, пока не ясно.

Постоянный URL: http://servernews.ru/967626
02.11.2017 [12:30], Иван Грудцын

Второе поколение AMD EPYC: 64 ядра и 256 Мбайт кеша

Идею AMD «склеивать» восьмиядерные кристаллы Zeppelin в один 32-ядерный процессор EPYC следует признать удачной, ведь как бы вычурно не выглядели четыре чипа на одной подложке, их производительность заставляет закрыть глаза на всё остальное. Компания из Саннивейла не собирается останавливаться на достигнутом: второе поколение EPYC получит вдвое больше вычислительных ядер и вчетверо больше разделяемой кеш-памяти третьего уровня. Об этом сообщил официальный твиттер французского печатного издания Canard PC Hardware, которое в своё время запомнилось ранним рассекречиванием информации о процессорах Ryzen.

В соответствии с данными источника, условные «EPYC 2» будут содержать максимум 64 ядра и 256 Мбайт кеша третьего уровня. Внушительный объём сверхбыстрой памяти станет одной из причин, по которой уровень TDP процессоров EPYC вырастет со 180 Вт в первом поколении до 225 Вт во втором. Последнее значение не окончательное: для лучшей производительности лимит мощности можно будет повысить до 240 Вт. Компоновка CPU пока не ясна: то ли четыре кристалла по 16 ядер в каждом (что более вероятно), то ли целый «посёлок» под крышкой из восьми восьмиядерных чипов.

Количество каналов оперативной памяти DDR4 останется прежним (8 шт.), но при этом будет реализована поддержка модулей с эффективной частотой 3200 МГц вместо 2666 МГц у нынешних EPYC. Функция контроля ошибок (ECC) будет присутствовать непременно, ведь без неё и сервер — не сервер. Сохранится и количество линий PCI Express (128 шт.), однако вследствие перехода от стандарта PCI-E 3.0 к PCI-E 4.0 пропускная способность линий вырастет вдвое. Внедрение PCI Express 4.0 повышает вероятность того, что актуальные серверные платы не подойдут для «EPYC 2». Впрочем, к моменту выпуска новых процессоров они уже могут не соответствовать требованиям времени.

Сроки выхода AMD EPYC второго поколения пока не известны. Если AMD изберёт для них 12-нм FinFET-техпроцесс, то релиз может состояться в пределах полугода (здесь мы ориентируемся на 12-нанометровые Ryzen 3/5/7 2000). В свою очередь, выбор в пользу более тонкой 7-нм нормы потребует гораздо больше времени на подготовку, и тогда семейство «EPYC 2», скорее всего, задержится до 2019 года. Перспектива двукратного роста количества ядер выглядит довольно «вкусно», ведь за серверными процессорами подтянутся и топовые настольные.

Постоянный URL: http://servernews.ru/960904
21.06.2017 [09:30], Иван Грудцын

NVIDIA анонсировала PCI-E версию ускорителя Tesla V100

В мае NVIDIA положила начало эры 12-нм графических решений Volta, представив HPC-ускоритель Tesla V100 с интерфейсом NVLink 2.0 (300 Гбайт/с). Новый оптимизированный для NVIDIA техпроцесс TSMC, новые структурные блоки Tensor для матричных вычислений, огромный кристалл с 21 млрд транзисторов — разработчик постарался, чтобы V100 запомнили надолго.

Повод для очередного упоминания об ускорителе Tesla V100 у нас достаточно веский — официальный дебют его версии с интерфейсом подключения PCI Express 3.0 x16. Судя по набору характеристик, новинка немногим уступает основному адаптеру. По сути, кроме использования разъёма PCI-E 3.0 и немного меньшей boost-частоты ядра (около 1370 МГц), других ограничений не предусмотрено, и V100 готов усилить рабочие станции и серверы заказчиков уже в ближайшем будущем.

С положительной стороны PCI-E модификация Tesla V100 отличается от «старшей сестры» меньшим энергопотреблением — 250 Вт против 300 Вт. Это позволяет использовать как жидкостные, так и воздушные системы охлаждения с невысоким уровнем шума. Графическое ядро ускорителя — GV100 — включает в себя 5120 потоковых процессоров и 640 блоков матричных вычислений (Tensor). Микросхемы памяти HBM2 объёмом 16 Гбайт (4 × 4 Гбайт) работают на частоте 900 МГц, пропускная способность подсистемы памяти увеличена на 25 % по сравнению с Tesla P100 (Pascal) — с 720 до 900 Гбайт/с. Производительность Tesla V100 достигает 7 Тфлопс в вычислениях двойной точности, 14 Тфлопс — одинарной и 28 Тфлопс — половинной. Для матричных вычислений цифра ещё выше — 112 Тфлопс.

Тем временем нашему корреспонденту на выставке-конференции ISC 2017 в Германии удалось запечатлеть на фото обновлённый сервер DGX-1 и рабочую станцию DGX Station. Обе системы оборудованы картами V100 и предназначены для ресурсоёмких вычислений, связанных с решением задач в области искусственного интеллекта.

Сервер NVIDIA DGX-1 оснащён восемью ускорителями Tesla V100, двумя 20-ядерными процессорами Intel Xeon E5-2698 v4, 512 Гбайт оперативной памяти, четырьмя 1,92-Тбайт SSD в RAID 0, проводным сетевым интерфейсом 10-Гбит Ethernet (2 порта) и 3,2-кВт блоком питания. Рекомендованная цена системы для рынка США составляет $149 000.

У рабочей станции DGX Station всего вполовину меньше (кроме накопителей — их по-прежнему четыре). Цена, соответственно, не шестизначная, а пятизначная — $69 000. Процессор Xeon E5-2698 v4 и квартет карт Tesla V100 охлаждаются СЖО. Уровень шума на фоне DGX-1 невысок.

Постоянный URL: http://servernews.ru/954273
11.05.2017 [10:00], Иван Грудцын

Эра NVIDIA Volta началась с ускорителя Tesla V100

На конференции GTC 2017 в американском городе Сан-Хосе компания NVIDIA в лице её генерального директора Дженсена Хуанга (Jen-Hsun Huang) представила ускоритель Tesla V100 для дата-центров на основе графического процессора Volta GV100. Разработка последнего обошлась NVIDIA в $3 млрд, и в результате свет увидел чип площадью 815 мм², содержащий 21,1 млрд транзисторов, более 5000 потоковых процессоров и новые блоки Tensor, повышающие производительность GPU в так называемых матричных вычислениях. Изготовление ядер GV100 было поручено давнему партнёру NVIDIA — тайваньскому полупроводниковому гиганту TSMC. Техпроцесс выпуска — 12-нм FFN. Последняя буква в аббревиатуре FFN обозначает не что иное, как «NVIDIA»: технологическая норма разрабатывалась с учётом требований заказчика.

Tesla V100

Tesla V100

Из года в год сложность архитектуры кремниевых кристаллов для HPC-задач продолжает расти, и теперь, с дебютом NVIDIA Volta, остаётся констатировать, что помимо потоковых процессоров, кеш-памяти первого и второго уровней, текстурных блоков, контроллеров VRAM и системного интерфейса, частью high-end GPU становятся блоки Tensor. У GV100 их по 8 на мультипроцессорный кластер (SM) и 672 в целом.

SM-блок Volta GV100

SM-блок Volta GV100

Матричные вычисления в блоках Tensor увеличивают производительность нового ядра в задачах машинного обучения до 120 Тфлопс. В то же время быстродействие GV100 в FP32-вычислениях составляет 15 Тфлопс, а в FP64-вычислениях — 7,5 Тфлопс.

Ядро Volta GV100

Volta GV100

Ядро Volta GV100 неотделимо от буферной памяти — четырёх микросхем HBM2, взаимодействующих с GPU по 4096-битной шине. Объём каждого чипа составляет 4 Гбайт, пропускная способность подсистемы памяти — 900 Гбайт/с. Кристалл GV100 дебютирует одновременно с ускорителем Tesla V100, являясь его основой. В V100 ядро работает на частоте до 1455 МГц (с учётом динамического разгона) обеспечивая вышеуказанную производительность в FP32-, FP64- и матричных (Tensor) вычислениях. Адаптер с GPU впечатляющих размеров потребляет умеренные 300 Вт — столько же, сколько и Tesla P100.

Спецификации ускорителей NVIDIA Tesla разных лет

Спецификации ускорителей NVIDIA Tesla разных лет

Вычислительные возможности Volta GV100

Вычислительные возможности Volta GV100

По эскизу в начале данной заметки можно было догадаться, что соединение Tesla V100 с такими же ускорителями и центральным процессором обеспечивает интерфейс типа NVLink. В этот раз это не интерфейс первого поколения, а NVLink 2.0 — соответствующие контакты находятся на тыльной поверхности карты. В Tesla V100 реализовано шесть двунаправленных 25-Гбайт соединений (суммарно 300 Гбайт/с), а также функция согласования содержимого кеш-памяти с кешем центрального процессора IBM POWER9.

Распространение новых HPC-ускорителей будет осуществляться по межкорпоративным (B2B) каналам. При этом заказчики получат свободный выбор между готовыми решениями вкупе с сопутствующим программным обеспечением и технической поддержкой. Все три системы — DGX-1, HGX-1 и DGX Station — предназначены для решения задач, связанных с развитием искусственного интеллекта (AI).

С системой глубинного обучения NVIDIA DGX-1 первого поколения мы уже знакомили читателей — она использует восемь ускорителей Tesla P100 с производительностью 170 Тфлопс в вычислениях половинной точности (FP16). Обновлённый сервер DGX-1 содержит восемь карт Tesla V100 с быстродействием 960 Тфлопс (FP16), два центральных процессора Intel Xeon и блок(-и) питания суммарной мощностью не менее 3200 Вт. Такой апгрейд позволяет выполнять не только типичные задачи в области исследования AI, но и переходить к новым, целесообразность решения которых прежде была под вопросом ввиду высокой сложности вычислений.

Предварительный заказ системы NVIDIA DGX-1 второго поколения обойдётся всем желающим в $149 000. Ориентировочный срок начала поставок — третий квартал текущего года.

Сервер HGX-1 на восьми ускорителях Tesla V100 аналогичен DGX-1. Ключевое отличие данной системы заключается в применении жидкостного охлаждения компонентов. Кроме того, NVIDIA HGX-1 проще внедрить с ИТ-инфраструктуру компаний. Помимо глубинного обучения, этот сервер может использоваться в экосистеме GRID, а также для решения широкого круга HPC-задач.

NVIDIA HGX

NVIDIA DGX Station представляет собой высокопроизводительную рабочую станцию с четырьмя картами Tesla V100, центральным процессором Intel Xeon, системой жидкостного охлаждения и 1500-ваттным источником питания. Ускорители NVIDIA в составе DGX Station оснащены интерфейсом NVLink 200 Гбайт/с и тремя разъёмами DisplayPort с поддержкой разрешения 4K.

В матричных Tensor-вычислениях  DGX Station обеспечивает быстродействие на уровне 480 Тфлопс. Стоимость рабочей станции для рынка США равна $69 000.

Постоянный URL: http://servernews.ru/952008
Система Orphus