Материалы по тегу: nvidia

22.11.2018 [12:50], Андрей Созинов

SC18: Supermicro показала аналог NVIDIA HGX-2 и систему с 320 линиями PCIe

Компания Supermicro также не пропустила выставку SC18 и представила на своём стенде ряд весьма интересных систем и решений. Чего только стоит система, которая обладает 320 линиями PCI Express.

Но начнём с более традиционных систем. Supermicro продемонстрировала универсальное решение X11 SuperBlade высотой 8U, которое предлагает размещение в одном корпусе до десяти полноразмерных блейд-серверов с четырьмя процессорами каждый, и до двадцати блейд-серверов половинной высоты с парами процессоров. В обоих случаях это означает установку до 40 процессоров Intel Xeon Scalable, причём поддерживаются все модели (TDP до 205 Вт).

В свою очередь система с кодовым названием SYS-X029GP-TNVRT представляет собой аналог NVIDIA HGX-2, который построен на той же платформе, но имеет свои особенности. Новинка Supermicro также включает в себя 16 ускорителей вычислений Tesla V100 в исполнении SXM3, которые объединены друг с другом с помощью NVSwitch. Также будет доступен вариант с ускорителями в виде карт PCI Express.

Мостик NVSwitch

Мостик NVSwitch

Помимо ускорителей NVIDIA новая система Supermicro включает в себя пару процессоров Intel Xeon Scalable и до 16 накопителей с интерфейсом NVMe. Собственно, это в первую очередь и отличает её от фирменной системы NVIDIA HGX-2. Хотя предназначение у обеих систем одинаковое: ИИ, HPC и прочие подобные задачи, требующие большой вычислительной мощности.

А вот система Supermicro, способная обеспечить сразу 320 линий PCI Express пока что названия не получила. Данная платформа построена на паре процессоров Intel Xeon Scalable и обладает 20 слотами PCI Express 3.0, каждый из которых работает в режиме x16. Конечно же, у процессоров нет столько линий PCI Express 3.0, поэтому чтобы их обеспечить были использованы PLX-чипы Broadcom 9797.

На данный момент эта платформа позиционируется в качестве решения для ускорителей вычислений NVIDIA Tesla T4. Данные ускорители предназначены для работы с искусственным интеллектом, например, для запуска готовых нейронных сетей для множества клиентов. Заметим, что Supermicro позиционирует свою новинку как универсальную платформу для инференса нейронных сетей, поэтому установить в неё можно будет и другие ускорители, подобные Tesla T4.

Система под Intel Ruler

Система под Intel Ruler

Наконец, были показаны две системы хранения данных, способные работать с «линеечными» твердотельными накопителями. Одна из систем предназначена для установки до 32 накопителей Intel Ruler, например, Intel DC 4500. Другая же способна принять до 36 «линеечных» накопителей Samsung NF-1. Intel готовит накопители типа Ruler объёмом до 32 Тбайт, что в сумме даст 1 Пбайт хранилища в одной системе. У Samsung пока что доступны лишь накопители на 16 Тбайт, что даст также немалые 576 Тбайт на одну систему. Заметим, что оба типа накопителей весьма похожи, и сейчас Intel и Samsung спорят, чей стандарт должен стать индустриальным.

Система под Samsung типа NF-1

Система под Samsung NF-1

Постоянный URL: http://servernews.ru/978550
22.10.2018 [12:21], Сергей Карасёв

Cirrus7 AI-Box: платформа для систем автоматизации и машинного зрения

Для заказа доступна система Cirrus7 AI-Box, использующая связку из аппаратного изделия NVIDIA Jetson TX2 и программной платформы Ubuntu Linux.

Новинка рассчитана на решение задач, связанных с машинным зрением и автоматизацией. Устройство заключено в алюминиевый корпус с габаритами 155 × 120 × 49 мм.

Решение NVIDIA Jetson TX2 включает два вычислительных узла Denver 2 и четыре ядра Cortex-A57. Модуль оснащён 256-ядерным графическим процессором NVIDIA с архитектурой Pascal и 8 Гбайт оперативной памяти LPDDR4.

Вычислительная система Cirrus7 AI-Box оборудована флеш-накопителем eMMC вместимостью 32 Гбайт. Имеется интерфейс HDMI 2.0a с возможностью вывода изображения в формате 4К.

Оснащение включает гигабитный сетевой контроллер и адаптер беспроводной связи Wi-Fi. Для подключения периферии предусмотрены два порта USB 3.0 и один порт USB 2.0.

Важно отметить, что система не производит шума при работе благодаря пассивному охлаждению.

Цена Cirrus7 AI-Box начинается с 969 евро. 

Постоянный URL: http://servernews.ru/977116
15.10.2018 [15:54], Сергей Юртайкин

NVIDIA анонсировала платформу для анализа данных при помощи GPU

NVIDIA анонсировала платформу Rapids, при помощи которой крупные компании могут анализировать огромные массивы данных и делать точные прогнозы для бизнеса, используя возможности графических ускорителей.

Rapids включает набор библиотек с открытым исходным кодом для аналитики и машинного обучения, а позже к ним должны добавиться средства визуализации данных.

В NVIDIA сообщили, что первые испытания Rapids с использованием алгоритма машинного обучения XGBoost на системе Nvidia DGX-2 показали 50-кратное ускорение по сравнению с системами только для CPU. Это позволяет сократить время обучения с нескольких дней до нескольких часов и с нескольких часов до нескольких минут в зависимости от объёма набора данных.

«Взяв за основу CUDA с ее глобальной экосистемой, мы создали платформу GPU-ускорения Rapids в тесном сотрудничестве с разработчиками открытого ПО. Она легко интегрируется в самые распространенные библиотеки обработки данных и существующие процессы для ускорения машинного обучения. Мы разгоняем машинное обучение так же, как мы разгоняли глубокое обучение», — заявил глава NVIDIA Дженсен Хуанг (Jensen Huang).

Отмечается, что новая платформа обеспечивает прирост производительности в таких задачах, как предсказание мошенничества в операциях с кредитными картами, прогноз запаса товаров на складе и прогнозирование покупательского поведения потребителей.

Постоянный URL: http://servernews.ru/976792
01.10.2018 [23:30], Иван Грудцын

NVIDIA открыла возможность предзаказа ускорителя Quadro RTX 6000

Новое поколение видеокарт NVIDIA Turing приковывает к себе всеобщее внимание, пока AMD лишь планирует выпустить широкий ассортимент 7-нм решений. Сегодня ускорители GeForce RTX 20 покоряют крупнейшие рынки, прощупывая почву для выпуска менее дорогих и потенциально более продаваемых моделей. Параллельно NVIDIA налаживает каналы поставок родственных GeForce RTX 2080/2080 Ti профессиональных адаптеров Quadro RTX с индексами 5000, 6000 и 8000.

Первенцем в рамках новой серии Quadro, судя по всему, станет ускоритель RTX 6000. На сайте nvidia.com уже указана его стоимость по предзаказу — 6300 долларов США. При оформлении заявки стоит учитывать, во-первых, географические ограничения для осуществления доставки (предложение актуально для США, Пуэрто-Рико, Виргинских островов и Канады), во-вторых, длительный срок выполнения заказа (несколько недель) и, в-третьих, количественное ограничение в пять устройств на одного клиента.

Преемник карты Quadro P6000 в соответствующем ценовом сегменте превосходит её по крайней мере на треть по «чистой» производительности (16,3 Тфлопс против 12 Тфлопс для FP32-вычислений). Ускоритель RTX 6000 оперирует 4608 потоковыми процессорами Turing, 384-битной шиной памяти и тем же объёмом буферной памяти в 24 Гбайт, что и P6000, но с более высокой пропускной способностью — за счёт перехода с GDDR5X на GDDR6. На панели видеовыходов, наряду с привычными разъёмами DisplayPort 1.4, прописался единичный USB 3.1 Type-C/VirtualLink (вместо DVI-D).

Quadro RTX 6000

Quadro RTX 6000

Найдётся, однако, немало желающих подождать релиза флагманской карты NVIDIA для создателей цифрового контента — Quadro RTX 8000 стоимостью $10 000. Она основана на том же графическом процессоре, что и RTX 6000 (TU102GL), но при этом располагает вдвое бóльшим объёмом памяти GDDR6 в 48 Гбайт и тактуется на повышенных частотах ядра и памяти. Система охлаждения ускорителя должна быть достаточно продвинутой для отвода более 300 Вт тепла, поскольку даже младшее решение RTX 6000 потребляет 295 Вт в пике нагрузки.

Официальная страница третьего дебютанта — Quadro RTX 5000 — пока не содержит информации о его стоимости. Ранее NVIDIA обещала установить ценник на RTX 5000 в $2300, и, скорее всего, так оно и будет. Устройство представляет собой сочетание 3072 потоковых процессоров Turing, 256-битной шины памяти и чипов GDDR6 общим объёмом 16 Гбайт. В RTX 5000 легко узнать аналог игровой видеокарты GeForce RTX 2080, в арсенале которой значится вдвое меньше памяти и меньшее количество шейдерных блоков — 2944 шт.

Quadro RTX 5000

Quadro RTX 5000

По «чистой» производительности Quadro RTX 5000 опережает Quadro P5000 на скромные 26 % (11,2 Тфлопс против 8,9 Тфлопс), но зато лучше подходит для рендеринга сцен с применением технологий трассировки лучей.

Постоянный URL: http://servernews.ru/976189
14.09.2018 [00:00], Константин Ходаковский

NVIDIA представила Tesla T4 — самый быстрый ИИ-ускоритель для ЦОД

NVIDIA вслед за профессиональной графикой Quadro RTX и игровыми ускорителями GeForce RTX представила на GTC 2018 в Японии новое семейство GPU для машинного обучения и анализа информации в центрах обработки данных. Новые решения Tesla T4 («T» в названии означает новую архитектуру Turing) являются преемниками текущего семейства GPU P4, которые сейчас предлагают практически все крупные поставщики облачных вычислений. По словам NVIDIA, Google будет в числе первых компаний, которые задействуют в своей облачной платформе ускорители T4.

NVIDIA утверждает, что T4 значительно быстрее, чем P4. Например, в задачах принятия решений, связанных с лингвистикой, T4 в 34 раза быстрее, чем CPU и более чем в 3,5 раза быстрее, чем P4. Пиковая производительность T4 составляет 260 TOPS для 4-битных целочисленных операций INT4, 130 TOPS — для INT8 и 65  терафлопс для смешанных тензорных операций FP16. При обычных расчётах с плавающей запятой FP32 обещана пиковая производительность в 8,1 терафлопс.

Низкопрофильная карта T4 предназначена для установки в стандартный 75-Вт слот PCI Express. Это означает, что для установки в 1U, 4U или иные стандартные серверные стойки не требуется думать о внешнем источнике питания: достаточно возможностей слота PCIe. А низкопрофильная конструкция обеспечивает широкую совместимость с самыми разными серверами.

Но главное, что NVIDIA разработала эти чипы специально для процессов логического умозаключения в искусственном интеллекте. «Столь эффективным графическим процессором для задач принятия решений Tesla T4 делают новые тензорные ядра архитектуры Turing, — подчеркнул вице-президент и руководитель по бизнесу ЦОД в NVIDIA Tesla Ян Бак (Ian Buck). — Исполнительный директор Дженсен Хуанг (Jensen Huang) уже говорил о тензорных ядрах и о том, что они могут предложить в играх, задачах рендеринга и в области ИИ, но они прежде всего предназначены для наибольшей эффективности в процессах логического умозаключения». Сообщается, что ускоритель включает 320 тензорных ядер и 2560 ядер CUDA Turing.

Поскольку объем онлайн-видео продолжает расти экспоненциально, спрос на решения для эффективного поиска и извлечения информации из видео также увеличивается. Tesla T4 обеспечивает высокую производительность и для задач, связанных с ИИ-анализом видео. А отдельные блоки перекодировки видеопотока обеспечивают двукратный рост производительности декодирования по сравнению с GPU предыдущего поколения. T4 может декодировать до 38 потоков видео 1080p, что позволяет легко интегрировать масштабируемое глубинное обучение в видеопрограммы для создания новых интеллектуальных услуг.

В дополнение к собственно Tesla T4 компания также представила обновление своего программного обеспечения TensorRT 5 для оптимизации моделей глубинного обучения. Эта новая версия также включает в себя сервер принятия решений TensorRT, полностью контейнерный микросервис для процессов логического умозаключения в центрах обработки данных, который легко подключается к существующей инфраструктуре Kubernetes.

Постоянный URL: http://servernews.ru/975330
03.09.2018 [17:07], Сергей Юртайкин

Dell EMC представила готовые решения для ИИ-сред

Компания Dell EMC анонсировала комплексные решения, которые упрощают среды искусственного интеллекта (ИИ) и помогают быстрее получать более глубокую аналитическую информацию.

В ассортименте производителя появились системы Dell EMC Ready Solutions for AI с технологиями Hadoop для машинного обучения и NVIDIA для глубинного обучения. Они, по словам разработчиков, улучшают эффективность анализа данных максимум на 30 % и сокращают время до запуска на 6–12 месяцев в сравнении с самостоятельным внедрением.

Благодаря новой инициативе компаниям не нужно самостоятельно собирать решения от различных поставщиков. Вместо этого они могут воспользоваться комплектом заранее выбранных и подготовленных технологий Dell EMC: программным обеспечением — включая ИТ-фреймворки и библиотеки, — серверами, системами хранения данных и сетевыми компонентами.

Dell EMC также предлагает услуги — от консультирования до развёртывания, поддержки и обучения — для того, чтобы помочь клиентам быстрее внедрять ИИ и оптимизировать ИИ-среды.

Dell EMC Ready Solutions for AI для глубинного обучения включает серверы PowerEdge R740xd и C4140 с четырьмя графическими ускорителями NVIDIA Tesla V100SXM2 Tensor Core и системы хранения данных Dell EMC Isilon F800.

Постоянный URL: http://servernews.ru/974904
28.07.2018 [14:30], Геннадий Детинич

В платформах Google для машинного обучения могут появиться NVIDIA Tesla P4

Как стало известно в ходе конференции Google Cloud Next 18, компания Google может дополнить свои облачные платформы по машинному обучению аппаратными решениями компании NVIDIA. Это довольно неожиданный шаг, поскольку для этих задач Google самостоятельно разрабатывает аппаратные ускорители Tensor Processing Unit (TPU) на базе ASIC. Оправданием этому может служить тот факт, что GPU NVIDIA в виде семейства решений Tesla пользуются широкой популярностью в отрасли как основа для платформ с машинным обучением.

Google TPU

Google TPU

Вместе с ускорителями Google TPU обещают соседствовать слегка устаревшие, но оптимальные для работы с разнообразными ML-моделями адаптеры NVIDIA Tesla P4. Решения выпускаются в виде 50-Вт и 75-Вт PCIe-карт. Максимальная производительность Tesla P4 для вычислений с одинарной точностью достигает 5,5 TFLOPS. Кроме этого ускоритель NVIDIA способен ускорять обработку видеопотоков (одновременно до 18 с разрешением Full HD) и обладает возможностью работать в составе виртуальных машин. Основная задача, которая будет возложена на Tesla P4 — это принятие решений, а не обучение, хотя GPU способны работать более-менее оптимально с целым спектром моделей, в отличие от того же Google TPU.

В случае использования Tesla P4 в составе обучающихся платформ Google (для обучения) выигрыш может оказаться в упрощении потоков данных, и это не создаст трудностей разработчикам, уже погрузившимся в фреймворк Google TensorFlow. Последний имеет тесную связь с NVIDIA TensorRT и может быть экспортирован для запуска на движке NVIDIA. Что также немаловажно, решения NVIDIA на базе GPU работают с существенно меньшими задержками, чем процессоры общего назначения, что крайне важно для операций с принятием решений. Разработчики Google, например, продемонстрировали 27-кратное превосходство Tesla P4 над процессорами Intel Xeon по параметру соотношения числа обработанных с секунду изображений на ватт.

В области облачных платформ для машинного обучения и принятия решений компании Google необходимо успешно соперничать с платформами Amazon AWS и Microsoft Azure. Последние не отказываются от продуктов NVIDIA Tesla, так что Google может взять от конкурентов лучшее, а не только полагаться на собственные аппаратные разработки.

Постоянный URL: http://servernews.ru/973224
04.06.2018 [09:00], Андрей Крупин

REG.RU запустил сервис облачных вычислений на базе NVIDIA GPU

Регистратор и хостинг-провайдер REG.RU дополнил свою облачную B2B-инфраструктуру новым сервисом высокопроизводительных GPU-вычислений, предназначенным для решения задач, связанных с искусственным интеллектом и машинным обучением.

В основу нового сервиса положены  GPU-ускорители Tesla V100 с архитектурой NVIDIA Volta, производительность которых в задачах глубокого обучения может достигать 125 терафлопс. Исходя из потребностей пользователя, в рамках услуги можно подключить до 8 вычислительных ускорителей к одному виртуальному контейнеру либо арендовать физический сервер целиком.

Для максимальной производительности и удобства работы при обучении нейросетей облако REG.RU сделано совместимым с контейнерами NVIDIA GPU Cloud (NGC) — это сэкономит время пользователя на разворачивании и последующей работе с ПО. Репозитарий NGC обеспечивает свободный доступ к каталогу GPU-ускоренных контейнеров, который включает ведущие фреймворки и оптимизированное NVIDIA программное обеспечение для глубокого обучения, инструменты для HPC-визуализации и сторонние HPC-приложения.

Получить доступ к системе облачных вычислений REG.RU на базе NVIDIA GPU можно по ссылке reg.ru/cloud-services/cloud_gpu. Заказать услугу «Облачные вычисления на GPU» можно в формате посуточной или помесячной оплаты. Стоимость одного ускорителя Tesla V100 составляет от 2500 рублей в сутки или 80 тысяч рублей в месяц и может меняться в зависимости от потребностей клиента.

Материалы по теме:

Источник:

Постоянный URL: http://servernews.ru/970677
26.04.2018 [14:20], Андрей Крупин

Mail.Ru Group запустила сервис облачных вычислений на базе NVIDIA GPU

Компания Mail.Ru Group дополнила свою облачную B2B-инфраструктуру Mail.Ru Cloud Solutions (MCS) новым сервисом высокопроизводительных GPU-вычислений, предназначенным для решения задач, связанных с искусственным интеллектом и машинным обучением.

В основу нового сервиса положены  GPU-ускорители Tesla V100 с архитектурой NVIDIA Volta, производительность которых в задачах глубокого обучения достигает внушительных 125 терафлопс. Пользователи MCS могут заказать нужный объём вычислительных ресурсов с посекундной тарификацией для сокращения расходов и в случае необходимости оперативно масштабировать облачную инфраструктуру.

«Распределённые вычисления — задача непростая. Не имея прямого доступа к вычислительным мощностям, разработчики не могут быстро проверить свою идею, что тормозит развитие IT в России. Mail.Ru Group стремится сделать современные технологии максимально доступными. С запуском облачных вычислений на GPU любой желающий может взять в аренду современные графические процессоры и проверить свои гипотезы. Мы искренне надеемся, что доступ к возможностям высокопроизводительных GPU NVIDIA в облаке даст плоды в виде новых технологических стартапов», — прокомментировал запуск нового продукта руководитель направления облачных и бизнес-сервисов Mail.Ru Group Егор Ганин.

Получить доступ к системе облачных вычислений Mail.Ru Cloud Solutions на базе NVIDIA GPU можно по ссылке mcs.mail.ru/gpu.

Материалы по теме:

Источник:

Постоянный URL: http://servernews.ru/968993
10.04.2018 [01:20], Алексей Степин

Тайны коммутатора NVIDIA NVSwitch

На прошедшей недавно конференции GTC (GPU Technology Conference) корпорация NVIDIA представила новый внутренний интерконнект NVSwitch, целью которой является эффективное объединение в сеть множества вычислительных процессоров Volta. Именно NVSwitch является сердцем демонстрационной системы DGX-2, аналоги которой планируется использовать в дальнейшем для постройки суперкомпьютера нового поколения Saturn V. С момента официального анонса новой технологии о ней стали известны новые детали, включая данные о внутренней архитектуре самого коммутатора NVSwitch. Как известно, вычислительные ускорители имеют три фундаментальных ограничения, влияющих на эффективность их работы в составе кластерной системы: производительность подсистемы ввода-вывода, пропускная способность памяти и объём этой самой памяти.

Кристалл NVSwitch

Кристалл NVSwitch

Последние два, впрочем, обходятся достаточно малой кровью: ускорители Volta могут нести на борту до 32 Гбайт памяти типа HBM2, которая, к тому же, может прокачивать до 900 Гбайт/с. Но по мере масштабирования системы проблема I/O встаёт всё острее, поскольку скорости, приведённые выше, сетям и сетевым средам пока недоступны, а значит, на задачах с большой степенью параллелизации главным фактором, ограничивающим производительность, может стать именно сеть. Это подтверждают и результаты тестирования суперкомпьютеров с помощью новой методики, о чём мы недавно рассказывали нашим читателям.

Его функциональные блоки

Его функциональные блоки

Решить эту проблему и призвана технология NVIDIA NVSwitch. Само сердце технологии, чип-коммутатор может работать в разных топологиях. Как уже было сказано, впервые он найдёт применение в системе DGX-2, поставки которой должны начаться в третьем квартале. NVIDIA пока не предполагает использование этого коммутатора для сетевого соединения нескольких «корпусов», то есть, в качестве, «внешнего интерконнекта», но это не значит, что разработчики суперкомпьютеров не решат попробовать новинку и в качестве такого решения.

Выглядит снимок кристалла NVSwitch довольно впечатляюще, что неудивительно, поскольку состоит этот кристалл из 2 миллиардов транзисторов. Предположительно, в его производстве задействован 12-нм техпроцесс класса FinFET, разработанный TSMC, но компания-разработчик хранит по этому поводу молчание, по крайней мере, пока. Архитектурно в составе NVSwitch можно выделить два блока по 8 портов NVLink плюс два дополнительных порта этой шины. Система соединений (кроссбар) работает в неблокирующем режиме, так что любой из портов NVLink в правом или левом модуле может напрямую работать с одним из двух портов в верхнем модуле. Это существенно отличает реальный чип от опубликованных в момент анонса данных о технологии NVSwitch.

Один из слайдов NVIDIA

Один из слайдов NVIDIA

На предыдущих слайдах изображено 16 чипов в 8 парах, соединённых друг с другом на скорости 300 Гбайт/с (150 Гбайт/с в каждую сторону) с тотальной пропускной способностью, достигающей 2,4 Тбайт/с. Но NVSwitch имеет 18 портов, поэтому при подключении 16 процессоров Volta остаётся место для дальнейшего расширения конфигурации. Если блок-схема DGX-2, продемонстрированная на презентации, верна, то в ней имеется 12 коммутаторов NVSwitch, но тогда не все порты остаются задействованными.

Это позволяет предположить, что 16-процессорая версия DGX-2 является пилотной, а дизайн NVSwitch создан с заделом на будущее и позволяет создавать, к примеру, 32-процессорные системы в одном корпусе-узле. Пока этому мешает текущая версия модуля backplane, которой оснащается DGX-2, но архитектурного запрета на создание системы с теми же 32 вычислительными GPU нет. Точных данных о топологии DGX-2 пока нет, на имеющемся слайде видны по шесть «толстых» шин на каждую «половину» кластера. С учётом свободных портов, скорость «общения половин» между собой может достигать 6 Гбайт/с (3 Гбайт/с в каждую сторону). 

Из этого слайда топология DGX-2 не ясна

Из этого слайда топология DGX-2 не ясна

Были различные предположения о топологии, включая схему «двойное кольцо», но в худшем сценарии такая схема соединяет два ГП через шесть «скачков» (hops), а это не лучший вариант с точки зрения латентности. NVIDIA употребляет термин «fully connected crossbar internally» по отношению к NVSwitch, но не говорит этого про систему в целом и про соединение между двумя половинами DGX-2. Если предположить, что для соединения используется пара «верхних» портов коммутатора, то ГП могут быть соединены попарно, но тогда для полноценного соединения всей системы в единое целое потребуются иные механизмы, например, дополнительные соединения PCI Express, что выглядит не слишком осмысленным, если сравнить скорости PCIe и декларируемые NVIDIA цифры, относящиеся к NVLink.

Как оказалось впоследствии и было подтверждено официально, 12 «лишних» портов NVLink в NVSwitch не задействованы в DGX-2. Топология внутренней сети в новой системе проще, и каждый из шести портов в Volta соединён с одним из NVSwitch «сверху». Аналогичным образом подключается восьмёрка ГП «снизу». Такая схема позволяет добиться латентности в два «хопа» между двумя любыми ГП на одной «половине» системы, а если требуется коммуникация между разными половинами, то количество «хопов» увеличивается до трёх.

А так она выглядит на самом деле

А так она выглядит на самом деле

Разумеется, это не единственный сценарий: в данном варианте использовано всего 6 чипов NVLink для каждой половины, но ничто не мешает увеличить их число до, скажем, двенадцати. Новая система весьма эффективна: для демонстрации NVIDIA использовала пару серверов DGX-1 с 8 ГП Volta V100 в каждом. Они были соединены между собой четырьмя каналами InfiniBand с совокупной пропускной способностью 400 Гбит/с. Сравнительные тесты показали более чем двукратное (от 2,4 до 2,7x) превосходство системы DGX-2, использующей новые технологии с NVSwitch во главе.

DGX-2 ставит новые рекорды

DGX-2 ставит новые рекорды

Выглядит новая технология очень многообещающе, но интересно будет взглянуть, как она поведёт себя при увеличении количества вычислительных узлов, ведь модули DGX-2 придётся как-то соединять между собой, и не поглотит ли это все преимущества в случае постройки достаточно крупного кластера? Есть вариант NUMA, но практический предел, достигнутый на сегодня, составляет 128 процессоров; более того, после 32 процессоров в такой схеме критическую роль начинают играть очереди запросов и задержки. Как только DGX-2 начнёт поставляться массово, мы, скорее всего, узнаем ответ.

Постоянный URL: http://servernews.ru/968189
Система Orphus