Материалы по тегу: tesla v100
20.11.2019 [10:41], Алексей Степин
SC19: компактный суперкомпьютер ScaleMatrix AI Anywhere можно развернуть где угодноНе так много времени прошло с тех пор, когда суперкомпьютеры были огромными машинами, занимавшими целый зал, а то и не один. Строились такие монстры годами, ввод в эксплуатацию тоже не всегда был прост и занимал достаточно много времени. А сегодня система с аналогичными суперкомпьютерам недавнего прошлого возможностями занимает совсем немного места и может быть быстро развёрнута практически где угодно, как утверждает компания ScaleMatrix. На выставку, сопутствующую конференции SC19, ScaleMatrix привезла компактные модульные платформы с говорящим названием AI Anywhere, способный предложить уровень производительности 8 или 13 петафлопс в весьма скромных габаритах. В основе новой разработки лежат шасси DDC Cabinet Technology серии S с интегрированной гибридной водо-воздушной системой охлаждения. При габаритах основания всего 61 × 201 сантиметр и высоте 288 сантиметров эти шасси вмещают до 45 стандартных «юнитов» и могут обеспечить устанавливаемую начинку мощностью от 17 до 52 киловатт, в зависимости от комплектации. Если верить анонсу компании-разработчика, для развёртывания AI Anywhere достаточно крыши и подведённого к месту установки трёхфазного питания. Основой новых систем являются вычислительные серверы NVIDIA DGX-1 (40960 ядер Volta, 1 Пфлопс) или DGX-2 (81920 ядер Volta, 2 Пфлопс), причём в обоих случаях используются ускорители Tesla V100 с быстрой шиной NVLink 2.0. Таких серверов в системе AI Anywhere несколько, за «общение» между ними отвечает коммутатор Mellanox класса 100GbE, а за хранение данных ‒ система NetApp A800, базирующаяся на флеш-памяти. Дополнительно в системе присутствует сервер Microway TwinPro 2U, отвечающий за вход в систему и берущий на себя функции управления и функционирования инфраструктуры Kubernetes. В комплектацию входит также микроканальный чиллер, способный отвести и рассеять до 52 киловатт тепла. DDC R-Mobile: 24U, ещё более компактное решение, нежели AI Anywhere. Вмещает четыре сервера NVIDIA DGX-1. Аппаратное обеспечение мертво без ПО и настройки, и ScaleMatrix предоставляет полный спектр услуг, связанных с установкой, наладкой и вводом в эксплуатацию систем AI Anywhere. Система поставляется с менеджером заданий SLURM, комплексом контейнеризации Kubernetes, а также средствами управления Ansible. За визуализацию отвечает Grafana, за мониторинг системы ‒ Prometheus. DDC R-1000: «кластер в ящике». В данной модели использованы серверы HPE Apollo KL20 на базе Intel Xeon Phi (Knights Landing) Комплекс услуг также включает в себя трёхлетнее профессиональное сопровождение. ScaleMatrix утверждает, что система AI Anywhere стоит дешевле аналогичных по мощности решений других поставщиков. Стоимость базовой платформы составляет $1,626 миллиона, в эту цену входят шасси, флеш-хранилище, система охлаждения, сетевая инфраструктура и серверы управления. Вычислительное «ядро» стоит от $921 тысячи до $1,84 миллиона, в зависимости от комплектации и количества ускорителей V100 (от 32 до 104). Таким образом, цена самого мощного варианта AI Anywhere не превышает $3,5 миллиона. ![]() В сравнении с суперкомпьютерами прошлых поколений это небольшая цена, особенно с учётом компактности и вычислительных возможностей AI Anywhere. Также на выставке были продемонстрированы и другие компактные вычислительные решения на базе шасси производства DDC Cabinet Technology, которая является подразделением ScaleMatrix.
18.06.2019 [19:36], Константин Ходаковский
NVIDIA DGX SuperPOD: суперкомпьютер для автопилота за три неделиNVIDIA активно вкладывается в сферу автономных автомобилей. Буквально недавно она объединила усилия с AB Volvo в разработке ИИ-платформы для автономных грузовиков. А теперь компания представила 22-й по производительности в мире (если ориентироваться на публичный рейтинг Top 500) суперкомпьютер — DGX SuperPOD. Задача этой системы — предоставить инфраструктуру ИИ, которая отвечает огромным требованиям программы развёртывания автономных транспортных средств. Система была построена всего за три недели на основе 96 суперкомпьютеров NVIDIA DGX-2H с использованием интерконнекта Mellanox. Суперкомпьютер в состоянии обеспечить 9,4 петафлопс вычислительной производительности и рассчитан на глубинное обучение массы нейронных сетей, необходимых для создания безопасного самоходного транспорта. Заказчики могут самостоятельно построить такой же суперкомпьютер, заказав аналогичные конфигурации DGX-2 у партнёров NVIDIA. DGX SuperPOD оснащён 1536 тензорными ускорителями NVIDIA Tesla V100, объединённых NVIDIA NVSwitch и интерконнектом Mellanox InfiniBand. Компания поясняет, что обучение автономного автомобиля — это сложнейшая задача, требующая больших вычислительных ресурсов. Одна машина, собирающая данные, генерирует 1 терабайт информации в час. Если умножить это на годы вождения всего автопарка, то речь идёт о петабайтах данных. Они используются для обучения авто правилам дорожного движения, а также для выявления потенциальных сбоев в нейронных сетях, работающих в автономных машинах, которые затем повторно обучаются в непрерывном цикле — суперкомпьютер трудится над этими задачами круглосуточно. «Лидерство в области требует первенства и в вычислительной инфраструктуре, — подчеркнул вице-президент по инфраструктуре ИИ в NVIDIA Клемент Фарабет (Clement Farabet). — Мало направлений ИИ столь же требовательны к ресурсам, как обучение автономных автомобилей — эта задача требует десятки тысяч раз переобучать нейронные сети, чтобы удовлетворить требованиям максимальной точности и надёжности. И здесь ничто не заменит такие мощные вычислительные ресурсы, какие имеются у DGX SuperPOD». Например, программно-аппаратная платформа DGX SuperPOD способна обучить модель ResNet-50 менее чем за две минуты. Когда эта модель появилась в 2015 году, потребовалось 25 дней, чтобы обучить её на системе с единственной картой NVIDIA K80. DGX SuperPOD работает в 18 000 раз быстрее. В то время как другие системы из списка Top 500 с сопоставимым уровнем производительности используют тысячи серверов, DGX SuperPOD занимает малое пространство — примерно в 400 раз меньше, чем его ближайшие соперники.
19.11.2018 [14:00], Андрей Созинов
SC18: ASRock Rack показала новейшие платформы для ИИ, HPC и облачных вычисленийНа выставке SC18 (Supercomputing Conference), которая на прошлой неделе прошла в Далласе, штат Техас, компания ASRock Rack представила ряд весьма интересных серверных платформ. Среди них наибольший интерес вызывают системы, ориентированные на высокопроизводительные вычисления (HPC), искусственный интеллект (ИИ) и глубокое обучение. Платформа ASRock Rack 3U10G-F/C621 (на фото) предназначена в первую очередь для центров обработки данных и систем для HPC. Она построена на двух процессорах Intel Xeon Scalable и может нести до десяти ускорителей вычислений NVIDIA Tesla V100 в версии с 32 Гбайт памяти с интерфейсом PCIe. По словам ASRock Rack, ускорители вычислений Tesla V100 способны обеспечить максимальную производительность в задачах, которые могут задействовать ускорители на GPU. Кроме того, использованные в них графические процессоры Volta содержат тензорные ядра, которые обеспечивают значительный прирост производительности в задачах, связанных с ИИ, анализом данных и HPC. Кроме этого, платформа ASRock Rack 3U10G-F/C621 обладает 16 слотами для модулей оперативной памяти DDR4 и шестью 2,5-дюймовыми отсеками для накопителей SATA или SAS. Поддерживается установка до двух накопителей с интерфейсом NVMe, а также имеется два слота PCIe. Есть и два сетевых порта с пропускной способностью 10 Гбит/с, за работу которых отвечает контроллер Intel i350. Всё это помещено в корпус высотой 3U. Ещё одной интересной платформой от ASRock Rack стала модель под названием 2U4G-EPYC, которая построена на одиночном процессоре AMD EPYC 7000-й серии. Здесь производитель предлагает установку до четырёх ускорителей вычислений в режиме PCIe x16 или до восьми ускорителей в режиме PCIe x8. Система ASRock Rack 2U4G-EPYC позволяет установить до четырёх 2,5-дюймовых SATA-накопителей и два NVMe-накопителя с интерфейсом M.2. Поддерживается до 512 Гбайт оперативной памяти DDR4-2400 или DDR4-2666, которые можно разместить в восьми слотах. Имеется и два 10-Гбит сетевых интерфейса. Всё это упаковано в корпус высотой 2U. Производитель позиционирует систему ASRock Rack 2U4G-EPYC в качестве решения для виртуализации, облачных и высокопроизводительных вычислений.
28.03.2018 [14:00], Иван Грудцын
Ускоритель NVIDIA Quadro GV100 оперирует 32 Гбайт памяти HBM2Одним из ключевых анонсов в рамках конференции GTC 2018 (26–29 марта, г. Сан-Хосе, США) стала презентация профессионального графического ускорителя NVIDIA Quadro GV100 для рабочих станций. Подобно Quadro GP100, новый адаптер назван в честь графического чипа, ставшего его основой — Volta GV100. Напомним, что последний уже используется в ускорителях Tesla V100 и TITAN V. ![]() Quadro GV100 выполнен в виде двухслотовой карты расширения с интерфейсом PCI Express 3.0 x16. Устройство характеризуется значительным сходством с TITAN V, правда, в отличие от последнего, оперирует не 12, а 32 Гбайт памяти HBM2 с более высокой пропускной способностью — 870 Гбайт/с. Ещё одно важное различие между Quadro GV100 и TITAN V заключается в том, что новая модель Quadro обладает поддержкой интерфейса NVLink с пропускной способностью 200 Гбайт/с. Наконец, вместо разъёма HDMI 2.0b на задней панели TITAN V в Quadro GV100 используется четвёртый DisplayPort 1.4. ![]() В новом ускорителе задействована полноценная версия 12-нм ядра NVIDIA GV100 с 5120 потоковыми процессорами Volta, 320 TMU, 128 ROP и 640 блоками матричных вычислений (Tensor). Разрядность шины памяти составляет 4096 бит, частотная формула — 1450/850(1700) МГц для ядра (с учётом boost-режима) и памяти HBM2 соответственно. «Чистая» производительность Quadro GV100 оценивается в 7,4 Тфлопс для операций с числами двойной точности, 14,8 Тфлопс — одинарной, и 118,5 Тфлопс — Tensor-вычислений. Перечень поддерживаемых Quadro GV100 разрешений включает 4 × 4096 × 2160 при 120 Гц (т. е. предусмотрена возможность подключения четырёх 120-Гц 4K-мониторов), 4 × 5120 × 2880 при 60 Гц и 2 × 7680 × 4320 при 60 Гц. В числе поддерживаемых технологий отдельно упоминаются NVIDIA RTX (трассировка лучей в реальном времени), API OptiX (графический движок с поддержкой трассировки лучей), Microsoft DXR и Vulkan. Рекомендованная цена нового ускорителя для заказчиков из США составляет $9000 без учёта налога с продаж. ![]() Параллельно стало известно о переводе HPC-ускорителя Tesla V100 на конфигурацию кристалла GPU с двойным объёмом буферной памяти HBM2 — 32 Гбайт. Изменения затронули как SMX2-версию V100, так и вариант данного адаптера в виде карты расширения PCI-E. Повлияло ли обновление ускорителя на его стоимость, пока не ясно. ![]() ![]()
28.03.2018 [12:10], Сергей Карасёв
Сервер GIGABYTE G190-G30 формата 1U допускает установку четырёх ускорителей Tesla V100Компания GIGABYTE анонсировала сервер G190-G30 формата 1U, рассчитанный на монтаж в стойку. Решение допускает установку двух процессоров Intel Xeon E5-2600 v4 или Xeon E5-2600 v3. Предусмотрены 16 слотов для модулей оперативной памяти DDR4-2133/2400, ёмкость каждого из которых может достигать 128 Гбайт. ![]() Сервер может комплектоваться четырьмя ускорителями NVIDIA Tesla V100/P100 в форм-факторе SXM2. Предусмотрены два слота PCIe x16 (Gen3 x8) для низкопрофильных карт расширения. ![]() Сервер имеет размеры 440 × 43,5 × 900 мм. Возможно использование четырёх 2,5-дюймовых накопителей с поддержкой «горячей» замены. Оснащение включает двухпортовый сетевой контроллер GbE LAN (Intel I350-AM2) и порт 10/100/1000 Management LAN. Устройство оборудовано двумя блоками питания мощностью 2000 Вт каждый. ![]() Сервер допускает использование программных платформ Windows Server, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Ubuntu и VMware ESXi. Информации об ориентировочной цене новинки на данный момент, к сожалению, нет.
07.12.2017 [18:44], Алексей Степин
Новый кластер NVIDIA Saturn V: некоторые подробностиКрупнейшие разработчики и производители микропроцессоров не очень-то любят рассказывать о своих проектах суперкомпьютеров, и информацию о таких проектах буквально приходится выцеживать по крупицам. Оригинальный узловой сервер NVIDIA DGX-1, являющийся основой кластера Saturn V, был представлен ещё на конференции SC16. Вся система состояла из 124 серверов DGX-1P, в каждом из которых было установлено по два 20-ядерных процессора Broadwell-EP с частотой 2,2 ГГц и по 8 ускорителей на базе Pascal P100 в форм-факторе SXM2, позволявшим пользоваться интерфейсом NVLink 1.0. На сегодня, однако, в руках NVIDIA есть куда более подходящий ускоритель - Tesla V100, чьи тензорные ядра делают его отличным решением для задач машинного обучения. ![]() С четырьмя узлами DGX-1P, каждый из которых, к слову, мог потреблять до 3200 ватт, система смогла достичь пиковой производительности 4,9 петафлопса на вычислениях двойной точности. Тест матричной математики Linpack Fortran показал 67,5 % эффективности (3,31 петафлопса), что обеспечило системе 28 место в списке Top 500 на ноябрь 2016 года. Стоимость Saturn V составила $13 миллионов. Если бы процессоры Xeon имели интерфейс NVLink, производительность была бы выше, но они такового не имеют, вот почему NVIDIA вкладывает усилия в создание нового узлового сервера на базе процессоров POWER9. Назовём такую модель DGP-1V: в этом названии зашифровано сочетание POWER9 и ускорителей Volta. Новая версия NVLink 2.0 и когерентность кешей ЦП и ГП должна существенно увеличить эффективность такого сервера. ![]() От малого к большому: иерархия узлов Saturn V Новый Saturn V в максимальной конфигурации будет насчитывать до 660 узлов, оснащённых ускорителями Tesla V100; впрочем, их количество на узел останется прежним — по восемь ускорителей на корпус. Всего в системе будет 5280 процессоров Volta, что даст ей 80 петафлопс пиковой производительности на одинарной точности и 40 петафлопс — на двойной. Но что самое важное, в задачах машинного обучения, где часто используется смесь FP16 и FP32, теоретическая эффективная производительность нового Saturn V может достичь 660 петафлопс. Пока NVIDIA протестировала лишь 33-узловую конфигурацию, показавшую 1,82 петафлопса и эффективность на уровне 58,8 %, но удельная производительность составила 15,1 Гфлопс/ватт против 9,46 Гфлопс/ватт у системы предыдущего поколения. ![]() Среднее звено Дешёвой новая система не будет: стоимость одного узла в полном оснащении оценивается в $149 тысяч (против $129 тысяч у DGX-1P), и суперкомпьютер Saturn V в новом своём воплощении может обойтись в $100‒$110 миллионов, причём эта цена не включает программное обеспечение для машинного обучения и внешние файловые системы Lustre или GPFS. Но заявка у «зелёных» серьёзная: в районе следующего года NVIDIA надеется смонтировать полную 660-узловую версию Saturn V и достичь показателя 22,3 петафлопса в тестах Linpack, что выведет новый суперкомпьютер на третье место в списке Top 500. Особенно большие надежды возлагаются на задачи машинного обучения: DGX-1P мог обеспечивать в этих сценариях 170 терафлопс, а вот условный DGP-1V за счёт наличия тензорных ядер — уже 960 терафлопс или в 5,6 раз больше. ![]() Высший уровень Что касается сетевой конфигурации, то основой межузловых соединений станет стандарт InfiniBand EDR со скоростью 100 Гбит/с на кабель. Доступ к основной сети и хранилищам данных обеспечит сеть Ethernet на скорости 10 Гбит/с (несколько странно, что не использован более новый стандарт 25G), а для целей управления и телеметрии хватит и обычного канала Gigabit Ethernet. На среднем уровне коммутацию IB будут выполнять устройства Mellanox Director с 216 портами, а на высшем — ещё более мощные коммутаторы той же серии с 324 портами. Узким местом система межузловых соединений, скорее всего, не станет — у Mellanox наработан огромный опыт в этой области, и есть полный спектр решений, покрывающих все потребности NVIDIA в проектировании сетевой подсистемы нового Saturn V.
22.11.2017 [13:00], Иван Грудцын
Суперкомпьютер Summit: подробности о будущем лидере рейтинга TOP500В эти дни в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), находящейся в американском штате Теннесси, кипит работа по вводу в строй суперкомпьютера Summit, расчётная производительность которого примерно в два раза выше, чем у нынешнего рекордсмена Sunway TaihuLight с пропиской в Китае. С показателем быстродействия около 200 Пфлопс Summit опережает в том числе и своего предшественника Titan (17,6 Тфлопс), базирующегося на процессорах Opteron 6274 и HPC-ускорителях Tesla K20X. ![]() Основой Summit являются приблизительно 4600 серверных узлов IBM Power Systems AC922 «Newell». У Titan узлов в четыре раза больше (18 688 шт.), но на каждый приходится только по одному CPU и GPU. В свою очередь, у «строительного блока» Summit по два центральных и шесть графических процессоров. Узлы AC922, сочетающие в себе процессоры IBM POWER9 и HPC-ускорители NVIDIA Volta GV100 (Tesla V100), демонстрировались на недавней выставке-конференции SC17 в Денвере (штат Колорадо, США). IBM AC922 собираются в 2U-корпусах, где, кроме прочего, размещаются 16 модулей оперативной памяти DDR4-2666 общим объёмом 512 Гбайт (с возможностью расширения до 2 Тбайт), 1,6 Тбайт энергонезависимой буферной памяти для нужд основного хранилища (суммарно 250 Пбайт, интерфейс 2,5 Тбайт/с), два 2200-Вт блока питания с возможностью горячей замены и множественные узлы системы жидкостного охлаждения. ![]() СЖО замысловатой конструкции призвана справиться с шестью 300-Вт GPU и парой 190-Вт CPU. Воздушное охлаждение для тех же целей было бы не таким дорогим, но эксплуатационные расходы в таком случае могли бы значительно вырасти. Пиковое энергопотребление суперкомпьютера ожидается на уровне 13 МВт (по другим данным — 15 МВт). По этому показателю ORNL Titan скромнее с его 9 МВт в условиях максимальной нагрузки. Система питания Summit проектируется с учётом возможного усиления суперкомпьютера дополнительными узлами. После гипотетического апгрейда предельное энергопотребление может достигать 20 МВт. Согласно Tom’s Hardware, полностью собранный ORNL Summit займёт площадь двух баскетбольных площадок, то есть около 873 квадратных метров. Суммарная длина кабелей Summit составит 219 км. Прежде сообщалось, что суперкомпьютер будет готов к загрузке ресурсоёмкими научными задачами с января 2019 года. Теперь же речь идёт о его вводе в эксплуатацию в течение 2018 года. При этом, как указывает пресс-служба TOP500, Summit уже в июне возглавит обновлённый рейтинг мощнейших серверных систем, где, похоже, пропишется и NVIDIA DGX SaturnV второго поколения на 5280 ускорителях Tesla V100. ![]() Директор Национальной лаборатории Ок-Ридж Томас Закария (Thomas Zacharia) в общении с представителями ресурса top500.org подчеркнул важность ввода в эксплуатацию такого производительного суперкомпьютера, как Summit: «Один из наших коллективов разрабатывает алгоритм машинного обучения для Summit, чтобы помочь в выборе лучшего метода лечения рака у каждого конкретного пациента, — отметил г-н Закария. — Другая команда сегодня использует ресурсы Titan для проектирования и мониторинга реакторов на базе технологии управляемого термоядерного синтеза. Ещё одна группа специалистов использует машинное обучение, чтобы помочь классифицировать типы траекторий нейтрино, наблюдаемых в ходе различных экспериментов». ![]() Томас Закария (Thomas Zacharia), фото knoxnews.com Впрочем, исключительно машинным обучением дело не ограничится. Директор лаборатории Ок-Ридж упомянул о таких вариантах использования Summit, как моделирование климата, решение задач из области релятивистской квантовой химии, вычислительной химии, астрофизики, физики плазмы и биофизики. Собственно, многие проекты уже запущены либо могут быть запущены на мощностях Titan, однако нехватка производительности является препятствием для углублённых исследований. ![]() Комплекс зданий Национальной лаборатории Ок-Ридж Длительная подготовка к запуску Summit объясняется не только необходимостью предварительного тестирования тысяч серверных узлов, но и задержкой со стороны IBM, которая пока не изготовила все заказанные ORNL процессоры POWER9. Со стороны NVIDIA, наоборот, задержек нет, ведь HPC-ускорители Tesla V100 поставляются клиентам уже не первый месяц. «Сегодня Национальная лаборатория Ок-Ридж находится в завидном положении, — продолжил Томас Закария. — Мы располагаем уникальным опытом исследований в областях химии и физики материалов, нейтронной физики, ядерной физики, компьютерных наук и технических решений. Всё это в сочетании с талантом наших сотрудников позволяет решать проблемы и задачи, связанные с энергетикой, национальной безопасностью, производством и сетевой кибербезопасностью. Одна из наших основных целей заключается в том, чтобы стать ведущим исследовательским центром в мире. Это само по себе вдохновляет нас на новые свершения».
14.11.2017 [18:00], Иван Грудцын
NVIDIA строит суперкомпьютер на 5280 ускорителях Tesla V100Год назад компания NVIDIA представила суперкомпьютер DGX SaturnV для исследований в области искусственного интеллекта. Система включала 125 серверных узла DGX-1 (стоимостью $129 000 каждый) с весьма достойным соотношением производительности и энергопотребления, равным 9,46 Гфлопс/Вт. В престижном рейтинге TOP500 годичной давности сервер занял почётное 28 место, но за год опустился на восемь строчек, и в Санта-Кларе было принято решение построить подобный суперкомпьютер с бóльшим количеством узлов — 660 шт. При этом вместо DGX-1 на основе HPC-ускорителей Tesla P100 (Pascal) была сделана ставка на более мощные одноимённые узлы, оснащённые ускорителями Tesla V100 (Volta) — по восемь штук на узел, как и в DGX SaturnV первого поколения. ![]() ![]()
![]() NVIDIA DGX-1 «Пробный» сервер DGX SaturnV с несколькими десятками узлов DGX-1/V100 прописался на 149 месте в TOP500 и на почётном 4 месте в Green500. ![]() Соотношение производительности и энергопотребления выросло с 9,46 Гфлопс/Вт до 15,11 Гфлопс/Вт, но для сотен узлов нового DGX SaturnV всё равно необходимы порядка 2 МВт мощности. Таким образом, количество блоков питания измеряется уже не сотнями, как у прошлогоднего SaturnV, а тысячами. На один серверный узел DGX-1 по-прежнему приходится два 20-ядерных процессора Intel Xeon E5-2698 v4 (Broadwell-EP) с частотой от 2,2 до 3,6 ГГц. Объём оперативной памяти LRDIMM DDR4-2133 составляет 512 Гбайт на узел, также применяются четыре 1,92-Тбайт SSD-накопителя. ![]() Судя по отсутствию нового DGX SaturnV на третьей строчке в TOP500, где он мог бы оказаться с ~30 Пфлопс в Linpack, сборка суперкомпьютера займёт ещё какое-то время. Параллельно NVIDIA принимает заказы на AI-серверы с DGX-1/V100 в качестве «строительного блока». Один такой «кирпич» (узел) стоит $149 000 — на 20 тыс. долларов дороже, чем аналог на Tesla P100.
29.09.2017 [23:40], Алексей Степин
Supermicro представила новые системы на базе NVIDIA Tesla V100Одним из самых мощных вычислительных ускорителей на сегодня является NVIDIA Tesla V100, основанный на новейшей микроархитектуре Volta — она настолько нова, что на её базе пока не выпущено игровых решений. Разумеется, компания Supermicro, известнейший производитель серверных компонентов и готовых систем, не прошла мимо и объявила о поддержке обоих вариантов Tesla, как с шиной NVLink (V100 SXM2), так и в виде плат с интерфейсом PCIe (V100 PCI-E). ![]() Система SuperServer 4028GR-TXRT поддерживает установку до восьми ускорителей Tesla с разъёмом NVLink. Эта новинка предназначена для исследований в области машинного интеллекта, глубинного машинного обучения, но пригодится она и в любом месте, где требуется серьёзный объём вычислений — в науке, медицине и инженерных отраслях. Конструктивно это стандартный корпус высотой 4U, так что проблем с интеграцией в существующую инфраструктуру нет. Есть и вариант с PCIe-ускорителями V100 — 4028GR-TRT2, но эта система вмещает уже целых 10 ускорителей. За счёт использования коммутаторов PCI Express ускорители могут общаться друг с другом напрямую. ![]() Tesla V100 SXM2 (слева) и V100 PCI Express (снимок AnandTech.com) Есть и более компактные решения: так, SuperServer 1028GQ-TRT при высоте корпуса всего 1U поддерживает установку четырёх ускорителей V100. Это идеальное решение для рендеринга, медицинской визуализации и мультимедийных приложений, включая потоковые игровые сервисы. Создание приложений, оптимизированных для работы в системах с множественными ускорителями Tesla, не так-то просто, поэтому Supermicro предлагает и рабочие станции для разработчиков такого ПО. Модель 7049GP-TRT выполнена в привычном башенном корпусе и поддерживает одновременную работу до четырёх ускорителей Tesla V100 в варианте PCI Express.
17.09.2017 [20:00], Иван Грудцын
Сервер NVIDIA DGX-1 возглавил рейтинг производительности GeekbenchОнлайн-база Geekbench Browser время от времени пополняется результатами, в которых фигурируют опытные образцы комплектующих — процессоров, материнских плат, графических адаптеров и т. д. И вот недавно в ней обнаружились записи, в которых фигурировал обновлённый сервер NVIDIA DGX-1 для задач глубинного обучения. Найти результаты системы на базе восьми HPC-ускорителей Tesla V100 было совсем несложно, ведь расположились они на первом и втором местах в табели о рангах Geekbench 4. В ходе тестирования использовались разные API — OpenCL и CUDA. Прогон бенчмарка Geekbench 4 с проприетарным API NVIDIA оказался значительно более успешным, чем с альтернативным интерфейсом программирования приложений. Разница между результатами составила 54,4 % — 743 537 очков против 481 504. Лучшие результаты на ускорителях Tesla P100 сегодня выглядят совсем уж скромно на фоне успехов представителей семейства NVIDIA Volta. Лучший из них едва превысил отметку в 320 тыс. очков. ![]() Тестирование проводилось в Linux-среде (Ubuntu 16.04.2 LTS), а конфигурация сервера DGX-1, скорее всего, соответствовала базовой. По умолчанию в 3U-корпусе установлены восемь ускорителей Tesla V100 16GB HBM2 в форм-факторе SXM2 (интерфейс NVLink 2.0 с ПСП 300 Гбайт/с), дуэт 20-ядерных процессоров Intel Xeon E5-2698 v4, 512 Гбайт оперативной памяти LRDIMM DDR4-2133, четыре 1,92-Тбайт SSD-накопителя в массиве RAID 0, такое же количество блоков питания номиналом 1600 Вт каждый и множество элементов системы охлаждения. ![]() Сравнение характеристик PCI-E и SXM2-версий Tesla V100 Вычислительные возможности сервера NVIDIA DGX-1 образца 2017 года (ранее система базировалась на Tesla P100) наглядно иллюстрирует сравнение его результатов с показателями двух- и четырёхпроцессорных серверов, «заряженных» CPU Intel Xeon Platinum серии 8100. Шестикратное преимущество DGX-1 — веский аргумент в пользу решения NVIDIA. Напомним, что в матричных (Tensor) вычислениях производительность SXM2-версии Tesla V100 составляет 120 Тфлопс, а PCI-E версии — 112 Тфлопс. Последняя используется в рабочих станциях DGX Station «всего лишь» с четырьмя HPC-ускорителями NVIDIA и одним процессором Intel Xeon E5-2698 v4. Поставки серверов DGX-1 на базе решений NVIDIA Volta начались более полутора месяцев назад. За одну систему заказчикам предлагается заплатить $149 000 — на 20 тыс. долларов больше, чем за аналогичный сервер на ускорителях Tesla P100. |
|