Материалы по тегу: nvidia

08.07.2020 [14:54], Юрий Поздеев

Google запустила новые инстансы с NVIDIA A100

Google стала первым облачным провайдером, предложившим поддержку NVIDIA A100 в своих виртуальных машинах по подписке. В Google Compute Engine (пока в альфа-версии) теперь есть семейство инстансов Accelerator Optimized VM A2, основанное на графических ускорителях NVIDIA A100.

Мы уже писали про ускорители NVIDIA A100, которые обеспечивают производительность обучения и вычислений в 20 раз больше, чем прежние модели, что позволяет значительно ускорить рабочие нагрузки ИИ. Google объявила, что в будущем Google Kubernetes Engine, Cloud AI Platform и другие облачные сервисы тоже получат поддержку NVIDIA A100.

В новых инстансах Alpha Google Compute Engine пользователям доступны до 16 графических ускорителей NVIDIA A100, которые подключены через NVSwitch, таким образом это не PCI-карты, а полноценная архитектура с использованием NVLink. Анонс подобных инстансов от Google был вполне ожидаем, ведь в своей презентации NVIDIA на слайде с системой HGX A100 уже упоминала Google Cloud, поэтому появление виртуальных машин с A100 было делом времени.

Мы ожидаем, что в ближайшее время Amazon и Microsoft сделают аналогичные анонсы. На данный момент у Google доступны следующие инстансы с A100:

Будем следить за анонсами от облачных провайдеров, так как услуга по аренде вычислительных мощностей для ИИ очень востребована, и спрос на подобные решения в ближайшее время будет только расти.

Постоянный URL: http://servernews.ru/1015149
30.06.2020 [14:17], Сергей Карасёв

AMD и NVIDIA наращивают выручку в серверном сегменте

Продукты для серверов и центров обработки данных (ЦОД) вносят всё больший вклад в общий размер выручки компаний AMD и NVIDIA, ведущих разработчиков графических процессоров. По крайней мере, именно такие данные приводят аналитики DigiTimes Research.

Иллюстрации Reuters

Иллюстрации Reuters

По оценкам, в 2019 году ЦОД-направление принесло NVIDIA приблизительно $2,98 млрд дохода. Это практически в три раза больше по сравнению с результатом компании AMD, выручка которой в соответствующем сегменте составила около $1,0 млрд.

Вклад серверного направления в суммарный размер дохода NVIDIA устойчиво увеличивается. Так, в 2019 финансовом году его доля составляла около 25,0 %. В 2020-м финансовом году, который завершился 26 января, соответствующий показатель достиг 27,4 %. А в первом квартале 2021 финансового года (был закрыт 26 апреля) эта величина и вовсе составила 37,0 %.

Компания AMD также рассчитывает на рост выручки в серверном сегменте. Способствовать этому будет увеличивающаяся востребованность систем высокопроизводительных вычислений в свете стремительного развития искусственного интеллекта и машинного обучения.

В целом, как отмечается, AMD и NVIDIA рассчитывают на хорошие продажи в серверном сегменте по итогам второго квартала текущего года, несмотря на пандемию и сложную экономическую обстановку. 

Постоянный URL: http://servernews.ru/1014580
22.06.2020 [17:06], Алексей Степин

ISC 2020: платформа NVIDIA UFM Cyber-AI минимизирует простои в ЦОД

Сегодня началась конференция ISC High Performance 2020. К сожалению, в этом году мероприятие приходится проводить в онлайн-формате — победа над COVID-19 ещё не одержана. Но уже анонсирован ряд любопытных решений. Одно из них — новая платформа UFM Cyber-AI, разработанная NVIDIA при участии её нового подразделения Mellanox.

Эта платформа ставит своей целью минимизировать возможные простои в центрах обработки данных из-за проблем с аппаратной частью, сетями, либо информационной безопасностью.

Любой современный ЦОД, суперкомпьютер или кластер представляют собой совокупность большого количества стандартных «строительных блоков», обычно в классическом стоечном формате. Все эти «кубики», включающие в себя вычислительные узлы, системы хранения данных, сетевые коммутаторы, а также подсистемы питания и охлаждения, соединены между собой и работают как единое целое.

Эксплуатация такой системы стоит приличных денег и в интересах её владельца обеспечить максимальное время полезной работы при минимальном времени простоя из-за отказов тех или иных компонентов. По данным ITIC, стоимость часа простоя легко может обойтись более чем в $300 тысяч. Но при таком количестве компонентов не всегда помогает даже дублирование и горячая замена комплектующих. С этим-то и предлагает бороться NVIDIA с помощью современных технологий машинного интеллекта.

Поведение систем, входящих в комплекс ЦОД, подчиняется определённым закономерностям и при должном уровне накопления данных солидную часть потенциальных проблем можно предсказать, а значит, и предотвратить — например, путём опережающей замены того или иного блока. Именно такого рода предсказаниям и должна заниматься система UFM Cyber-AI, созданная на основе разработок Mellanox.

Сама технология не нова, принципы, заложенные в ней, применялись Mellanox в сетевых решениях на базе InfiniBand, очень популярного в мире суперкомпьютеров интерконнекта. Платформа UFM Cyber-AI является расширением UFM Enterprise. За сбор информации отвечает третий компонент, UFM Telemetry. Вместе они отслеживают все имеющие значение параметры, от температур и изменений конфигурации в системе до поведения сетевой части — уровня трафика, загруженности и т.п. Выявляются закономерности, отмечаются моменты проседания производительности и прочие отклонения.

Процесс работы и панели мониторинга и управления комплекса NVIDIA UFM

На основе профиля поведения ЦОД UFM Cyber-AI может предсказывать грядущие проблемы, а значит, их можно избежать и исправить ситуацию, не останавливая работу систем. От этого выигрывают все: владельцы избегают потерь при простое, снижается стоимость эксплуатации, пользователи не страдают от того, что их задачи внезапно перестают выполняться.

UFM — это программно-аппаратный комплекс, аналитика Cyber-AI выполняется на отдельных серверах. Платформа UFM поддерживает интеграцию с уже имеющимися в ЦОД средствами мониторинга и управления, включая Slurm и Platform LFM, также имеется интеграция с OpenStack, Azure Cloud и VMWare. Более подробные описания есть на сайте NVIDIA.

Постоянный URL: http://servernews.ru/1013952
22.06.2020 [16:01], Юрий Поздеев

Представлены серверы с поддержкой нового GPU NVIDIA A100 PCIe

NVIDIA представила A100 в форм-факторе AIC с PCIe, в дополнение к SXM4-версии, которая была представлена в прошлом месяце. Ведущие мировые производители серверов объявили о начале выпуска систем на базе новой NVIDIA A100 в различных конфигурациях для решения самых сложных задач в области ИИ, научных исследований и математических расчетов.

Более 50 производителей серверов на базе NVIDIA A100, включая ASUS, Atos, Cisco, Dell Technologies, Fujitsu, GIGABYTE, HPE, Lenovo и другие выпустят системы на базе A100 уже этим летом, но из-за высокого спроса на графические ускорители, некоторые производители отложат выпуск систем на конец года.

В болшинстве случаев анонс касается поддержки со стороны уже имеющихся популярных платформ, как на базе Intel Xeon, так и на базе AMD EPYC. Впрочем, есть и некоторые любопытные решения. Например, GIGABYTE анонсировала сервер G492, построенный на базе двухпроцессорной конфигурации AMD EPYC с поддержкой PCIe 4.0.

Данный сервер может разместить в себе до 10 NVIDIA A100, при этом для связи GPU между серверами используется GPUDurect RDMA. В остальном это обычный сервер для HPC (если слово «обычный» тут уместно), поддерживающий до 8 Тбайт оперативной памяти, 12 накопителей форм-фактора 3,5" (из них 8 NVMe), три блока питания по 2200 Вт каждый.

Если нужна машина поменьше, то ASUS недавно анонсировала ECS4000A E10 — компактный сервер в форм-факторе 2U, который построен на базе однопроцессорной платформы AMD EPYC 7002. Сервер имеет 11 разъемов PCIe 4.0, однако полноразмерных ускорителей NVIDIA A100 в корпусе можно разместить только четыре. На лицевой панели расположены 8 отсеков под диски 3,5", половину из которых можно использовать под NVMe. 

Не забывают в NVIDIA и про оптимизацию ПО: обновление получили CUDA 11 и более 50 библиотек CUDA-X, NVIDIA Jarvis, NVIDIA Merlin, Rapids и NVIDIA HPC SDK. Использование нового ПО позволит клиентам создавать и ускорять приложения в HPC, науке, медицине, 5G и других отраслях.

Постоянный URL: http://servernews.ru/1013925
22.06.2020 [12:39], Илья Коваль

NVIDIA представила PCIe-версию ускорителя A100

Как и предполагалось, NVIDIA вслед за SXM4-версией ускорителя A100 представила и модификацию с интерфейсом PCIe 4.0 x16. Обе модели используют идентичный набор чипов с одинаковыми характеристикам, однако, помимо отличия в способе подключения, у них есть ещё два существенных отличия.

Первое — сниженный с 400 Вт до 250 Вт показатель TDP. Это прямо влияет на величину устоявшейся скорости работы. Сама NVIDIA указывает, что производительность PCIe-версии составит 90% от SXM4-модификации. На практике разброс может быть и больше. Естественным ограничением в данном случае является сам форм-фактор ускорителя — только классическая двухслотовая FLFH-карта с пассивным охлаждением совместима с современными серверами.

Второе отличие касается поддержки быстрого интерфейса NVLink. В случае PCIe-карты посредством внешнего мостика можно объединить не более двух ускорителей, тогда как для SXM-версии есть возможность масштабирования до 8 ускорителей в рамках одной системы. С одной стороны, NVLink в данном случае практически на порядок быстрее PCIe 4.0. С другой — PCIe-версия наверняка будет заметно дешевле и в этом отношении универсальнее.

Производители серверов уже объявили о поддержке новых ускорителей в своих системах. Как правило, это уже имеющиеся платформы с возможностью установки 4 или 8 (реже 10) карт. Любопытно, что фактически единственным разумным вариантом для плат PCIe 4.0, как и в случае HGX/DGX A100, является использование платформ на базе AMD EPYC 7002.

Постоянный URL: http://servernews.ru/1013927
15.06.2020 [16:47], Алексей Степин

Mercury Systems представила «сопроцессор» OpenVPX на базе NVIDIA Quadro

Графические процессоры давно перестали быть только средством отображения графики и прочно заняли своё место в качестве вычислительных ускорителей благодаря унификации архитектур и высокой степени параллелизма. Компания Mercury Systems представила новую систему на базе NVIDIA Turing — вычислительный модуль стандарта OpenVPX.

Попытки использовать 3D-ускорители в качестве вычислительных предпринимались ещё в эпоху GeForce 6 и 7, более 10 лет назад. Но по-настоящему универсальными графические процессоры стали только с появлением чипов NVIDIA GeForce 8 и AMD Radeon HD 2000. Сегодня это многомиллионная индустрия, в которой лидируют решения NVIDIA Tesla и Quadro.

Шасси стандарта OpenVPX

Шасси стандарта OpenVPX

На базе Quadro построена и система Mercury Systems GSC6204 — в ней используются процессоры NVIDIA Turing TU104, эти же чипы лежат в основе игровых ускорителей GeForce RTX 2080. В составе TU104 имеется 3072 шейдерных ALU, 184 блока наложения текстур и 64 растеризатора, есть также 384 ядра для тензорных вычислений и 48 специализированных блоков для трассировки лучей.

Mercury Systems GSC6204 представляет собой довольно компактный модуль OpenVPX с двумя адаптерами Quadro TU104, что в сумме даёт 6144 ALU, 768 тензорных и 96 трассировочных ядер. Производительность в 64-битных вычислениях у TU104 невысокая, 1/32 от мощности в режиме FP32, поэтому и ориентирован сопроцессор в основном на режимы FP32 и FP16, он развивает в них 12,8 и 24 Тфлопс соответственно.

Каждый процессор дополнен 16 Гбайт памяти GDDR6, в составе системы также имеется коммутатор PCI Express c 64 линиями. Каждый процессор подключён посредством 16 линий PCIe 3.0, на бэкплейн OpenVPX выведено 32 линии, а между собой процессоры общаются посредством интерфейса NVLink. Интересно, что на переднюю панель модуля выведены выходы DisplayPort и VGA, то есть GSC6204 можно использовать и для вычислений, и для визуализации.

Новинка полностью соответствует стандартам OpenVPX (VITA 65) и VPX-REDI. Система охлаждения доступна в трёх вариантах: два вида «воздуха» и СЖО. Нацелен ускоритель GSC6204 на сценарии, требующие обработки крупных массивов данных в реальном времени, поступающих с различных сенсоров, например, в системах машинного зрения и современных радарных комплексах. Потенциальные заказчики новой системы — оборонная и аэрокосмическая отрасли.

Постоянный URL: http://servernews.ru/1013440
04.06.2020 [07:57], Юрий Поздеев

IBM Storage ускорит обработку данных благодаря NVIDIA A100

Портфель решений IBM Storage для больших данных и ИИ теперь включает в себя недавно анонсированную модель NVIDIA DGX A100, которая предназначена для ускорения аналитики и задач с использованием ИИ. Компания позиционирует Storage for Data and AI как компонент для трехэтапной обработки информации: Ingest, Transform, Analyse/Train.

В эту архитектуру включены следующие системы:

  • Cloud Object Storage (COS): объектное облачное хранилище данных;
  • Spectrum Discover: ПО для каталогизации и индексации файлов;
  • Spectrum Scale: масштабируемое параллельное файловое хранилище;
  • ESS 3000: all-flash NVMe СХД с установленным ПО Spectrum Scale с 24 отсеками под накопители в форм-факторе 2U;
  • Spectrum LSF (Load Sharing Facility): система управления рабочими нагрузками и планирования заданий на основе политик для высокопроизводительных вычислений.

IBM планирует хранить данные в COS (он будет функционировать как Data Lake), где их будет индексировать с попутным добавлением метаданных Spectrum Discover. LSF управляет процессами машинного обучения, а Spectrum Discover перемещает необходимые данных из COS в ES3000 с помощью Spectrum Scale. Ну а данные с ES3000 отправляются на серверы DGX A100 для обучения ИИ-моделей.

Мы уже писали про новый сервер DGX-A100 от Nvidia на базе ускорителей A100, которые, по заявлениям самой Nvidia, до 20 раз быстрее, чем Tesla V100 прошлого пооколения. Применение такого мощного сервера, без сомнения, ускорит обработку данных и позволит IBM расширить свое влияние на рынке ИИ, HPC и облачных систем.

Постоянный URL: http://servernews.ru/1012589
15.05.2020 [20:57], Алексей Степин

Atos анонсировала первый суперкомпьютер с ускорителями NVIDIA Ampere

Один из крупнейших и наиболее известных в мире производителей суперкомпьютеров, компания Atos, анонсировала первую систему на базе новейшей графической архитектуры NVIDIA Ampere.

Она будет производиться и поставляться под торговой маркой BullSequana. Машина на основе BullSequana X2415 станет первой в Европе, использующей процессоры NVIDIA A100.

Базовая плата NVIDIA HGX A100, версия с четырьмя ускорителями

Базовая плата NVIDIA HGX A100, версия с четырьмя ускорителями

Вчера NVIDIA представила миру наследницу Turing — микроархитектуру Ampere и первый ускоритель на её основе, A100. Его производительность в традиционных режимах с плавающей запятой составляет 19,5 (FP32) и 9,7 (FP64) Тфлопс, вызывают уважение и показатели на тензорных операциях. Как и V100, A100 является, в первую очередь, вычислительным ускорителем, а не графическим процессором.

Если верить анонсу, вычислительные модули BullSequana X2415 будут более чем вдвое превосходить модели предыдущего поколения, но при этом продемонстрируют более высокую энергоэффективность за счёт применения фирменной жидкостной системы охлаждения DLC (Direct Liquid Cooling).

Машинный зал суперкомпьютера JUWELS

Машинный зал суперкомпьютера JUWELS

Основой новых вычислительных узлов станет плата с двумя процессорами AMD EPYC второго поколения, дополненными 32 Гбайт оперативной памяти. Каждая из ускорительных плат Nvidia HGX A100 получит по четыре ускорителя A100, соединённых между собой шиной NVLink 3.0.

Юлихский исследовательский центр, один из крупнейших научных центров Европы, планирует модернизировать с помощью новых модулей Atos уже имеющийся в его распоряжении суперокомпьютер JUWELS, также произведенный BullSequana. Это сделает JUWELS самым мощным суперкомпьютером на европейском континенте — после модернизации его производительность должна превысить 70 Пфлопс. Система будет использована в ряде научных проектов, включая проект еврокомиссии «Human Brain Project», ей также планируют воспользоваться Юлихские лаборатории климатологии и молекулярных систем.

Nvidia A100, версия NVLink

Nvidia A100, версия NVLink

Массовая доступность BullSequana X2415, насколько этот термин вообще может быть применён к суперкомпьютерам, ожидается во втором квартале текущего года.

Постоянный URL: http://servernews.ru/1011065
14.05.2020 [18:52], Рамис Мубаракшин

NVIDIA представила ускорители A100 с архитектурой Ampere и систему DGX A100 на их основе

NVIDIA официально представила новую архитектуру графических процессоров под названием Ampere, которая является наследницей представленной осенью 2018 года архитектуры Turing. Основные изменения коснулись числа ядер — их теперь стало заметно больше. Кроме того, новинки получили больший объём памяти, поддержку bfloat16, возможность разделения ресурсов (MIG) и новые интерфейсы: PCIe 4.0 и NVLink третьего поколения. 

NVIDIA A100 выполнен по 7-нанометровому техпроцессу и содержит в себе 54 млрд транзисторов на площади 826 мм2. По словам NVIDIA, A100 с архитектурой Ampere позволяют обучать нейросети в 40 раз быстрее, чем Tesla V100 с архитектурой Turing. 

Характеристики A100

Характеристики A100

Первой основанной на ней вычислительной системой стала фирменная DGX A100, состоящая из восьми ускорителей NVIDIA A100 с NVSwitch, имеющих суммарную производительность 5 Пфлопс. Стоимость одной системы DGX A100 равна $199 тыс., они уже начали поставляться некоторым клиентам. Известно, что они будут использоваться в Аргоннской национальной лаборатории для поддержания работы искусственного интеллекта, изучающего COVID-19 и ищущего от него лекарство.

Так как некоторые группы исследователей не могут себе позволить покупку системы DGX A100 из-за ее высокой стоимости, их планируют купить поставщики услуг по облачным вычислений и предоставлять удалённый доступ к высоким мощностям. На данный момент известно о 18 провайдерах, готовых к использованию систем и ускорителей на основе архитектуры Ampere, и среди них есть Google, Microsoft и Amazon.

Система NVIDIA DGX A100

Система NVIDIA DGX A100

Помимо системы DGX A100, компания NVIDIA анонсировала ускорители NVIDIA EGX A100, предназначенная для периферийных вычислений. Для сегмента интернета вещей компания предложила плату EGX Jetson Xavier NX размером с банковскую карту.

Постоянный URL: http://servernews.ru/1010946
07.05.2020 [20:32], Алексей Степин

TYAN представила GPU-серверы с NVIDIA Tesla V100S для машинного обучения

Компания TYAN, крупный разработчик и производитель серверного аппаратного обеспечения, объявила о запуске новой платформы для сферы машинного обучения.

Основой новой серии серверов стали ускорители на базе графических процессоров NVIDIA Tesla V100S и T4.

В настоящее время TYAN является подразделением MiTAC Computing Technology Corporation. Как отметил в анонсе вице-президент TYAN, Дэнни Хсу (Danny Hsu), элементы машинного интеллекта всё активнее проникают в современные центры обработки и хранения данных, и новая серия систем TYAN нацелена именно на построение соответствующей инфраструктуры. В неё входят как решения на базе Intel Xeon Scalable второго поколения, так и системы, использующие в качестве центральных процессоров чипы AMD EPYC 7002.

Так, высокоплотный сервер Thunder HX FT83-B7119 высотой 4U несёт в своей основе пару процессоров Intel Xeon Scalable, но это не основное его оружие: он может содержать либо 10 ускорителей Tesla V100S, либо целых 20 плат T4. Кроме того, имеется свободный слот PCIe x16 для установки высокоскоростного сетевого адаптера InfiniBand или Ethernet. Система имеет 12 дисковых отсеков формата 3,5″ с возможностью горячей замены. Установка накопителей упрощена, так как дисковые отсеки безотвёрточные.

Три других сервера, Transport HX TN83-B8251, Transport HX TS75-B8252 и Transport HX TS75A-B8252 базируются на процессорах AMD EPYC 7002 и поддерживают стандарт PCI Express 4.0. Эти системы компактны, они имеют высоту 2U и могут нести на борту четыре полноразмерных ускорителя Tesla V100S, либо восемь более компактных T4. Первая модель имеет 16 слотов DIMM, две другие поддерживают установку 32 модулей памяти.

Модель TS75-B8252 рассчитана на установку 12 накопителей формата 3,5″, четыре из которых могут поддерживать стандарт NVMe, модель TS75A-B8252 может принять в себя 26 накопителей формата 2,5″, из которых 8 могут быть с поддержкой NVMe.

В новой серии платформ также представлены компактные решения высотой 1U: однопроцессорная Thunder HX GA88-B5631 на базе Xeon Scalable, могущая нести до 4 ускорителей, и аналогичная однопроцессорная Transport HX GA88-B8021 на базе AMD EPYC; последняя вмещает либо четыре Tesla V100S, либо шесть T4.

Постоянный URL: http://servernews.ru/1010414
Система Orphus