Материалы по тегу: nvidia

20.01.2020 [21:41], Алексей Степин

Национальная лаборатория Ок-Ридж тестирует HPC-платформу Wombat на базе ARM и ускорителей NVIDIA

Архитектура ARM продолжает понемногу укреплять свои позиции на рынке супервычислений. Национальная лаборатория Ок-Ридж (ORNL) начала тестирование новой гибридной платформы, сочетающей в себе чипы Marvell ThunderX2 и NVIDIA V100.

Тестовый кластер носит симпатичное название Wombat. Эти напоминающие медвежат сумчатые зверьки обладают добродушным нравом и легко приручаются — возможно, название выбрано как намёк на то, что платформа ARM вовсе не так сложна в освоении, как может показаться на первый взгляд.

Один из узлов Wombat (источник фото: OLCF)

Один из узлов Wombat (источник фото: OLCF)

Как и его природный прототип, кластер Wombat не слишком велик и занимает всего одну стойку HPE, содержащую 16 вычислительных узлов. Четыре узла несут на борту по два ускорителя NVIDIA Tesla V100, но все 16 имеют также по два процессора Marvell ThunderX2.

Объём памяти составляет 256 Гбайт на узел, локально каждый из них оснащён SSD-накопителем ёмкостью 480 Гбайт. Для межузловой связи использована инфраструктура EDR Infiniband (100 Гбит/с).

Референсная гибридная платформа ThunderX2 и Tesla V100

Референсная гибридная платформа ThunderX2 и Tesla V100

Вычислительный центр OLCF (Oak Ridge Leadership Computing Facility) окриджской лаборатории ставит своей целью проверку и адаптацию новых и только зарождающихся технологий на предмет функциональности, совместимости и производительности.

Уже первые тесты показали, что такая гибридная платформа достаточно легко адаптируется: ещё перед конференцией SC19 восемь научных команд OLCF смогли успешно портировать восемь различных задач. Как отметил один из научных сотрудников проекта, Оскар Хернандез (Oscar Hernandez), не нашлось ни одного приложения, которое не удалось бы запустить в нужный срок на новой платформе. 

В список используемого для тестирования Wombat программного обеспечения входят такие популярные в научной среде пакеты, как CoMet, GROMACS, DCA++, LAMMPS и LSMS. В планах ORNL — продолжение тестирования архитектуры ARM в свете появления новых решений на её основе. Отметим, что пользователем Wombat может стать не только персонал OLCF — достаточно заполнить заявку на сайте центра и получить положительный ответ.

Постоянный URL: http://servernews.ru/1001855
13.01.2020 [09:49], Алексей Разин

Ожидания инвесторов по поводу роста затрат на серверное железо чрезмерно оптимистичны

Отраслевые аналитики завершили 2019 год радужными прогнозами по поводу перспектив AMD и NVIDIA в серверном сегменте, поскольку уже в третьем квартале наблюдались признаки возвращения спроса на серверные компоненты к росту. Некоторые эксперты ожидают, что в 2020 году расходы клиентов на обновление парка серверного оборудования вырастут на 5 %, наиболее оптимистичные источники даже говорят о 7 % роста, но скептики утверждают, что основная часть расходов в серверном сегменте в текущем году будет направлена на закупку программного, а не аппаратного обеспечения.

Источник изображения: Fortune

Источник изображения: Fortune

Принято считать, что от оживления спроса в серверном сегменте выиграют не только производители памяти, но и компании AMD и NVIDIA. Первая продолжит теснить Intel на рынке серверных процессоров, вторая выиграет от развития систем искусственного интеллекта, многие из которых используют графические процессоры NVIDIA и программную среду CUDA. Исследователи Forrester Research считают, однако, что в 2020 году рост расходов в серверном сегменте будет сдержанным — по крайней мере, в США. Основная часть средств будет направлена клиентами отнюдь не на покупку оборудования, а на программное обеспечение.

Gartner тоже разделяет подобную точку зрения. По мнению экспертов, корпорации в текущем году увеличат расходы на покупку программного обеспечения на 11 %, а затраты на обновление серверного парка увеличатся всего на 2,6 %, и это при условии относительной стабильности мировой экономики. Интересно, что и от следующего года специалисты Gartner не ждут разворота тренда — расходы на серверное оборудование могут вырасти всего на один процент, по их мнению.

Постоянный URL: http://servernews.ru/1001296
16.12.2019 [15:55], Владимир Романченко

Суперкомпьютер Christofari Сбербанка запущен в коммерческую эксплуатацию

Сбербанк и его дочерняя компания SberCloud объявили о коммерческом запуске суперкомпьютера «Кристофари» (Christofari). Отныне его мощности доступны сторонним юридическим лицам по специальным тарифам.

Суперкомпьютер Christofari позиционируется его создателями как решение для научно-исследовательских, коммерческих и государственных организаций, заинтересованных в работе с алгоритмами искусственного интеллекта – в частности, с целью обучения программных моделей на базе сложных нейронных сетей в рекордно короткие сроки.

Список областей применения новой системы ориентирован на нефтегазовую отрасль, электроэнергетику, тяжелую промышленность, медицину, телекоммуникации, ритейл, финансовый и другие секторы.

Суперкомпьютер Christofari создан специалистами Сбербанка и Sbercloud в содружестве с компанией Nvidia. Кластер выполнен на 24-ядерных процессорах Xeon Platinum 8168 с тактовой частотой 2,7 ГГц и графических ускорителях Nvidia DGX-2.

Графический ускоритель Nvidia DGX-2

Nvidia DGX-2

Суммарное число процессорных и графических вычислительных ядер системы Christofari на момент запуска составляло 99,6 тысяч, объём оперативной памяти составил 115,2 тысяч Гбайт. Для соединения узлов кластера применяется интерконнект стандарта Mellanox InfiniBand EDR.

Система работает под управлением операционной системы Ubuntu 18.04.01. В работе суперкомпьютера применяются компиляторы Nvidia NVCC 10 и Intel Composer XE, математические библиотеки Intel MKL и Nvidia CUDA BLAS, I/O библиотеки OpenMPI-3.1.4-cuda.

Эффективная производительность суперкомпьютера Christofari в тесте LINPACK по данным рейтинга Топ-500 составила 6,7 петафлопс, пиковая производительность достигала 8,8 петафлопс. Таким образом, «Кристофари» сразу же возглавил российский суперкомпьютерный рейтинг Топ-50 и занял 29 строчку в мировом рейтинге суперкомпьютеров Top500. Среди европейских систем Christofari занимает седьмое место.

Особенностью «Кристофари» является доступ к его мощностям коммерческим заказчикам из облака компании SberCloud. В рамках акции «100 рублей за 100 минут» мощности суперкомпьютера для обучения моделей могут быть предоставлены клиентам на 100 минут с объемом данных до 10 Гбайт за символические 100 рублей. Акция продлится до 12 июня 2020 года. Для участия необходимо зарегистрироваться на сайте SberCloud, добавить услугу AI Cloud и активировать участие, затем пополнить счет на 100 рублей.

«Кристофари» разместился в одном из залов ЦОД Сбербанка, расположенного в Сколково. Данный ЦОД имеет сертификат Tier III и был запущен в декабре 2017 года. Особенностью дата-центра является то, что он на 85 % охлаждается с помощью фрикулинга — одноконтурной прямоточной системы. Атмфосферный воздух забирается и проходит двухступенчатую очистку, после чего направляется в залы. Система работает при температуре окружающей среды ниже 20° C. При необходимости воздух доохлаждается классическими чиллерами. Текущий уровень PUE заявлен на уровне 1,6. После полного заполнения ЦОД (2000 стоек) он снизится до 1,3. 

Кроме того, в ЦОД применена новая система ИБП — дизель-динамическая. Вместо традиционных химических аккумуляторов энергия запасается путём раскручивания до 2880 об./мин. пятитонного маховика, который способен «набрать» до 30 МДж. При сбое питания его энергии хватит на то, чтобы в течение 11 секунд обеспечивать работу генератора. Одновременно в течение 3 секунд должны включиться традиционные дизель-генераторы, запаса топлива для которых хватит на 72 часа работы ЦОД под полной нагрузкой. 

Постоянный URL: http://servernews.ru/999836
12.12.2019 [23:23], Алексей Степин

NVIDIA анонсировала поддержку языка Julia для ARM-серверов

Рынок серверов с процессорами, базирующимися на архитектуре ARM, постепенно расширяется, и на нём появляются новые предложения.

Компания NVIDIA, недавно представившая референсную ARM-платформу, включающую серверы на базе связки ускорителей Tesla V100 и процессоров ThunderX2, объявила о поддержке на ней языка Julia

Julia ‒ открытый высокоуровневый язык программирования, созданный специально для высокопроизводительных вычислений. Он может применяться в самом широком спектре задач, от аналитики до машинного обучения. Именно этот язык был выбран ассоциацией Climate Modeling Alliance в качестве базового для новой климатической модели. Julia разработан одновременно как простой в освоении и производительный; поддержка распределённых вычислений в нём реализована изначально. В частности, на нём создаётся ПО для суперкомпьютеров.

Работать с ускорителями  Julia умеет достаточно давно, ещё в 2017 году NVIDIA анонсировала поддержку CUDA с помощью библиотек CUDAdrv.jl и CUDArt.jl. Теперь поддержка Julia доступна и для упомянутой выше ARM-платформы. Она реализована в форме готового контейнера NVIDIA GPU Cloud (NGC), что позволяет быстро развёртывать Julia-инфраструктуру.

Напоминаем, что базовая платформа NVIDIA ARM имеет два 32-ядерных процессора Marvell ThunderX2 и восемь ускорителей NVIDIA Tesla V100, использующих шину NVLink.

Постоянный URL: http://servernews.ru/999636
02.12.2019 [21:12], Алексей Степин

Учёные задействовали 50 тыс. GPU в «облаках» для астрофизического эксперимента

Облачные вычислительные платформы вполне могут составить конкуренцию традиционным суперкомпьютерам. Это доказал эксперимент, поставленный совместно Суперкомпьютерным центром Сан Диего и Нейтринной обсерваторией Ice Cube.

В эксперименте было задействовано свыше 50 тысяч доступных ускорителей, располагавшихся в облачных платформах Amazon Web Services, Microsoft Azure и Google Cloud Platform в 28 регионах трёх континентов ‒ Северной Америки, Европы и Азии.

Статистика эксперимента: типы GPU и динамика нарастания мощности

Статистика эксперимента: типы GPU и динамика нарастания производительности

Всего в облаках сейчас имеет примерно 80 тысяч NVIDIA Tesla V100. Фактически же для опыта задействовался весь доступный на тот момент для аренды массив разнородных ускорителей ‒ 51500 единиц. Он был объединён в единый комплекс с помощью ПО HTCondor

Эксперимент начался 16 ноября и длился порядка 200 минут. Он преследовал три основных цели: выяснить, насколько серьёзные мощности можно задействовать таким образом; выявить реальные масштабы использования ГП в облаках; и, наконец, решить реальную научную задачу.На графике хорошо видно, как нарастала мощность «облачного суперкомпьютера»; она достигла максимума примерно к 110 минуте и составила приблизительно 350 Пфлопс (FP32). Для сравнения, лидер списка TOP500, суперкомпьютер Summit, развивает порядка 400 Пфлопс на вычислениях такой же точности.

Все сегменты общей задачи были оптимизированы с учётом особенностей каждой из восьми моделей доступных ускорителей NVIDA. Время работы сегментов не превышало 15‒30 минут для минимизации риска отключения от сервиса из-за внезапно возникшего спроса. Примерная оценка затрат: от $120 до $150 тысяч в первый день вычислений. То есть около половины выделенного на описываемый проект гранта EAGER.

Вклад различных моделей GPU в общее дело

Вклад различных моделей GPU в общее дело

Для расчётов использовались данные, полученные нейтринной обсерваторией IceCube. Это крупнейший в мире детектор нейтрино, размещённый на антарктической станции Амундсен-Скотт. Он имеет массив из 5160 высокочувствительных оптических детекторов, размещённых в специальных скважинах на глубинах от 1450 до 2450 метров.

В 2017 году с помощью нового массива удалось впервые зафиксировать космические нейтрино сверхвысоких энергий и отследить их источник. За час эксперимента удалось провести симуляцию такого объема данных с детекторов IceCube, который в обычных условиях потребовал бы месяца.

Доля разных регионов в проекте

Доля разных регионов в проекте

В настоящее время активно развивается так называемая «многоканальная астрономия» (multi-messenger astronomy). Её суть заключается в комплексном исследовании всего, что могут испускать астрономические объекты, от электромагнитного излучения до гравитационных волн и элементарных частиц. Но такая астрономия требует обработки гигантских массивов данных.

Проведённый эксперимент показал, что «облачные системы» подходят для подобных целей и позволяют развёртывать серьёзные мощности весьма оперативно, в течение небольшого промежутка времени, что крайне важно для проектов с жёсткими сроками.

Лаборатория IceCube

Хотя добиться запланированных изначально 80 тысяч ускорителей NVIDIA Tesla V100 и не удалось, но был получен бесценный опыт, который в перспективе должен проложить дорогу широкому использованию облачных сервисов с ГП-ускорителями и для других научных проектов. В ближайшем будущем бума облачных супервычислений не ожидается, ведь если они станут широко популярными, то стоимость такого предприятия неизбежно вырастет.

Следует также отметить, что «виртуальный суперкомпьютер» подходит для решения далеко не всех научных задач, связанных с супервычислениями. Некоторые из таких задач критичны к пропускной способности межсоединений, а это не самая сильная сторона подобного рода решений. Поставщики облачных услуг это понимают; в частности, на выставке SC19 Microsoft представила новые облачные серверы Azure, использующие внутреннюю сеть на базе InfiniBand HDR со скоростью 200 Гбит/с и поддержкой RDMA.

Постоянный URL: http://servernews.ru/998876
26.11.2019 [15:00], Алексей Степин

NVIDIA анонсировала новые ускорители Tesla V100s

Корпорация NVIDIA объявила о пополнении семейства ускорителей на базе архитектуры Volta. Теперь в нём появилась новая модель Tesla V100s. Она доступна только в форм-факторе PCI Express, о версии SXM2 пока ничего неизвестно. 

Внешне V100s ничем не отличаются от V100 в том же форм-факторе

Внешне V100s ничем не отличаются от V100 в том же форм-факторе

В новой версии ускорителя NVIDIA удалось добиться производительности 8,2 Тфлопс в режимe FP64 и 130 Тфлопс для тензорных процессоров. Точные значения тактовых частот ГП, к сожалению, не приводятся.

На некоторых стендах SC19 имелось скромное упоминание о новинке

На некоторых стендах SC19 имелось скромное упоминание о новинке

На борту Tesla V100s установлены новые сборки HBM2 с более высокой тактовой частотй (1106 против 876 МГц), что позволило поднять пропускную способность памяти с 900 до 1134 Гбайт/с. Теплопакет удалось сохранить прежним, на уровне 250 Ватт.

Технические характеристики ускорителей NVIDIA Tesla V100

Таким образом, Tesla V100s стал быстрейшим ускорителем NVIDIA с архитектурой Volta. Единственное, в чём он уступает версии V100 в исполнении SXM2 ‒ в технологии межсоединений. Пропускная способность PCI Express x16 3.0 ограничена 32 Гбайт/с, в то время как конструктив SXM2 за счёт применения шины NVLink позволяет добиться показателя на порядок выше, 300 Гбайт/с. Возможно, версия V100s в этом исполнении появится позже. Стоимость Tesla V100s объявлена пока не была.

Постоянный URL: http://servernews.ru/998493
24.11.2019 [12:21], Алексей Разин

На SC19 замечен ЦОД-вариант NVIDIA GeForce RTX 2080 Ti с пассивным охлаждением

В своё время популярность видеокарт GeForce GTX 1080 Ti среди создателей центров обработки данных была так высока, что NVIDIA пришлось ограничить распространение этой потребительской видеокарты в таких системах через пользовательское соглашение на использование CUDA.

По словам представителей ресурса ServeTheHome, видеокарты GeForce RTX 2080 Ti не менее популярны в данной среде, и многие создатели центров обработки данных закупают их «штабелями» для ускорения вычислений.

Источник изображения: ServeTheHome

Источник изображения: ServeTheHome

Первоисточнику удалось обнаружить на SC19 вариант (или макет) этой видеокарты с системой пассивного охлаждения. Особых опознавательных знаков на образце не было, за исключением неприметного ярлыка с набором символов «PG150», которые в «гражданской» иерархии всегда соответствовали видеокарте GeForce RTX 2080 Ti.

Источник изображения: ServeTheHome

Источник изображения: ServeTheHome

Естественно, речь не идёт о полностью пассивном варианте охлаждения. Все ускорители вычислений в серверных стойках охлаждаются подобным образом: сами платы расширения оснащаются достаточно крупными радиаторами, а воздух через них прогоняет штатная система охлаждения сервера.

Соотношение цены и производительности GeForce RTX 2080 Ti на фоне профильных решений класса Tesla продолжает привлекать клиентов в серверном сегменте. Сама NVIDIA в подобной «деградации» не особо заинтересована, но GeForce RTX 2080 Ti вполне может перекочевать в серверный сегмент и под новым именем.

Постоянный URL: http://servernews.ru/998339
20.11.2019 [10:00], Андрей Созинов

SC19: серверные ARM Marvell ThunderX «подружились» с ускорителями NVIDIA

Компания Marvell объявила о том, что её серверные ARM-процессоры семейства ThunderX получили поддержку графических процессоров NVIDIA. Именно на базе этих CPU и работает референсная платформа ARM + NVIDIA

По словам Marvell, вычислительная производительность и пропускная способность памяти процессоров ThunderX2 в сочетании с производительностью параллельных вычислений графических процессоров NVIDIA открывают путь к энергоэффективным вычислениям экзафлопсного уровня.

Marvell работала совместно с NVIDIA над портированием библиотек CUDA-X AI и HPC, над оптимизацией ИИ-фреймворков и инструментов для разработки программного обеспечения на платформе ThunderX. Поддержка всего пакета ПО NVIDIA обеспечит системам на процессорах ThunderX2 возможность использовать GPU для ускорения более 600 HPC-приложений и ИИ-фреймворков.

На стенде One Stop Systems была показана эталонная система со ускорителями Tesla и центральными процессорами с архитектурой ARM. Она включает два узла: один с парой 32-ядерных процессоров ThunderX2 и возможностью установки до 4 Тбайт памяти, а другой с восемью ускорителями Tesla V100, подключённых через NVLink.

Помимо вычислительных кластеров, совместимость ARM-процессоров и графических процессоров может пригодиться и в других областях. Например, на своём стенде на SC19 компания Marvell продемонстрировала рабочую станцию на ThunderX2 и неких ускорителях (каких именно, не уточняется). Такая система позиционируется в качестве решения для высокопроизводительных вычислений и работы с графикой.

Многие производители планируют создать собственные системы с центральными процессорами Marvell и графическими процессорами NVIDIA. Отметим, что системы на базе ARM-процессоров Marvell ThunderX2 имеются в ассортименте таких крупных вендоров как HPE, Atos, Cray и Gigabyte.

Вычислительный узел на ARM и NVIDIA

Вычислительные узлы на ARM и NVIDIA

В небольшом комментарии вице-президент Marvell отметил, что считает программную экосистему ARM достаточно зрелой в области HPC. И речь не только о ПО с открытым исходным кодом. В частности, ведётся разработка коммерческих компиляторов и иных средств разработки. Большая работа была проделана Cray и HPE, так как они первыми начали использовать ThunderX2 в высокопроизводительных узлах. Всего за два года ситуация кардинально изменилась и Marvell надеется на светлое будущее. Увы, никакой дополнительной информации о грядущих ThunderX3 и X4 сообщено не было. 

Постоянный URL: http://servernews.ru/998035
19.11.2019 [17:33], Константин Ходаковский

SC19: Microsoft представила виртуальные машины Azure NDv2 с сотнями ГП NVIDIA

NVIDIA и Microsoft сообщили о запуске нового типа ускоренного с помощью ГП суперкомпьютера в облаке Microsoft Azure. Эти новые виртуальные машины Azure NDv2 предназначены для самых сложных вычислений и высокопроизводительных задач ИИ. Пользователь может получить доступ к системе, объединяющей через единую сеть Mellanox InfiniBand до 800 графических ускорителей NVIDIA V100 с тензорными ядрами.

В результате пользователи Azure получили возможность арендовать настоящий суперкомпьютер для задач ИИ прямо на своём рабочем месте, избежав необходимости тратить месяцы на создание собственных громоздких локальных суперкомпьютеров. Ранее системы с подобными возможностями в области ИИ и HPC были доступны только для больших организаций.

Microsoft Azure NDv2 также предлагает гораздо более высокое соотношение производительности и цены по сравнению с традиционными решениями на базе ЦП — особенно в области искусственного интеллекта, машинного обучения и задач HPC. Исследователи могут развернуть сразу несколько виртуальных машин NDv2, чтобы обучить сложные диалоговые ИИ-модели буквально в течение часов.

Например, инженеры Microsoft и NVIDIA с помощью 64 виртуальных машин NDv2 на предварительной версии кластера обучили BERT — популярную диалоговую модель ИИ всего за три часа. Частично это было достигнуто благодаря оптимизациям для высокопараллельных расчётов с помощью множества ГП, достигнутых с помощью NCCL, библиотеки NVIDIA CUDA X и высокоскоростных интерфейсов Mellanox.

Пользователи также ощутят преимущества использования нескольких NDv2 при выполнении сложных вычислений HPC, например, в LAMMPS — популярном приложении молекулярной динамики, которое используется для моделирования материалов на уровне атомов в таких областях, как создание лекарств. Всего лишь одна виртуальная машина NDv2 обеспечивает производительность на порядок выше по сравнению с традиционным узлом HPC без ГП в приложениях такого типа, как глубинное обучение. Заявлено также, что производительность можно линейно увеличивать, объединяя сотни узлов для масштабного моделирования.

Все NDv2 оптимизированы для ускоренных с помощью ГП приложений HPC, ПО для машинного обучения и библиотек глубинного обучения, таких как TensorFlow, PyTorch и MxNet из репозитория контейнеров NVIDIA NGC и Azure Marketplace. Репозитарий также поддерживает пакеты Helm для установки ИИ-программ на кластерах Kubernetes.

NDv2 уже доступны в предварительном режиме. Виртуальные машины с восьмью ГП NVIDIA Tesla V100 (в каждом — 32 Гбайт памяти HBM2), 40-ядерным ЦП Intel Xeon Platinum 8168 и 672 Гбайт системной памяти можно объединять в кластеры.

Постоянный URL: http://servernews.ru/998009
19.11.2019 [17:04], Константин Ходаковский

SC19: Технология NVIDIA Magnum IO ускоряет перемещение данных до 20 раз

В Денвере на международной конференции SC 2019, посвящённой серверам, NVIDIA представила набор программного обеспечения Magnum IO, позволяющий исследователям в области ИИ и HPC обрабатывать большие объёмы данных за считанные минуты вместо нескольких часов.

Magnum IO устраняет узкие места и, по оценкам компании, позволяет до 20 раз ускорить обработку массивов данных в многосерверных вычислительных узлах с использованием GPU в задачах вроде финансового анализа и моделирования климата. В разработке также участвовали лидеры индустрии DataDirect Networks, Excelero, IBM, Mellanox и WekaIO.

«В основе всего того, что связано с ИИ, находится обработка больших объёмов собранных или смоделированных данных. По мере экспоненциального увеличения объёмов и скорости поступления данных их обработка становится одной из самых важных, но и крайне затратных задач для ЦОД. Для экстремальных вычислений нужны экстремально быстрые интерфейсы. Именно это и обеспечивает ПО Magnum IO, применяя GPU-ускорение, кардинально изменившее вычисления, к передаче и хранению данных. Исследователям больше не придется долго ожидать окончания обработки данных. Теперь они смогут сконцентрироваться на сути своей работы», — пояснил учредитель и исполнительный директор NVIDIA Дженсен Хуанг (Jensen Huang).

В основе ПО Magnum IO лежит технология GPUDirect, позволяющая данным обходить ГП и перемещаться по магистралям, созданным графическими процессорами, накопителями и сетевыми устройствами. GPUDirect совместима с широким спектром интерфейсов и API, включая NVIDIA NVLink и NCCL, а также OpenMPI и UCX, и состоит из одноранговых (peer-to-peer) и RDMA-элементов. Последним дополнением стал GPUDirect Storage, позволяющий исследователям в обход процессора получать доступ к хранимым файлам для моделирования, анализа и визуализации.

ПО NVIDIA Magnum IO уже доступно, за исключением GPUDirect Storage, к которому пока открыт ранний доступ, а широкое распространение запланировано на первую половину 2020 года.

Постоянный URL: http://servernews.ru/998006
Система Orphus