Материалы по тегу: a100

09.11.2022 [14:50], Владимир Мироненко

Производители специально ухудшают характеристики чипов для китайских серверов, чтобы избежать санкций США

В связи с вводом Соединёнными Штатами новых экспортных ограничений на поставки в Китай, производители стали намеренно снижать производительность чипов, чтобы соответствовать требованиям экспортного контроля США и избежать проблем с получением специальных лицензий. Как отметил ресурс The Register, у систем, построенных на чипах NVIDIA, изготовленных на производственных мощностях TSMC для поставок в Китай, характеристики хуже по сравнению с теми, что были ранее.

В частности, китайский производитель серверов Inspur указал на использование вместо ускорителя NVIDIA A100 чипа A800, разработанного NVIDIA специально для Китая в соответствии с экспортными ограничениями. Китайские производители H3C и Omnisky тоже представили решения на базе A800. Данный ускоритель, по словам NVIDIA, начала производиться в III квартале этого года.

 Источник изображения: Inspur

Источник изображения: Inspur

У A800 скорость передачи данных составляет 400 Гбайт/с, тогда как у A100 этот показатель равен 600 Гбайт/с, причём обойти эти ограничения, по словам NVIDIA, невозможно. Речь, судя по всему, идёт о характеристиках интерконнекта NVLink, которые прямо влияют на производительность кластеров из двух и более ускорителей в машинном обучении и других задачах. Изменения касаются 40- и 80-Гбайт вариантов с интерфейсами PCIe и SXM.

Между тем ускорители, находящиеся в разработке и выпускаемые TSMC по контракту с Alibaba и стартапом Biren Technology, тоже, как сообщается, имеют пониженную скорость передачи данных. Это позволит выпускать данные чипы на заводе TSMC, не опасаясь санкций США. До этого TSMC приостановила выпуск 7-нм чипов ускорителей Biren BR100 как раз из-за возможных санкций со стороны Вашингтона.

Постоянный URL: http://servernews.ru/1077080
15.08.2022 [19:25], Сергей Карасёв

Tesla похвасталась седьмым по величине GPU-суперкомпьютером в мире

Тим Заман, руководитель отдела искусственного интеллекта и средств автопилотирования Tesla, сообщил о том, что компания Илона Маска в настоящее время эксплуатирует седьмой по величине суперкомпьютер в мире. Правда, речь идёт лишь о числе используемых в системе ускорителей.

По словам господина Замана, вычислительный комплекс Tesla недавно подвергся апгрейду. В результате общее число задействованных акселераторов NVIDIA A100 (80 Гбайт) выросло до 7360 шт. В прошлом году Tesla представила свой новый кластер, насчитывающий 720 узлов, каждый из которых оборудован восемью ускорителями A100. Таким образом, в общей сложности на момент анонса использовались 5760 акселераторов. Заявленное быстродействие достигало 1,8 Эфлопс (FP16).

 Источник изображения: Tim Zaman

Источник изображения: Tim Zaman

В рамках обновления система получила ещё 1600 шт. таких же ускорителей. Результирующую производительность Tesla пока не раскрывает, но она могла увеличиться примерно на четверть. Система предназначена для обучения ИИ-моделей, отвечающих за работу средств автопилотирования в электромобилях компании. Попутно Tesla разрабатывает суперкомпьютер Dojo. Он будет оснащён собственными 7-нм чипами D1 (FP32). Каждый чип будет иметь площадь 645 мм2 и содержать 50 млрд транзисторов.

Постоянный URL: http://servernews.ru/1072174
29.06.2022 [20:00], Алексей Степин

NVIDIA снова ставит рекорды в ИИ-бенчмарке MLPerf Training

Сегодня вышла очередная версия бенчмарка MLPerf Training для оценки производительности ИИ-ускорителей в различных сценариях, максимально приближённых к реальным. Всего в состав версии 2.0 входит 8 различных тестах в четырёх категориях.

NVDIA — давний и наиболее активный участник проекта MLPerf, именно результаты различных систем на базе ускорителей NVIDIA составляют 90% от всего объёма рейтинга. Также это единственный участник, стабильно принимающий участие во всех дисциплинах. В новой версии MLPerf 2.0 ускорители NVIDIA A100 вновь оказались единственными, охватившими все тесты.

 Последние результаты A100 в MLPerf 2.0. Источник: NVIDIA

Последние результаты A100 в MLPerf 2.0. Источник: NVIDIA

А суперкомпьютер Selene и вовсе продемонстрировал лидерство в шести дисциплинах MLPerf из восьми, уступив место лишь Intel Habana Gaudi 2 в тесте RN-50 и Google TPU v4 в тесте RetinaNet. Всего в «забеге» со стороны NVIDIA приняли участие 16 партнёров со своими платформами, в их число вошли такие известные компании, как ASUS, Baidu, CASIA, Dell Technologies, Fujitsu, GIGABYTE, H3C, HPE, Inspur, Lenovo, Nettrix и Supermicro. Большая часть из них запускала MLPerf 2.0 на системах, имеющих сертификацию самой NVIDIA.

 fds

A100 лидирует в шести тестах из восьми. Источник: NVIDIA

Опираясь на результаты тестов, NVIDIA говорит, что пока только она в состоянии предложить коммерческому клиенту законченную платформу, способную выполнять все стадии какого-либо ИИ-сценария: к примеру, от распознавания произнесённой фразы до поиска и классификации нужной для ответа информации, и наконец, озвучивания самого ответа.

Прогресс ИИ-ускорителей NVIDIA за 3.5 года. Источник: NViDIA

А использование унифицированной платформы вместо нескольких отдельных, закономерно снижает и стоимость владения, и сложность обслуживания и настройки. К тому же, такая платформа имеет задел на будущее, особенно с учётом того, что на смену A100 вскоре начнёт приходить новый флагман NVIDIA в лице H100.

Любопытные факты: за два года, прошедшие с первого участия A100 в тестировании, производительность удалось поднять в 6 раз за счёт оптимизаций программного стека, а за 3,5 года с момента начала участия NVIDIA в проекте MLPerf она выросла ещё больше, в целых 23 раза.

Постоянный URL: http://servernews.ru/1069131
31.05.2022 [00:16], Алексей Степин

ИИ-суперкомпьютер HPE Champollion позволит поставить разработку новых моделей машинного обучения на поток

Компания Hewlett Packard Enterprise (HPE) опубликовала сведения о новом французском суперкомпьютере Champollion, названном в честь знаменитого египтолога и лингвиста Жана-Франсуа Шампольона, открывшего миру с помощью Розеттского камня значение египетских иероглифов. Название выбрано не зря — новый кластер должен помочь в разработке новых, более совершенных и точных методов распознавания и обработки естественных языков. Но главная его изюминка не в этом.

С точки зрения аппаратной архитектуры Champollion на сегодняшний день выглядит довольно обычно, являя собой кластер из 20 узлов HPE Apollo 6500 Gen 10 Plus, включающий в себя 160 ускорителей NVIDIA A100, объединённых «умной» InfiniBand-фабрикой NVIDIA Quantum-2. Каждому узлу полагается довольно много памяти — 4 Тбайт RAM + 30 Тбайт NVMe SSD. Но программная составляющая уникальна — машина будет работать под управлением стека HPE Machine Learning Development Environment.

 HPE Apollo 6500 Gen 10 Plus. Источник: HPE

HPE Apollo 6500 Gen 10 Plus. Источник: HPE

Можно сказать, что MLDE — это метасистема, созданная для разработки платформ и моделей машинного обучения. Она базируется на открытых решениях компании Determined, приобретённой HPE в 2021 году, и сохраняет с ней обратную совместимость, что позволит начать обучение какой-либо модели буквально «на дому», а затем воспользоваться более серьёзными ресурсами.

 Архитектура Machine Learning Development Environment. Источник: HPE

Архитектура Machine Learning Development Environment. Источник: HPE

Такое стандартизированное «поточное производство» моделей машинного обучения, совместимое с популярным инструментарием, вроде TensorFlow и PyTorch, упростит и ускорит все проекты, связанные с данной областью вычислений. Помимо обработки языковых данных и моделей ИИ нового поколения кластер будет использоваться в науке и промышленности.

Размещается суперкомпьютер в ЦОД HPE Center of Excellence, который расположен в городе Гренобль, Франция. Вначале доступ к нему получат только избранные пользователи, но впоследствии HPE планирует предоставить более широкий доступ к ресурсам Champollion. Система является вкладом HPE в инициативу «AI for Humanity», провозглашенную президентом Франции Эммануэлем Макроном в 2018 году с целью развития индустрии и увеличения темпов экономического роста.

Постоянный URL: http://servernews.ru/1066971
27.05.2022 [15:38], Владимир Мироненко

Meta* будет использовать облачный кластер Microsoft Azure для разработок в сфере ИИ

Microsoft объявила о расширении сотрудничества с Meta*, выбравшей сервис Azure в качестве стратегического поставщика облачных услуг, что позволит ускорить ведение разработок в области ИИ. Любопытно, что Meta* второй раз при создании крупных систем обращается к сторонним подрядчикам, а не строит их сама — ранее компания анонсировала ИИ-суперкомпьютер RSC на базе узлов NVIDIA DGX A100.

Для исследований в это сфере Meta* будет применять выделенный кластер Microsoft Azure с новейшими инстансами NDm A100 v4 на базе 5400 единиц ускорителей NVIDIA A100 и 1350 процессоров AMD Milan Epyc 7V13. Впервые Meta* начала использовать Microsoft Azure для исследований в сфере ИИ в прошлом году, но в гораздо меньших масштабах.

 Фото: Pixabay/ClearCutLtd

Фото: Pixabay/ClearCutLtd

Microsoft утверждает, что благодаря в четыре раза большей пропускной способности сети между виртуальными машинами по сравнению с другими публичными облачными решениями платформа Azure обеспечивает более быстрое распределенное обучение ИИ. Meta* использовала это преимущество, например, для обучения языковой модели OPT-175B.

Инстансы Azure NDm A100 v4 также предоставляют клиентам возможность гибкой автоматической и динамической настройки кластеров любого размера от нескольких GPU до тысяч единиц, а также возможность приостанавливать и возобновлять работу во время экспериментов.

Microsoft и Meta* также будут сотрудничать в разработке платформы машинного обучения PyTorch для Python, библиотеки с открытым исходным кодом, над которой работает лаборатория искусственного интеллекта Facebook*. Параллельно Meta* также заключила партнёрское соглашение с Amazon Web Services (AWS) с целью разработки PyTorch и решений в сфере ИИ.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1066830
24.05.2022 [07:00], Игорь Осколков

NVIDIA представила PCIe-ускорители A100 с интегрированным водоблоком СЖО

Вместе с новыми референсными платформами CGX, HGX и OVX на базе собственных Arm-чипов Grace NVIDIA в рамках Computex 2022 представила и ещё одну модификацию PCIe-версии ускорителя A100 (80 Гбайт), на этот раз с предустановленным водоблоком для подключения к СЖО. Новинка станет доступна в III квартале этого года, а в начале следующего появится аналогичная модификация ускорителя NVIDIA H100.

Интересен тут не столько факт использования СЖО (для PCIe-варианта A100 водоблоки производит, к примеру, EK Water Blocks, и HGX-платформ с жидкостным охлаждением SXM-версии ускорителей не так уж мало), сколько неожиданно большой список партнёров, готовых предложить системы с новой модификацией A100: ASUS, ASRock Rack, Foxconn, GIGABYTE, H3C, Inspur, Inventec, Nettrix, QCT, Supermicro, Wiwynn и xFusion.

 Источник: NVIDIA

Источник: NVIDIA

В данном случае СЖО нужна в первую очередь не для существенного повышения производительности, как это обычно бывает в HPC-системах, а для повышения плотности размещения вычислительных мощностей и улучшения энергоэффективности. Новинка занимает всего один слот, что, по данным NVIDIA, позволяет сократить число используемых стоек на две трети при сохранении того же уровня производительности. Попутно можно почти на треть снизить затраты на электроэнергию.

 Источник: NVIDIA

Источник: NVIDIA

Правда, NVIDIA в своих заявлениях опирается не только на свои расчёты, но и на работы Equinix, одного из крупнейших в мире операторов ЦОД, который размещает у себя мощности NVIDIA LaunchPad и который в январе этого года создал выделенную площадку для изучения вопросов повышения энергоэффективности. В рамках данного проекта изучаются в том числе и СЖО.

По оценкам NVIDIA, использование СЖО в рамках всего ЦОД позволяет добиться PUE на уровне 1,15, тогда как для традиционного дата-центра с воздушным охлаждением этот показатель равен 1,6, то есть разница как раз составляет около трети. Аналогичный результат получился и у Equinix. По данным Uptime Institute за 2020 год, среднемировой уровень PUE составлял 1,59. Для кампусов Equinix усреднённое значение PUE равно 1,48, а для самых новых площадок — менее 1,2.

Постоянный URL: http://servernews.ru/1066514
19.05.2022 [17:57], Сергей Карасёв

Gigabyte представила высокопроизводительный Arm-сервер G492-PD0: Ampere Altra + 8 × NVIDIA A100

Gigabyte анонсировала 4U-сервер G492-PD0, предназначенный для облачных платформ, систем ИИ и инфраструктур высокопроизводительных вычислений (HPC). Допускается установка одного процессора Ampere Altra (Max), насчитывающего до 128 ядер. Есть 16 слотов для модулей оперативной памяти DDR4-3200 ёмкостью до 256 Гбайт каждый. А главное — поддержка до восьми 80-Гбайт ускорителей NVIDIA A100 в составе HGX-платы Delta.

 Изображение: Gigabyte Technology

Изображение: Gigabyte Technology

Предусмотрены шесть посадочных мест для SFF-накопителей NVMe/SATA. Кроме того, могут быть задействованы четыре модуля M.2 формата 2260/2280/22110. Для всех накопителей предусмотрена поддержка PCIe 4.0, равно как и для десяти PCIe-слотов для низкопрофильных карт расширения. В оснащение входят двухпортовый сетевой контроллер 1GbE и выделенный 1GbE-порт управления для BMC ASPEED AST2500.

 Изображение: Gigabyte Technology

Изображение: Gigabyte Technology

Габариты сервера составляют 448 × 175,2 × 900 мм. Применена система воздушного охлаждения, включающая одиннадцать 80-мм вентиляторов и десять — 40-мм. Питается сервер от четырёх (3+1) БП мощностью 3 кВт каждый. Говорится о совместимости с программной платформой Ubuntu 20.04.1 LTS (ядро 5.8 или новее) и соответствии стандартам Arm SystemReady и Arm ServerReady.

Постоянный URL: http://servernews.ru/1066274
27.02.2022 [14:35], Алексей Степин

GIGABYTE G262-ZL0 и G492-ZL2: NVIDIA HGX A100 с жидкостным охлаждением

Несмотря на то, что позиции классического воздушного охлаждения в мощных серверах ещё достаточно сильны, всё чаще и чаще выпускаются варианты, рассчитанные изначально под охлаждение жидкостное. Особенно это актуально с учётом того, что плотности упаковки вычислительных мощностей растут и отводить нагрев от многочисленных ускорителей становится всё сложнее. Два новых сервера GIGABYTE, G262-ZL0 и G492-ZL2, изначально рассчитаны на подключение к контурам СЖО в ЦОД.

Новинки подходят для формирования HPC-систем, комплексов машинного обучения, аналитики «больших данных» и вообще для любых задач. Оба сервера рассчитаны используют платформу NVIDIA HGX с SXM4-ускорителеями A100 (80 Гбайт). В первой модели высотой 2U таких ускорителя четыре, во второй, более габаритной (4U) — восемь. Используются процессоры AMD EPYC 7003 (Milan), поддерживаются технологии NVLink и NVSwitch (для G492-ZL2).

Дополнительно предусмотрены низкопрофильные слоты расширения: пять у G262-ZL0 и десять у G492-ZL2, кроме того, младшая модель имеет и слот для установки карт OCP 3.0. Заявлена поддержка 400G-адаптеров NVIDIA/Mellanox ConnectX-7. Подсистема хранения данных представлена четырьмя и шестью отсеками U.2 NVMe/SATA соответственно.

СЖО, применённая в новых серверах GIGABYTE, разработана в сотрудничестве с CoolIT Systems. Контуры охлаждения центральных процессоров и графических ускорителей NVIDIA разделены; последние используют фитинги и шланги большего диаметра, поскольку основная тепловая нагрузка придётся именно на ускорители. Соответствует и подсистема питания: это два блока питания мощностью 3 кВт у модели высотой 2U и целых четыре (3+1) таких блока у 4U-модели.

Постоянный URL: http://servernews.ru/1061015
02.12.2021 [21:22], Алексей Степин

Суперкомпьютер NREL Kestrel получит неанонсированные ускорители NVIDIA A100NEXT

Заметная часть недавно анонсированных проектов HPC-систем c заявленной производительностью от десятков петафлопс базируется на использовании процессоров AMD EPYC и ускорителей Instinct, однако NREL остановила свой выбор на Intel Xeon Sapphire Rapids и грядущих ускорителях NVIDIA A100NEXT. Последние ещё не анонсированы, но и 44-Пфлопс машина под названием Kestrel должна вступить в строй лишь в 2023 году.

Вероятнее всего, новые ускорители будут представлены NVIDIA в следующем году, что неплохо согласуется с планами компании по выпуску новых решений каждые два года. К сожалению, точных технических данных, относящихся к NVIDIA A100NEXT пока нет. Можно лишь осторожно предположить, что следующая итерация ускорителей получит более тонкий техпроцесс 5-нм класса, и удвоит число вычислительных блоков благодаря переходу на чиплетную компоновку, например, из четырёх кристаллов по 25 млрд транзисторов.

 Cуперкомпьютер Eagle. Фото: NREL

Cуперкомпьютер Eagle. Фото: NREL

Причины, по которым NREL решила использовать процессоры Sapphire Rapids не совсем ясны. И хотя это заведение исторически тяготело к CPU Intel — текущий суперкомпьютер Eagle производительностью 8 Пфлопс построен на базе Intel Xeon Skylake-SP и почти лишён ускорителей, — у NVIDIA будут собственные процессоры Grace, выход которых намечен на 2023 год. Возможно, такое решение принято, чтобы избежать проблем с поставками CPU NVIDIA. К тому же процессоры Intel поддерживают AVX-512, причём в Sapphire Rapids есть поддержка новых форматов (AVX-512 FP16) и расширения для матричных вычислений Intel AMX.

Основой же новой системы Kestrel станет платформа HPE Cray EX с интерконнектом HPE Slingshot и СХД Cray ClusterStor E1000 общей ёмкостью более 75 Пбайт. Что касается охлаждения, то Kestrel, как и его предшественники, будет использовать СЖО с «горячим» теплоносителем. Это позволит достигнуть высокой энергоэффективности — средний коэффициент PUE нового суперкомпьютера составит примерно 1,036. Для организации, занимающейся поиском эффективных и чистых источников энергии такой подход выглядит более чем обоснованно.

Постоянный URL: http://servernews.ru/1055055
19.11.2021 [16:02], Владимир Мироненко

В Yandex.Cloud стали доступны инстансы с NVIDIA A100 (80 Гбайт)

В Yandex.Cloud появились ускорители NVIDIA A100 (80 Гбайт). Они уже доступны в виртуальных серверах, для разработки и эксплуатации ИИ-моделей в Yandex DataSphere, а также при работе с облачными сервисами контейнерной разработки (Managed Service for Kubernetes). Они уже используются «М.Видео-Эльдорадо» и VizorLabs, а также участниками программы Yandex.Cloud для науки и образования.

В настоящее время доступны конфигурации виртуальных машин с одним (28 vCPU, 119 Гбайт RAM) и восемью (224 vCPU, 952 Гбайт RAM) NVIDIA A100 в зоне доступности ru-central1-a. В ближайшем будущем список предложений пополнится ВМ с двумя и четырьмя GPU NVIDIA A100. Инстансы используют процессоры AMD EPYC и PCIe-версии ускорителей с поддержкой NVLink. vGPU-решения будут доступны в сервисе Yandex DataSphere. GPU-инстансы доступны всем пользователям Yandex.Cloud после запроса на увеличение квоты на них.

 Фото: Яндекс

Фото: Яндекс

Скорость развёртывания решений составляет всего несколько минут после оформления заказа (включая время на загрузку ОС). Стоимость аренды минимальной конфигурации с одним GPU и 3-Гбайт накопителем составляет 6460,34 руб./день. Yandex.Cloud предлагает систему скидок — так, есть возможность резервирования ресурсов на длительный срок и доступны прерываемые инстансы (не более 24 ч. непрерывной работы + принудительная остановка в любой момент) для расчёта краткосрочных задач.

Постоянный URL: http://servernews.ru/1054124
Система Orphus