Материалы по тегу: a100
09.05.2023 [01:01], Сергей Карасёв
Ускоритель NVIDIA A800 для Китая стоит около $14,5 тыс.В интернете, по сообщению ресурса VideoCardz, появились подробности о характеристиках ускорителя NVIDIA A800 — урезанной версии NVIDIA А100, созданной специально для китайского рынка. Это решение предлагается по ориентировочной цене $14,5 тыс. На аналогичный шаг с выпуском особых версий ускорителей для Китая пошла и Intel. В условиях жёстких американских санкций в отношении Китая компания NVIDIA вынуждена создавать специализированные ускорители для рынка КНР с ограниченной производительностью. Снижение производительности в случае A800 объясняется прежде всего ограничениями в плане масштабируемости: можно использовать до восьми SXM-изделий против 16 для А100. Кроме того, пропускная способность интерконнекта NVLink составляет 400 Гбайт/с против 600 Гбайт/с у оригинальной версии. Хотя вычислительная мощность на нагрузках FP32 и FP64 оказывается сопоставимой. У А800 показатели, по данным NVIDIA, достигают соответственно 19,5 Тфлопс и 9,7 Тфлопс, что и у A100. Тензорные ядра для BF16/FP16 выдают те же 312 Тфлопс (624 Тфлопс с разреженностью). Ускорители серии NVIDIA A800 существуют в вариантах PCIe с 40 и 80 Гбайт памяти HBM2e (с воздушным или жидкостным охлаждением), а также в модификации SXM с 80 Гбайт памяти.
15.02.2023 [19:03], Алексей Степин
SK Telecom удвоила мощность ИИ-суперкомпьютера Titan, ответственного за работу корейского варианта GPT-3Южная Корея — одна из стран, наиболее активно вкладывающих массу ресурсов в развитие собственной суперкомпьютерной инфраструктуры, в том числе, в разработку собственных процессоров и ускорителей. Уделяет она серьёзное внимание и модернизации существующих HPC-систем, что актуально в свете бурного развития ИИ, особенно нейросетевых языковых моделей. Крупный южнокорейский телеком-провайдер, компания SK Telecom объявила серьёзной модернизации суперкомпьютера Titan, который является «мозгом» для ИИ-модели Aidat (A dot) — корейского варианта знаменитой GPT-3. Впервые эта сеть дебютировала в мае прошлого года в качестве ИИ-помощника SK, помогающего с рекомендациями для выбора аудио- и видеоконтента владельцам смартфонов. ![]() Источник: SK Telecom Titan не имеет отношения к уже демонтированному кластеру Окриджской национальной лаборатории — это система, базирующаяся на серверах HPE Apollo 6500 с процессорами AMD EPYC 7763 (64C/128T, 2,45 ГГц) и в ноябре 2022 года занявшая 92 место в TOP500 с результатом 6,29 Пфлопс. Суперкомпьютер использует ускорители NVIDIA A100 (80 Гбайт) и интерконнект InfiniBand HDR. Деталей о обновлении системы SK Telecom практически не раскрывает, но известно, что количество ускорителей доведено до 1040, и это позволило достичь модернизированному кластеру пиковой производительности на уровне 17,1 Пфлопс, что более чем вдвое превосходит предыдущий показатель. Компания отмечает, что апгрейд позволит использовать ещё более сложные модели, что должно улучшить качество ответов Aidat.
09.11.2022 [14:50], Владимир Мироненко
Производители специально ухудшают характеристики чипов для китайских серверов, чтобы избежать санкций СШАВ связи с вводом Соединёнными Штатами новых экспортных ограничений на поставки в Китай, производители стали намеренно снижать производительность чипов, чтобы соответствовать требованиям экспортного контроля США и избежать проблем с получением специальных лицензий. Как отметил ресурс The Register, у систем, построенных на чипах NVIDIA, изготовленных на производственных мощностях TSMC для поставок в Китай, характеристики хуже по сравнению с теми, что были ранее. В частности, китайский производитель серверов Inspur указал на использование вместо ускорителя NVIDIA A100 чипа A800, разработанного NVIDIA специально для Китая в соответствии с экспортными ограничениями. Китайские производители H3C и Omnisky тоже представили решения на базе A800. Данный ускоритель, по словам NVIDIA, начала производиться в III квартале этого года. ![]() Источник изображения: Inspur У A800 скорость передачи данных составляет 400 Гбайт/с, тогда как у A100 этот показатель равен 600 Гбайт/с, причём обойти эти ограничения, по словам NVIDIA, невозможно. Речь, судя по всему, идёт о характеристиках интерконнекта NVLink, которые прямо влияют на производительность кластеров из двух и более ускорителей в машинном обучении и других задачах. Изменения касаются 40- и 80-Гбайт вариантов с интерфейсами PCIe и SXM. Между тем ускорители, находящиеся в разработке и выпускаемые TSMC по контракту с Alibaba и стартапом Biren Technology, тоже, как сообщается, имеют пониженную скорость передачи данных. Это позволит выпускать данные чипы на заводе TSMC, не опасаясь санкций США. До этого TSMC приостановила выпуск 7-нм чипов ускорителей Biren BR100 как раз из-за возможных санкций со стороны Вашингтона.
15.08.2022 [19:25], Сергей Карасёв
Tesla похвасталась седьмым по величине GPU-суперкомпьютером в миреТим Заман, руководитель отдела искусственного интеллекта и средств автопилотирования Tesla, сообщил о том, что компания Илона Маска в настоящее время эксплуатирует седьмой по величине суперкомпьютер в мире. Правда, речь идёт лишь о числе используемых в системе ускорителей. По словам господина Замана, вычислительный комплекс Tesla недавно подвергся апгрейду. В результате общее число задействованных акселераторов NVIDIA A100 (80 Гбайт) выросло до 7360 шт. В прошлом году Tesla представила свой новый кластер, насчитывающий 720 узлов, каждый из которых оборудован восемью ускорителями A100. Таким образом, в общей сложности на момент анонса использовались 5760 акселераторов. Заявленное быстродействие достигало 1,8 Эфлопс (FP16). В рамках обновления система получила ещё 1600 шт. таких же ускорителей. Результирующую производительность Tesla пока не раскрывает, но она могла увеличиться примерно на четверть. Система предназначена для обучения ИИ-моделей, отвечающих за работу средств автопилотирования в электромобилях компании. Попутно Tesla разрабатывает суперкомпьютер Dojo. Он будет оснащён собственными 7-нм чипами D1 (FP32). Каждый чип будет иметь площадь 645 мм2 и содержать 50 млрд транзисторов.
29.06.2022 [20:00], Алексей Степин
NVIDIA снова ставит рекорды в ИИ-бенчмарке MLPerf TrainingСегодня вышла очередная версия бенчмарка MLPerf Training для оценки производительности ИИ-ускорителей в различных сценариях, максимально приближённых к реальным. Всего в состав версии 2.0 входит 8 различных тестах в четырёх категориях. NVDIA — давний и наиболее активный участник проекта MLPerf, именно результаты различных систем на базе ускорителей NVIDIA составляют 90% от всего объёма рейтинга. Также это единственный участник, стабильно принимающий участие во всех дисциплинах. В новой версии MLPerf 2.0 ускорители NVIDIA A100 вновь оказались единственными, охватившими все тесты. А суперкомпьютер Selene и вовсе продемонстрировал лидерство в шести дисциплинах MLPerf из восьми, уступив место лишь Intel Habana Gaudi 2 в тесте RN-50 и Google TPU v4 в тесте RetinaNet. Всего в «забеге» со стороны NVIDIA приняли участие 16 партнёров со своими платформами, в их число вошли такие известные компании, как ASUS, Baidu, CASIA, Dell Technologies, Fujitsu, GIGABYTE, H3C, HPE, Inspur, Lenovo, Nettrix и Supermicro. Большая часть из них запускала MLPerf 2.0 на системах, имеющих сертификацию самой NVIDIA. Опираясь на результаты тестов, NVIDIA говорит, что пока только она в состоянии предложить коммерческому клиенту законченную платформу, способную выполнять все стадии какого-либо ИИ-сценария: к примеру, от распознавания произнесённой фразы до поиска и классификации нужной для ответа информации, и наконец, озвучивания самого ответа. А использование унифицированной платформы вместо нескольких отдельных, закономерно снижает и стоимость владения, и сложность обслуживания и настройки. К тому же, такая платформа имеет задел на будущее, особенно с учётом того, что на смену A100 вскоре начнёт приходить новый флагман NVIDIA в лице H100. Любопытные факты: за два года, прошедшие с первого участия A100 в тестировании, производительность удалось поднять в 6 раз за счёт оптимизаций программного стека, а за 3,5 года с момента начала участия NVIDIA в проекте MLPerf она выросла ещё больше, в целых 23 раза.
31.05.2022 [00:16], Алексей Степин
ИИ-суперкомпьютер HPE Champollion позволит поставить разработку новых моделей машинного обучения на потокКомпания Hewlett Packard Enterprise (HPE) опубликовала сведения о новом французском суперкомпьютере Champollion, названном в честь знаменитого египтолога и лингвиста Жана-Франсуа Шампольона, открывшего миру с помощью Розеттского камня значение египетских иероглифов. Название выбрано не зря — новый кластер должен помочь в разработке новых, более совершенных и точных методов распознавания и обработки естественных языков. Но главная его изюминка не в этом. С точки зрения аппаратной архитектуры Champollion на сегодняшний день выглядит довольно обычно, являя собой кластер из 20 узлов HPE Apollo 6500 Gen 10 Plus, включающий в себя 160 ускорителей NVIDIA A100, объединённых «умной» InfiniBand-фабрикой NVIDIA Quantum-2. Каждому узлу полагается довольно много памяти — 4 Тбайт RAM + 30 Тбайт NVMe SSD. Но программная составляющая уникальна — машина будет работать под управлением стека HPE Machine Learning Development Environment. ![]() HPE Apollo 6500 Gen 10 Plus. Источник: HPE Можно сказать, что MLDE — это метасистема, созданная для разработки платформ и моделей машинного обучения. Она базируется на открытых решениях компании Determined, приобретённой HPE в 2021 году, и сохраняет с ней обратную совместимость, что позволит начать обучение какой-либо модели буквально «на дому», а затем воспользоваться более серьёзными ресурсами. ![]() Архитектура Machine Learning Development Environment. Источник: HPE Такое стандартизированное «поточное производство» моделей машинного обучения, совместимое с популярным инструментарием, вроде TensorFlow и PyTorch, упростит и ускорит все проекты, связанные с данной областью вычислений. Помимо обработки языковых данных и моделей ИИ нового поколения кластер будет использоваться в науке и промышленности. Размещается суперкомпьютер в ЦОД HPE Center of Excellence, который расположен в городе Гренобль, Франция. Вначале доступ к нему получат только избранные пользователи, но впоследствии HPE планирует предоставить более широкий доступ к ресурсам Champollion. Система является вкладом HPE в инициативу «AI for Humanity», провозглашенную президентом Франции Эммануэлем Макроном в 2018 году с целью развития индустрии и увеличения темпов экономического роста.
27.05.2022 [15:38], Владимир Мироненко
Meta* будет использовать облачный кластер Microsoft Azure для разработок в сфере ИИMicrosoft объявила о расширении сотрудничества с Meta*, выбравшей сервис Azure в качестве стратегического поставщика облачных услуг, что позволит ускорить ведение разработок в области ИИ. Любопытно, что Meta* второй раз при создании крупных систем обращается к сторонним подрядчикам, а не строит их сама — ранее компания анонсировала ИИ-суперкомпьютер RSC на базе узлов NVIDIA DGX A100. Для исследований в это сфере Meta* будет применять выделенный кластер Microsoft Azure с новейшими инстансами NDm A100 v4 на базе 5400 единиц ускорителей NVIDIA A100 и 1350 процессоров AMD Milan Epyc 7V13. Впервые Meta* начала использовать Microsoft Azure для исследований в сфере ИИ в прошлом году, но в гораздо меньших масштабах. Microsoft утверждает, что благодаря в четыре раза большей пропускной способности сети между виртуальными машинами по сравнению с другими публичными облачными решениями платформа Azure обеспечивает более быстрое распределенное обучение ИИ. Meta* использовала это преимущество, например, для обучения языковой модели OPT-175B. Инстансы Azure NDm A100 v4 также предоставляют клиентам возможность гибкой автоматической и динамической настройки кластеров любого размера от нескольких GPU до тысяч единиц, а также возможность приостанавливать и возобновлять работу во время экспериментов. Microsoft и Meta* также будут сотрудничать в разработке платформы машинного обучения PyTorch для Python, библиотеки с открытым исходным кодом, над которой работает лаборатория искусственного интеллекта Facebook*. Параллельно Meta* также заключила партнёрское соглашение с Amazon Web Services (AWS) с целью разработки PyTorch и решений в сфере ИИ. * Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».
24.05.2022 [07:00], Игорь Осколков
NVIDIA представила PCIe-ускорители A100 с интегрированным водоблоком СЖОВместе с новыми референсными платформами CGX, HGX и OVX на базе собственных Arm-чипов Grace NVIDIA в рамках Computex 2022 представила и ещё одну модификацию PCIe-версии ускорителя A100 (80 Гбайт), на этот раз с предустановленным водоблоком для подключения к СЖО. Новинка станет доступна в III квартале этого года, а в начале следующего появится аналогичная модификация ускорителя NVIDIA H100. Интересен тут не столько факт использования СЖО (для PCIe-варианта A100 водоблоки производит, к примеру, EK Water Blocks, и HGX-платформ с жидкостным охлаждением SXM-версии ускорителей не так уж мало), сколько неожиданно большой список партнёров, готовых предложить системы с новой модификацией A100: ASUS, ASRock Rack, Foxconn, GIGABYTE, H3C, Inspur, Inventec, Nettrix, QCT, Supermicro, Wiwynn и xFusion. В данном случае СЖО нужна в первую очередь не для существенного повышения производительности, как это обычно бывает в HPC-системах, а для повышения плотности размещения вычислительных мощностей и улучшения энергоэффективности. Новинка занимает всего один слот, что, по данным NVIDIA, позволяет сократить число используемых стоек на две трети при сохранении того же уровня производительности. Попутно можно почти на треть снизить затраты на электроэнергию. Правда, NVIDIA в своих заявлениях опирается не только на свои расчёты, но и на работы Equinix, одного из крупнейших в мире операторов ЦОД, который размещает у себя мощности NVIDIA LaunchPad и который в январе этого года создал выделенную площадку для изучения вопросов повышения энергоэффективности. В рамках данного проекта изучаются в том числе и СЖО. По оценкам NVIDIA, использование СЖО в рамках всего ЦОД позволяет добиться PUE на уровне 1,15, тогда как для традиционного дата-центра с воздушным охлаждением этот показатель равен 1,6, то есть разница как раз составляет около трети. Аналогичный результат получился и у Equinix. По данным Uptime Institute за 2020 год, среднемировой уровень PUE составлял 1,59. Для кампусов Equinix усреднённое значение PUE равно 1,48, а для самых новых площадок — менее 1,2.
19.05.2022 [17:57], Сергей Карасёв
Gigabyte представила высокопроизводительный Arm-сервер G492-PD0: Ampere Altra + 8 × NVIDIA A100Gigabyte анонсировала 4U-сервер G492-PD0, предназначенный для облачных платформ, систем ИИ и инфраструктур высокопроизводительных вычислений (HPC). Допускается установка одного процессора Ampere Altra (Max), насчитывающего до 128 ядер. Есть 16 слотов для модулей оперативной памяти DDR4-3200 ёмкостью до 256 Гбайт каждый. А главное — поддержка до восьми 80-Гбайт ускорителей NVIDIA A100 в составе HGX-платы Delta. ![]() Изображение: Gigabyte Technology Предусмотрены шесть посадочных мест для SFF-накопителей NVMe/SATA. Кроме того, могут быть задействованы четыре модуля M.2 формата 2260/2280/22110. Для всех накопителей предусмотрена поддержка PCIe 4.0, равно как и для десяти PCIe-слотов для низкопрофильных карт расширения. В оснащение входят двухпортовый сетевой контроллер 1GbE и выделенный 1GbE-порт управления для BMC ASPEED AST2500. Габариты сервера составляют 448 × 175,2 × 900 мм. Применена система воздушного охлаждения, включающая одиннадцать 80-мм вентиляторов и десять — 40-мм. Питается сервер от четырёх (3+1) БП мощностью 3 кВт каждый. Говорится о совместимости с программной платформой Ubuntu 20.04.1 LTS (ядро 5.8 или новее) и соответствии стандартам Arm SystemReady и Arm ServerReady.
27.02.2022 [14:35], Алексей Степин
GIGABYTE G262-ZL0 и G492-ZL2: NVIDIA HGX A100 с жидкостным охлаждениемНесмотря на то, что позиции классического воздушного охлаждения в мощных серверах ещё достаточно сильны, всё чаще и чаще выпускаются варианты, рассчитанные изначально под охлаждение жидкостное. Особенно это актуально с учётом того, что плотности упаковки вычислительных мощностей растут и отводить нагрев от многочисленных ускорителей становится всё сложнее. Два новых сервера GIGABYTE, G262-ZL0 и G492-ZL2, изначально рассчитаны на подключение к контурам СЖО в ЦОД. Новинки подходят для формирования HPC-систем, комплексов машинного обучения, аналитики «больших данных» и вообще для любых задач. Оба сервера рассчитаны используют платформу NVIDIA HGX с SXM4-ускорителеями A100 (80 Гбайт). В первой модели высотой 2U таких ускорителя четыре, во второй, более габаритной (4U) — восемь. Используются процессоры AMD EPYC 7003 (Milan), поддерживаются технологии NVLink и NVSwitch (для G492-ZL2). Дополнительно предусмотрены низкопрофильные слоты расширения: пять у G262-ZL0 и десять у G492-ZL2, кроме того, младшая модель имеет и слот для установки карт OCP 3.0. Заявлена поддержка 400G-адаптеров NVIDIA/Mellanox ConnectX-7. Подсистема хранения данных представлена четырьмя и шестью отсеками U.2 NVMe/SATA соответственно. СЖО, применённая в новых серверах GIGABYTE, разработана в сотрудничестве с CoolIT Systems. Контуры охлаждения центральных процессоров и графических ускорителей NVIDIA разделены; последние используют фитинги и шланги большего диаметра, поскольку основная тепловая нагрузка придётся именно на ускорители. Соответствует и подсистема питания: это два блока питания мощностью 3 кВт у модели высотой 2U и целых четыре (3+1) таких блока у 4U-модели. |
|