Материалы по тегу: b200
15.03.2025 [14:08], Сергей Карасёв
Supermicro представила GPU-серверы на базе Intel Xeon 6900P и AMD EPYC 9005/9004
amd
b200
emerald rapids
epyc
genoa
granite rapids
hardware
intel
nvidia
sapphire rapids
supermicro
turin
xeon
ии
сервер
Компания Supermicro представила большое количество серверов, рассчитанных на ИИ-задачи, НРС-нагрузки и периферийные вычисления. В частности, дебютировали системы в форм-факторе 10U с возможностью установки восьми ускорителей NVIDIA B200 (SXM): это системы SuperServer SYS-A22GA-NBRT, SuperServer SYS-A21GE-NBRT и A+ Server AS-A126GS-TNBR. Модель SuperServer SYS-A22GA-NBRT рассчитана на два процессора Intel Xeon 6900P семейства Granite Rapids, каждый из которых может насчитывать до 128 ядер (TDP до 500 Вт). Доступны 24 слота для модулей оперативной памяти DDR5-8800 MRDIMM суммарным объёмом до 6 Тбайт. Есть десять фронтальных отсеков для SFF-накопителей с интерфейсом PCIe 5.0 x4 (NVMe) и два коннектора для SSD типоразмера M.2 2280/22110/25110 (PCIe 4.0 x4 NVMe). Предусмотрены десять слотов для карт PCIe 5.0 x16 LP и два слота для карт PCIe 5.0 x16 FHHL. Питание обеспечивают шесть блоков мощностью 5250 Вт. Реализовано воздушное охлаждение. Вариант SuperServer SYS-A21GE-NBRT поддерживает установку двух процессоров Intel Xeon поколения Emerald Rapids или Sapphire Rapids, содержащих до 64 вычислительных ядер (с показателем TDP до 350 Вт). Доступны 32 слота для модулей DDR5-4400/5600 максимальным объёмом 8 Тбайт. Предусмотрены десять отсеков для накопителей SFF (PCIe 5.0 x4 NVMe), два коннектора M.2 2280 (PCIe 3.0 x4 NVMe), восемь слотов PCIe 5.0 x16 LP, два слота PCIe 5.0 x16 FHHL, шесть блоков питания мощностью 5000 Вт. Модель A+ Server AS-A126GS-TNBR, в свою очередь, может комплектоваться двумя чипами AMD EPYC 9005 Turin или EPYC 9004 Genoa (максимум 192 ядра, до 500 Вт). Доступны 24 слота для модулей DDR5-6000 суммарным объёмом до 9 Тбайт. Реализованы десять фронтальных SFF-отсеков (8 × NVMe и 2 × SATA), два коннектора M.2 NVMe, восемь слотов PCIe 5.0 x16 LP и два слота PCIe 5.0 x16 FHHL. Задействованы шесть блоков питания мощностью 5250 Вт с сертификатом Titanium. Машина оборудована воздушным охлаждением. Кроме того, Supermicro представила компактный сервер SYS-112D-36C-FN3P, в основу которого положена аппаратная платформа Intel Xeon 6 SoC (Granite Rapids-D), оптимизированная специально для сетевых и периферийных устройств. Эта модель наделена двумя портами 100GbE QSFP28 и слотом PCIe 5.0 FHFL. Поддерживается до 512 Гбайт памяти DDR5. Дебютировали системы SYS-E201-14AR и SYS-E300-14AR, рассчитанные на задачи IoT и ИИ на периферии.
08.03.2025 [22:45], Владимир Мироненко
Первый ЦОД Stargate получит 64 тыс. ИИ-ускорителей NVIDIA GB200 к концу 2026 годаВ ближайшие месяцы OpenAI и Oracle в рамках ИИ-мегапроекта Stargate начнут установку оборудования в первом ЦОД в техасском городе Абилин (Abilene), сообщил Bloomberg со ссылкой на информированные источники. По словам собеседника Bloomberg, к концу 2026 года в этом дата-центре будет размещено 64 тыс. ИИ-ускорителей NVIDIA GB200. Монтаж оборудования в нескольких залах дата-центра будет выполнен в несколько этапов. К лету на первом этапе здесь будет установлено 16 тыс. чипов NVIDIA GB200. Стоимость оборудования не раскрывается, но строительство только одного объекта Stargate, по оценкам, обойдётся в несколько миллиардов долларов. Представитель OpenAI рассказал Bloomberg, что стартап работает вместе с Oracle над архитектурой и поставками для первого ЦОД в Абилине, и что Oracle отвечает за развёртывание и эксплуатацию суперкомпьютера, который строится в данном ЦОД. Ранее OpenAI сообщала, что в рамках проекта Stargate будет построено 10 ЦОД на территории США, включая несколько дата-центров на территории Техаса. Желание поддержать проект выразили 16 штатов, включая Аризону, Калифорнию, Флориду, Луизиану, Мэриленд, Неваду, Нью-Йорк, Огайо, Орегон, Пенсильванию, Юту, Техас, Вирджинию, Вашингтон, Висконсин и Западную Вирджинию. В стремлении нарастить вычислительные мощности совместное предприятие Stargate далеко не одиноко. Недавно стартап xAI, курируемый Илоном Маском (Elon Musk), заключил с Dell сделку стоимостью $5 млрд на поставку ИИ-серверов для суперкомпьютера Colossus в Мемфисе. Более года назад Meta✴ заявила, что к концу 2024 года планирует достичь вычислительной мощности, равной 600 тыс. ИИ-ускорителей NVIDIA H100. А CoreWeave заявила, что у неё есть более 250 тыс. ускорителей NVIDIA, размещённых в 32 ЦОД.
22.02.2025 [22:45], Сергей Карасёв
В облаке Google Cloud появились инстансы A4X на базе суперускорителей NVIDIA GB200 NVL72Облачная платформа Google Cloud объявила о запуске виртуальных машин A4 с ускорителями NVIDIA B200 и A4X на основе суперускорителей NVIDIA GB200 NVL72 поколения Blackwell. Эти инстансы ориентированы на ресурсоёмкие приложения ИИ. По заявлениям Google, виртуальные машины A4 обеспечивают высокий уровень производительности при работе с ИИ-моделями на различных архитектурах. Инстансы подходят для таких рабочих нагрузок, как обучение и тонкая настройка. В свою очередь, экземпляры A4X специально созданы для обучения и обслуживания самых требовательных и сверхмасштабных задач ИИ, включая большие языковые модели (LLM) с наиболее ёмкими контекстными окнами и «рассуждающие» модели. Суперускорители GB200 NVL72 объединяют в одной стойке 72 чипа B200 и 36 процессоров Grace. Применяются шина NVLink 5 и инфраструктура жидкостного охлаждения Google третьего поколения. Каждая система GB200 NVL72 обеспечивает быстродействие до 1,44 Эфлопс в режиме FP4 и до 720 Пфлопс в режиме FP8. По заявлениям Google, достигается четырёхкратное увеличение производительности при обучении LLM по сравнению с виртуальными машинами A3 на базе ускорителей NVIDIA H100. Инстансы A4X допускают масштабирование до десятков тысяч графических процессоров Blackwell. Говорится об интеграции с сервисами хранения Cloud Storage FUSE, Parallelstore и Hyperdisk ML, что обеспечивает доступ к данным с малой задержкой (менее 1 мс) и высокую пропускную способность. Новые виртуальные машины будут развёрнуты в различных регионах Google Cloud. Нужно отметить, что ранее о запуске общедоступных инстансов на базе NVIDIA GB200 NVL200 объявила компания CoreWeave, предоставляющая облачные услуги для ИИ-задач. Скоро эти суперускорители станут доступны и в облаке Lambda Labs.
05.02.2025 [12:07], Сергей Карасёв
В облаке CoreWeave появились суперускорители NVIDIA GB200 NVL72Компания CoreWeave, предоставляющая облачные услуги для ИИ-задач, объявила о запуске первых в отрасли общедоступных инстансов на базе NVIDIA Blackwell. Они предназначены для наиболее ресурсоёмких нагрузок, включая работу с «рассуждающими» моделями ИИ. Инстансы используют суперускорители NVIDIA GB200 NVL72. Такие устройства объединяют в одной стойке 18 узлов 1U, каждый из которых содержит два ускорителя GB200: в сумме это даёт 72 чипа B200 и 36 процессоров Grace. Применяются шина NVLink 5 и система жидкостного охлаждения. Экземпляры CoreWeave на основе GB200 NVL72 оснащены интерконнектом NVIDIA Quantum-2 InfiniBand, который обеспечивает пропускную способность 400 Гбит/с в расчёте на GPU. Возможно формирование кластеров, насчитывающих до 110 тыс. графических процессоров. Платформа мониторинга CoreWeave Observability Platform в режиме реального времени предоставляет информацию о производительности NVLink, загрузке GPU и температуре узлов. В составе инстансов также задействованы DPU NVIDIA BlueField-3. ![]() Источник изображения: NVIDIA По заявлениям CoreWeave, новые экземпляры обеспечивают прирост производительности до четырёх раз при обучении больших языковых моделей (LLM) по сравнению с решениями предыдущего поколения. Совокупная стоимость владения сокращается в 25 раз и во столько же снижается энергопотребление на задачах инференса в реальном времени. Вместе с тем быстродействие инференса может быть увеличено до 30 раз. Ожидается, что запуск инстансов с суперускорителями NVIDIA GB200 NVL72 поможет в создании моделей следующего поколения и ИИ-агентов. На сегодняшний день экземпляры доступны через CoreWeave Kubernetes Service в регионе US-WEST-01 — пара GB200 обойдётся в $42/час.
04.02.2025 [12:03], Владимир Мироненко
Google представила превью инстансов A4 на базе ускорителей NVIDIA B200Google объявила о предварительной доступности инстансов A4 на базе новых ускорителей B200 от NVIDIA с архитектурой архитектуры Blackwell. Инстанс A4 обеспечивает значительный прирост производительности по сравнению с предшественником A3. A4 используют системы NVIDIA HGX B200 с восемью ускорителями, объединёнными посредством NVIDIA NVLink. Как отметила компания, NVIDIA HGX B200 предлагает в 2,25 раза большую пиковую вычислительную мощность и в 2,25 раза большую ёмкость HBM по сравнению с инстансами A3, что делает A4 универсальным вариантом для обучения и тонкой настройки широкого спектра архитектур моделей, в то время как увеличенная вычислительная мощность и ёмкость HBM делают их подходящим вариантом для обработки нагрузок с низкой задержкой. Инстансы A4 интегрируют инфраструктурные инновации Google, включая улучшенные сетевые возможности с использованием адаптеров Titanium ML, поддержку управляемой службы кластера Google Kubernetes Engine и доступ через полностью управляемую унифицированную платформу Vertex AI для разработки и использования генеративного ИИ. Также используется открытое ПО: в дополнение к использованию фреймворка МО PyTorch и CUDA компания сотрудничает с NVIDIA для оптимизации JAX и XLA. Как отметила компания, эффективное масштабирование обучения модели ИИ требует точной и масштабируемой оркестрации ресурсов инфраструктуры. При этом рабочие нагрузки часто охватывают тысячи виртуальных машин. Специализированная платформа Hypercompute Cluster позволит развёртывать и управлять большими кластерами виртуальных машин A4 с вычислениями, хранением и сетями как единым целым, обеспечивая при этом высокую производительность и устойчивость для больших распределённых рабочих нагрузок.
28.01.2025 [12:10], Сергей Карасёв
Pegatron поставит суперускорители NVIDIA GB200 NVL72 ИИ-стартапу Lambda LabsСтартап Lambda Labs, по сообщению ресурса Datacenter Dynamics, заключил партнёрское соглашение с серверным подразделением тайваньского ODM-производителя компьютерных комплектующих Pegatron. В рамках договора Pegatron развернёт суперускорители NVIDIA GB200 NVL72 для ИИ-инфраструктуры Lambda Labs. Напомним, фирма Lambda Labs была основана в 2012 году. Она предоставляет услуги облачных ИИ-вычислений с использованием собственных систем, оснащённых ускорителями NVIDIA, а также процессорами AMD и Intel. Кроме того, компания продаёт рабочие станции на базе GPU и предоставляет услуги колокации. Lambda Labs провела несколько раундов финансирования: полученные средства направляются на наращивание вычислительных мощностей и увеличение штата. В июле 2024 года сообщалось, что у суперускорителей с чипами NVIDIA GB200 возникли проблемы с СЖО: из-за дефектных компонентов фиксировались протечки. А в ноябре появилась информация, что стойки NVL72 перегревались, в связи с чем NVIDIA была вынуждена обратиться к поставщикам с просьбой внести ряд изменений в конструкцию стоек. Кроме того, NVIDIA и Schneider Electric занялись разработкой эталонной архитектуры охлаждения для ЦОД на основе GB200 NVL72. Впрочем, на текущий момент все проблемы устранены, а NVIDIA и партнёры организовали полномасштабное производство серверов на базе Blackwell. При этом клиенты уже приступили к монтажу суперускорителей GB200 NVL72. Такие системы, в частности, устанавливает стартап xAI Илона Маска (Elon Musk). Как отмечается, стратегическое партнёрство с Lambda Labs позволит Pegatron выйти на стремительно расширяющийся рынок ИИ-серверов. Первая система GB200 NVL72 (производства Supermicro), принадлежащая Lambda, была запущена на прошедших выходных в «водородном» дата-центре EdgeCloudLink.
18.01.2025 [22:31], Владимир Мироненко
CoreWeave поставит IBM ИИ-суперкомпьютер на базе NVIDIA GB200 NVL72 для обучения моделей GraniteCoreWeave и IBM заключили соглашение о сотрудничестве, в рамках которого стартап поставит IBM один из первых своих ИИ-суперкомпьютеров на базе NVIDIA GB200 NVL72 с интерконнектом Quantum-2 InfiniBand. В качестве хранилища будет использоваться высокопроизводительная All-Flash СХД IBM Storage Scale System. IBM будет использовать облачную платформу CoreWeave для обучения семейства больших языковых моделей (LLM) Granite. Сообщается, что облачная платформа CoreWeave специально создана для обеспечения ведущей в отрасли производительности, надёжности и отказоустойчивости с безопасностью корпоративного уровня. Фирменный набор ПО и облачные сервисы предоставляют инструменты, необходимые для управления самой сложной и масштабной ИИ-инфраструктурой. В рамках соглашения о сотрудничестве клиенты CoreWeave получат доступ к платформе IBM Storage. По словам вице-президента по ИИ в IBM Research, платформа CoreWeave позволит дополнить возможности IBM при разработке передовых, производительных и экономичных моделей для поддержки корпоративных приложений и ИИ-агентов. В свою очередь, IBM Storage Scale System расширяет возможности CoreWeave. «В рамках сотрудничества мы будем использовать этот суперкомпьютер для продвижения открытых технологий, таких как Kubernetes, которые будут поддерживать вычисления ИИ в гибридной облачной среде», — добавил представитель IBM. Вероятно, IBM не хватает собственных вычислительных ресурсов — в ноябре появилась информация о том, что компания готова арендовать у AWS ИИ-ускорители за почти полмиллиарда долларов.
17.01.2025 [15:17], Владимир Мироненко
NVIDIA строит в Израиле ИИ-суперкомпьютер стоимостью $500 млнNVIDIA построит за $500 млн на севере Израиля 30-МВт научно-исследовательский суперкомпьютер на базе ускорителей Blackwell последнего поколения стоимостью около полмиллиарда долларов, сообщил The Register. Строительство кластера началось ещё в прошлом году, а закончить его планируется в I полугодии 2025 года. Кластер будет располагаться на объекте площадью 10 тыс. м2 в научно-промышленном парке Mevo Carmel недалеко от Йокнеам-Илита (Yokne'am Illit). По словам компании, он получит сотни систем Blackwell с фирменным жидкостным охлаждением, DPU BlueField-3 SuperNIC, коммутаторами Spectrum-X800 и Quantum-X800. Как полагает The Register, кластер будет использоваться NVIDIA для разработки технологий ЦОД следующего поколения. Точное количество ускорителей не указано. У NVIDIA есть несколько эталонных систем Blackwell с жидкостным охлаждением и различным количеством ускорителей. Согласно публикациям израильских СМИ, полная конфигурация нового суперкомпьютера будет включать «несколько тысяч» GPU, что позволит ему соперничать с национальным суперкомпьютером Israel-1. Israel-1 построен на 2048 ускорителях NVIDIA H100, объединённых с помощью 80 коммутаторов Spectrum-4. Суперкомпьютер имеет пиковую FP64-производительность до 137 Пфлопс, а FP8 — до 8 Эфлопс. The Register отметил, что на реализации проекта могут отразиться новые экспортные ограничения США. Согласно правилам AI Diffusion rule, Израиль относится к странам второго уровня с квотой на поставку до 50 тыс. передовых ускорителей в течение двухлетнего периода (2025–2027 гг.). Впрочем, эти правила вступят в силу через 120 дней с момента публикации, поэтому у NVIDIA в запасе достаточно времени для поставки необходимого количества ускорителей в Израиль. С учётом прочных связей Израиля с США есть большая вероятность того, что стране будет предоставлен статус National Verified End User, что увеличит лимит импорта до 320 тыс. ускорителей в течение двухлетнего периода, отметил The Register.
19.12.2024 [10:27], Сергей Карасёв
Стартап xAI начал монтаж суперускорителей NVIDIA GB200 NVL72 для ИИ-кластера ColossusСтартап xAI Илона Маска (Elon Musk), по сообщению ресурса ServeTheHome, приступил к расширению мощности ИИ-кластера Colossus. Речь идёт о монтаже суперускорителей NVIDIA GB200 NVL72 на архитектуре Blackwell. В начале сентября уходящего года компания xAI запустила ИИ-суперкомпьютер Colossus, в основу которого изначально легли 100 тыс. ускорителей NVIDIA H100. Сообщалось, что в дальнейшем количество ускорителей NVIDIA планируется увеличить вдвое. В начале декабря стартап получил $6 млрд инвестиций с целью увеличения числа ускорителей в составе Colossus до 1 млн штук. Отмечалось, что проект по расширению ИИ-кластера реализуется в партнёрстве с NVIDIA, Dell и Supermicro. Вместе с тем ранее появилась информация, что Dell перехватила у Supermicro крупный заказ на ИИ-серверы для xAI. Судя по всему, именно Dell является поставщиком систем GB200 NVL72 для комплекса Colossus. На днях специалист xAI Удай Руддарраджу (Uday Ruddarraju) опубликовал на своей странице в социальной сети Х фотографию новых серверных модулей в составе Colossus. На снимке видны вычислительные узлы и лотки с коммутаторами NVLink. Наблюдатели отмечают, что компоненты пока не подключены к основной сети, на что указывает отсутствие оптоволоконных соединений. Вместе с тем уже подсоединены низкоскоростные сети управления. В узлах установлены карты NVIDIA Bluefield-3. В отражении от шара с логотипом xAI просматриваются стойки с оборудованием. Предположительно, это системы производства Dell. Ранее глава этой компании Майкл Делл (Michael Dell) объявил о начале поставок первых в мире серверных стоек GB200 NVL72. Кроме того, Dell представила систему PowerEdge XE9712, которая использует архитектуру суперускорителя GB200 NVL72.
18.12.2024 [15:45], Руслан Авдеев
Microsoft купила как минимум вдвое больше ускорителей NVIDIA, чем любой из конкурентовПо оценкам аналитиков Omdia, Microsoft приобрела вдвое больше флагманских ускорителей NVIDIA в сравнении с любым из своих конкурентов. В Omdia подсчитали, что в 2024 году IT-гигант приобрёл 485 тыс. ускорителей NVIDIA Hopper, следующий по масштабу покупатель из США — компания Meta✴ купила всего 224 тыс. ускорителей. Заметно отстают и AWS с Google, сообщает The Financial Times В последние пару лет спрос на передовые ускорители превышает предложение. В этом году техногиганты потратили на ЦОД на основе новейших чипов NVIDIA Blackwell десятки миллиардов долларов, а венчурные инвесторы вкладывают огромные средства в ИИ-технологии несмотря на пока низкую отдачу. Облачная инфраструктура Microsoft активно используется не только самой корпорацией, но и OpenAI, в том числе для обучения новейшей модели o1. Идёт непрекращающееся соревнование с Google, стартапами вроде Anthropic и xAI, не говоря уж о китайских конкурентах. Так, по оценкам Omdia китайские ByteDance и Tencent заказали по 230 тыс. ускорителей NVIDIA только в этом году, включая ослабленную модель H20. Amazon и Google, наряду с Meta✴ работающие над внедрением собственных ускорителей, пока приобрели 196 тыс. и 169 тыс. Hopper соответственно. Microsoft, инвестировавшая $13 млрд в OpenAI, является наиболее агрессивно среди других американским IT-гигантов наращивает инфраструктуру ИИ ЦОД. Кроме того, она предлагает и собственные ИИ-сервисы вроде Copilot. В этом году компания заказала втрое больше чипов NVIDIA того же поколения, чем в 2023-м. Во второй половине октября сообщалось, что компания стремительно наращивает закупки суперускорителей NVIDIA GB200 NVL. Про данным Omdia, на серверы технологические компании мира потратят в 2024 году $229 млрд. Впереди Microsoft с $31 млрд капитальных расходов и Amazon c $26 млрд. 10 ведущих покупателей инфраструктуры ЦОД, включая xAI и CoreWeave, обеспечивают 60 % вложений в вычислительные мощности. На NVIDIA приходится 43 % трат на серверы. Хотя NVIDIA всё ещё доминирует на рынке ИИ-чипов, AMD активно пытается составить ей конкуренцию. В этом году Meta✴ приобрела 173 тыс. ускорителей MI300, а Microsoft — 96 тыс. Также крупные компании используют и чипы собственной разработки. Google уже десять лет разрабатывает TPU, а у Meta✴ есть два поколения MTIA — обе компании внедрили по 1,5 млн собственных чипов. Amazon развернула 1,3 млн ускорителей Trainium и Inferentia. Для Anthropic компания намерена построить кластер из сотен тысяч Trainium для обучения новейшего поколения ИИ-моделей. Amazon уже инвестировала в стартап $8 млрд. При этом сама Microsoft, хоть и выпускает собственные полупроводниковые продукты, конкурирующие с NVIDIA, но внедрила в этом году только 200 тыс. чипов Maia. Чипы NVIDIA всё ещё нужны Microsoft для предоставления «уникальных» сервисов. Правда, для этого компании дополнительно нужны инфраструктура, ПО и другие компоненты экосистемы. В начале ноября появилась информация, что Microsoft по итогам I квартала 2025 финансового года не хватает ресурсов для обслуживания ИИ, но компания готова и далее вкладываться в ЦОД, хотя инвесторам это не по нраву. Более того, Microsoft потратит $10 млрд на аренду ИИ-серверов у CoreWeave. |
|