Материалы по тегу: nvidia
30.10.2024 [12:00], Сергей Карасёв
NVIDIA представила эталонные архитектуры для корпоративных ИИ-фабрикКомпания NVIDIA анонсировала инициативу Enterprise Reference Architectures (Enterprise RA), в рамках которой партнёры и заказчики смогут использовать эталонные архитектуры для построения собственных ИИ-платформ корпоративного уровня, рассчитанных на ресурсоёмкие нагрузки. NVIDIA отмечает, что на фоне перехода от вычислений общего назначения к ускоренным вычислениям предприятия сталкиваются с различными трудностями при проектировании и развёртывании инфраструктуры ЦОД. Это затрудняет разработку долгосрочных стратегий и снижает эффективность инвестиций. Инициатива Enterprise RA призвана решить проблемы. Эталонные архитектуры Enterprise RA помогут организациям минимизировать ошибки при проектировании так называемых фабрик ИИ (дата-центров для задач ИИ), предоставляя комплексные рекомендации по аппаратному и программному обеспечению, а также подробные указания по оптимальным конфигурациям серверов, кластеров и сетей. В результате клиенты смогут снизить затраты и сократить время, необходимое для построения вычислительной ИИ-инфраструктуры нового поколения. Среди преимуществ предлагаемого подхода названы масштабируемость и управляемость, высокий уровень безопасности (применяется принцип нулевого доверия), оптимальная производительность, снижение сложности систем и ускоренный выход на рынок. Эталонные архитектуры спроектированы таким образом, чтобы их можно было легко модернизировать в будущем. Говорится о совместимости с различными сторонними аппаратными и программными компонентами, но в перечень рекомендаций входят прежде всего решения самой NVIDIA, включая:
Решения на базе NVIDIA Enterprise RA будут предлагаться партнёрами NVIDIA, включая Dell, НРЕ, Lenovo и Supermicro.
29.10.2024 [20:28], Сергей Карасёв
Раскрыты подробности архитектуры ИИ-кластера xAI Colossus со 100 тыс. ускорителей NVIDIA H100Портал ServeTheHome рассказал подробности об архитектуре вычислительного кластера xAI Colossus, предназначенного для обучения крупных ИИ-моделей. Эта система использует 100 тыс. NVIDIA H100, а в дальнейшем количество ускорителей планируется увеличить вдвое. Это самый крупный из известных ИИ-кластеров на текущий момент. Оборудование для него поставили компании Dell и Supermicro. Стартап xAI, курируемый Илоном Маском (Elon Musk), объявил о запуске суперкомпьютера Colossus в начале сентября нынешнего года. Утверждается, что на создание системы потребовалось всего 122 дня. Причём с момента установки первой стойки с серверами до начала обучения ИИ-моделей прошло только 19 суток. Впрочем, как отмечают эксперты, поскольку машина является «однозадачной», т.е. в отличие от традиционных суперкомпьютеров предназначенной только для работы с ИИ, ускорить строительство было не так уж сложно, хотя результат всё равно впечатляющий. Как сообщается, в составе Colossus применены серверы на платформе NVIDIA HGX H100, оборудованные системой жидкостного охлаждения. Каждый узел Supermicro серии TNHR2-LCC типоразмера 4U содержит восемь ускорителей NVIDIA H100 и два CPU. Узел разделён на две половинки, одна с CPU и PCIe-коммутаторами и одна с HGX-платой, которые могут извлекаться независимо для простоты обслуживания. CPU, коммутаторы и ускорители охлаждаются посредством СЖО. Вентиляторы в шасси тоже есть. Воздух от них попадает на теплообменники на задней двери, которые уносят остаточное тепло. Холодных и горячих коридоров в ЦОД нет, воздух имеет одинаковую температуру во всём зале. В нижней части стоек располагается ещё один 4U-блок Supermicro для CDU с резервированием и поддержкой горячей заменой насосов. Каждый сервер имеет четыре блока питания с резервированием и возможностью горячей замены, которые подключены к трёхфазным PDU. Одна стойка объединяет восемь узлов NVIDIA HGX H100, между которыми располагаются коллекторы СЖО в формате 1U. Таким образом, каждая стойка насчитывает 64 экземпляра H100. Стойки организованы в группы по восемь штук, которые образуют малые кластеры из 512 ускорителей H100. Они в свою очередь объединены в т.н. «острова» по 25 тыс. ускорителей, каждому из которых полагается собственный машинный зал. Общее количество стоек в составе Colossus превышает 1500. Помимо узлов с ускорителями также есть CPU-узлы и узлы хранения All-Flash (1U). Как отмечает NVIDIA, в кластере Colossus задействована сетевая платформа Spectrum-X Ethernet. Применены коммутаторы Spectrum-X SN5600 и сетевые карты на базе чипа BlueField-3. Компания говорит об использовании трёхуровневой Ethernet-сети с 400GbE-подключением, но точная топология не указана. Судя по всему, выделенной сети для работы с хранилищем не предусмотрено. Каждом ускорителю полагается один 400GbE-адаптер SuperNIC, который и объединяет их в RDMA-сеть. Кроме того, у каждого GPU-узла есть ещё один 400GbE DPU, а также подключение к сервисной сети. Сетевые карты находятся в собственных лотках, благодаря чему их можно заменять без демонтажа шасси. По словам NVIDIA, уровень утилизации сети достигает 95 %. В качестве энергетического буфера между электросетью и суперкомпьютером используются аккумуляторные банки Tesla Megapack ёмкостью 3,9 МВт·ч каждый. Они необходимы для того, чтобы компенсировать всплески потребляемой мощности, когда нагрузка на ускорители резко возрастает в силу выполняемых ИИ-задач. Впрочем, вероятно, есть и ещё одна причина для такого решения — на первом этапе Colossus был лишён подключения к основной энергосети и в вопросе питания во многом полагался на генераторы.
28.10.2024 [15:19], Владимир Мироненко
Мало берёте: Дженсен Хуанг пожурил Европу за слабое развитие ИИ и похвалил Индию за закупки десятков тысяч ускорителейКак пишет Data Center Dynamics, генеральный директор NVIDIA Дженсен Хуанг (Jensen Huang) сообщил на саммите AI Summit в Мумбаи, что американская компания заключила серию партнёрских соглашений с индийскими фирмами для развёртывания своих чипов и технологий ИИ, расширяя присутсвие на ключевом для себя рынке. С некоторыми из фирм были заключены контракты на поставку десятков тысяч ускорителей H100, в частности, с Tata Communications и Yotta Data Services. Tata Communications модернизирует свою облачную ИИ-инфраструктуру в Индии. Компания начнёт первую фазу крупномасштабного развёртывания NVIDIA Hopper в конце этого года, а на фазе в 2025 году добавит к ним ускорители NVIDIA Blackwell. Как утверждает Tata Communications, её платформа будет одним из крупнейших ИИ-суперкомпьютеров в Индии. Yotta Data Services уже представила шесть новых ИИ-сервисов для своей платформы Shakti Cloud, в том числе на базе NVIDIA NIM. К ним относятся AI Lab, AI Workspace, Serverless AI Inferencing, GPUaaS и др. NVIDIA также сотрудничает с крупнейшим в стране конгломератом Reliance Industries над созданием облачной ИИ-инфраструктуры для обработки данных, обучения сотрудников и создания собственных больших языковых моделей с поддержкой распространённых в стране языков. В рамках партнёрства Reliance развернёт суперускорители GB200. Tech Mahindra намерена использовать чипы и ПО NVIDIA для разработки ИИ-модели на хинди под названием Indus 2.0. Работа над этим проектом будет вестись в Центре передового опыта (Center of Excellence), базирующемся в лабораториях Tech Mahindra в Пуне и Хайдарабаде. На прошлой неделе Дженсен Хуанг также принял участие в церемонии запуска суверенного ИИ-суперкомпьютера Gefion. По данным ресурса The Register, в своём выступлении Хуанг отметил, что ЕС должен ускорить прогресс в области ИИ. «В каждой стране пробуждается понимание того, что данные — это национальный ресурс», — заявил гендиректор NVIDIA. Европейским странам необходимо больше инвестировать в ИИ, если они хотят сократить разрыв с США и Китаем, подчеркнул глава NVIDIA, подразумевая, что лучшим средством для этого будут ускорители его компании.
28.10.2024 [14:18], Руслан Авдеев
Дженсен Хуанг заявил, что Индия должна стать одним из лидеров в области ИИ и создать собственную инфраструктуруНа мероприятии AI Summit в Мумбаи глава NVIDIA Дженсен Хуанг (Jensen Huang) заявил, что ИИ должен стать драйвером цифровой трансформации Индии, её экономического роста и достижения ведущей роли на мировой арене. Как сообщает пресс-служба компании, Индия имеет для прогресса «поразительные естественные ресурсы» в сфере IT и огромный потенциал, который ещё предстоит раскрыть. По словам Хуанга, страна должна стать разработчиком собственного ИИ, создав национальную ИИ-инфраструктуру с опорой на собственные ресурсы и данные. Ведущие облачные провайдеры страны быстро наращивают ёмкость своих ЦОД, а NVIDIA намерена играть ключевую роль в развитии ИИ и предложить свои ускорители — к концу года их использование должно вырасти десятикратно, став основой экономики, основанной на ИИ-системах. Вместе с NVIDIA эти компании должны совершить крупнейший прорыв в вычислениях, сравнимый с появлением IBM System 360 в 1964 году. А с быстрым развитием ИИ-инфраструктуры «умные» производства тоже станут критически важными для будущего Индии. Хуанг обозначил три ключевых сферы развития ИИ: суверенный ИИ (использование собственных данных для инноваций без передачи их за рубеж), «агентский» ИИ для автоматизации наукоёмких работ и «физический» ИИ для роботизированных и промышленных систем. По словам Хуанга, Индия может стать лидером во всех трёх областях. Местные стартапы уже начали использовать технологии NVIDIA для инновационных решений, которые решения на мировой рынок. После монолога Хуанга состоялся диалог с председателем индийской Reliance Industries Мукешем Амбани (Mukesh Ambani). Главы компаний обсудили перспективы трансформации индийской экономики с помощью ИИ-систем, в том числе энергетики, телекоммуникаций и производства. Амбани подчеркнул, что ИИ используется и в государственном секторе для обработки местных данных, что уже меняет принципы управления и обслуживания. Хуанг пообещал, что ИИ дополнительно демократизирует использование технологий — ИИ может использоваться любым гражданином, что открывает перед всеми невероятные возможности. Конечно, Хуанг подчеркнул роль NVIDIA в этой трансформации. Сейчас компания уже сотрудничает с Infosys, TCS, Tech Mahindra, Wipro и т.д., помогая повышать квалификацию около полумиллиона разработчиков. Амбани, в свою очередь, подчеркнул, что страна уже имеет молодые, технически грамотные кадры. Бизнесмены сошлись во мнении, что с огромным числом талантов, развивающейся технической экосистемой и огромными массивами данных страна имеет большой потенциал для вклада в различные секторы экономики на мировом уровне. Конечно, это может быть сделано только при сотрудничестве компаний — ни одному отдельному игроку такие задачи не под силу. Буквально на днях сообщалось, что Индия на государственном уровне обсуждает с NVIDIA совместную разработку ИИ-чипов, адаптированных к местной специфике. Страна активно осваивает связанные с искусственным интеллектом технологии — потратит $1,2 млрд на суверенный ИИ-суперкомпьютер с 10 тыс. ускорителей и собственные LLM, и готова покупать ускорители в больших объёмах, в том числе ослабленные варианты, не доставшиеся Китаю после ужесточения американских санкций.
26.10.2024 [14:00], Сергей Карасёв
Дженсен Хуанг и король Фредерик X запустили самый производительный в Дании ИИ-суперкомьютер GefionОснователь и генеральный директор NVIDIA Дженсен Хуанг (Jensen Huang) и король Дании Фредерик X объявили о запуске крупнейшего в стране суверенного суперкомпьютера для задач ИИ. Система получила название Gefion («Гевьон») — в честь скандинавской богини плодородия. НРС-комплекс эксплуатируется Датским центром инноваций в области искусственного интеллекта (DCAI), который был создан при поддержке фонда Novo Nordisk Foundation и Датского фонда экспорта и инвестиций. В церемонии ввода Gefion в эксплуатацию, проходившей в Копенгагене, приняла участие Надя Карлстен (Nadia Carlsten), генеральный директор DCAI. Суперкомпьютер объединяет 191 систему DGX H100, что в общей сложности даёт 1528 ускорителей NVIDIA H100. Задействованы 382 процессора Intel Xeon Platinum и интерконнект NVIDIA Quantum-2 InfiniBand. Прочие технические характеристики, а также показатели быстродействия системы пока не раскрываются. Пиковая теоретическая FP64-производительность должна составить около 52 Пфлопс, а в FP8-расчётах с разреженностью — порядка 6 Эфлопс. Сообщается, что Gefion будет применяться для решения сложных задач в области квантовых вычислений, «зелёной» энергетики, биотехнологий и пр. В частности, исследователи из Копенгагенского университета (UCPH) намерены задействовать машину для проведения крупномасштабного распределённого моделирования квантовых компьютерных схем. Кроме того, UCPH, Технический университет Дании (DTU), Novo Nordisk и Novonesis совместно разработают многомодальную геномную ИИ-модель для анализа мутаций заболеваний и разработки вакцин. Доступ к Gefion также получат стартапы, реализующие перспективные проекты в области обработки текста, изображений и видео. Суперкомпьютер размещён в одном из дата-центров Digital Realty на территории Дании. Этот объект на 100 % получает питание от возобновляемых источников энергии. Сборкой и установкой вычислительного комплекса занимались специалисты Eviden.
26.10.2024 [00:53], Владимир Мироненко
Tesla до конца месяца запустит ИИ-кластер из 50 тыс. NVIDIA H100Tesla планирует ввести в эксплуатацию ЦОД с 50 тыс. ускорителей NVIDIA H100 в конце этого месяца, пишет Data Center Dynamics (DCD) со ссылкой на заявление компании. «Мы начали использовать кластер на базе нашего завода раньше срока и находимся на пути к развертыванию 50 тыс. GPU в Техасе к концу этого месяца», — сообщил финансовый директор Вайбхав Танеджа (Vaibhav Taneja) в ходе отчёта о финансовых результатах за III квартал. Предполагается, что именно этот кластер, размещённый в Остине (Техас) отставал от графика, из-за чего гендиректор Илон Маск (Elon Musk) уволил в апреле руководителя строительства. В июне по распоряжению Маска 12 тыс. ускорителей H100, предназначавшихся Tesla, были переданы xAI. Сама xAI в сентябре запустила ИИ-кластер со 100 тыс. ускорителей NVIDIA H100. Капитальные затраты Tesla достигли $3,5 млрд в отчётном квартале, «последовательно увеличившись в основном из-за инвестиций в ИИ-вычисления», а капитальные затраты за год, как ожидается, превысят $11 млрд, что на $1 млрд больше год к году. При этом Танеджа сообщил, что компания «очень разумно подходит к расходам на ИИ», пытаясь наилучшим способом использовать существующую инфраструктуру, прежде чем делать дальнейшие инвестиции. Маск заявил, что Tesla продолжает расширять возможности обучения ИИ, чтобы удовлетворить как потребности в обучении автопилота Full Self Driving (FSD), так и роботов Optimus, отметив, что в настоящее время компания не испытывает дефицита вычислительных ресурсов. В квартальном отчёте не упоминается Dojo, ИИ-инфраструктура Tesla на базе ускорителей собственной разработки.
25.10.2024 [00:35], Игорь Осколков
NVIDIA за год отгрузила более 1 млрд RISC-V ядерВ рамках саммита RISC-V 2024 компания NVIDIA поделилась любопытной статистикой — за год в составе GPU и других ускорителей она отгрузила более 1 млрд ядер RISC-V собственной разработки, передаёт TechPowerUp. Они входят в состав GSP (GPU System Processor), который отвечает за управление GPU и иные служебные функции. В состав GSP входит от 10 до 40 ядер, в зависимости от сложности чипа, которым он управляет. Компания переключилась на разработку нового GSP на базе RISC-V в 2016 году. До этого более десяти лет NVIDIA использовала для GSP проприетарный процессор Falcon, возможностей и гибкости которого со временем стало не хватать. Вместо покупки и доработки готовых ядер от сторонних вендоров (Arm, MIPS, Synopsys ARC) или попыток улучшить Falcon, компания решила обратиться к открытой архитектуре RISC-V и к настоящему моменту разработала три типа ядер. Так, NV-RISCV32 представляет собой самое простое 32-бит ядро без внеочередного исполнения, работающее на частоте до 1,8 ГГц и имеющее производительность до 1,8 CoreMark/МГц. NV-RVV является NV-RISCV32 с 1024-бит векторными расширениями. А NV-RISCV64 — это уже более серьёзное 64-бит ядро с поддержкой внеочередного исполнения и SMP, частотой 2 ГГц и производительностью 5 CoreMark/МГц. Кроме того, NVIDIA разработала более 20 расширений ISA под специфические задачи. Впервые GSP на базе RISC-V появился в поколении Turing в 2018 году. Сейчас GSP отвечает за управление питанием и ресурсами ускорителя, безопасность, межчиповое взаимодействие, управление видеокодеками, вывод видео, работу с NVDLA и т.д. Google выбрала похожий путь — в её ИИ-ускорителях TPU используются ядра SiFive. Впрочем, сейчас есть уже и «большие» ИИ-ускорители, построенные исключительно на ядрах RISC-V: Meta✴ MTIA первого и второго поколений, InspireSemi Thunderbird, Tenstorrent Wormhole и Grayskull, а также Esperanto ET-SoC-1 и ET-SoC-2.
23.10.2024 [16:57], Владимир Мироненко
NVIDIA переименовала будущие ИИ-ускорители Blackwell Ultra в B300Согласно данным аналитической компании TrendForce, NVIDIA решила переименовать продукты семейства Blackwell Ultra в серию B300. В связи с этим ускоритель B200 Ultra стал B300, а GB200 Ultra теперь называется GB300. Кроме того, B200A Ultra и GB200A Ultra получили имена B300A и GB300A соответственно. Серия ускорителей B300, как ожидается, выйдет в I–II квартале 2025 года, а поставки (G)B200 начнутся не позднее I квартал 2025 года. TrendForce отметила, что NVIDIA совершенствует сегментацию чипов Blackwell, чтобы лучше соответствовать требованиям по стоимости и производительности со стороны облачных провайдеров (CSP) и OEM-производителей серверов и смягчить требования к цепочкам поставок. Так, модель B300A нацелена на OEM-клиентов, её массовое производство планируется начать во II квартале 2025 года после пика поставок H200. Изначально NVIDIA хотела предложить данному сегменту упрощённый вариант B200A, но, судя по всему, спрос на него оказался более слабом, чем ожидалось. Вместе с тем переход с GB200A на GB300A для стоечных решений может привести к увеличению первоначальных затрат для корпоративных клиентов, что также может отразиться на спросе. Сейчас компания вкладывает значительные средства в улучшение стоечных решений NVL, помогая поставщикам серверных систем с оптимизацией производительности и жидкостным охлаждением для систем NVL72, а AWS и Meta✴ настоятельно призывают перейти с NVL36 на NVL72. TrendForce также ожидает, что предложение топовых ускорителей NVIDIA будет расширяться, а их общая доля в поставках, как ожидается, достигнет около 50 % в 2024 году, то есть вырастет на 20 п.п. год к году. Ожидается, что выпуск ускорителей Blackwell увеличит этот показатель до 65 % в 2025 году. Аналитики также отметили роль NVIDIA в стимулировании спроса на технологию упаковки CoWoS. Благодаря Blackwell спрос на данный тип упаковки вырастет более чем на 10 п.п. в годовом исчислении. NVIDIA, скорее всего, сосредоточится на поставках чипов B300 и GB300 крупным североамериканским гиперскейлерам — оба варианта используют технологию CoWoS-L. Компания активно наращивает закупки HBM — согласно прогнозам, в 2025 году на NVIDIA придётся более 70 % мирового рынка HBM (рост на 10 п.п. год к году). TrendForce также отмечает, что все чипы серии B300 будут оснащены памятью HBM3e 12Hi, производство которой начнётся не позднее I квартал 2025 года. Но поскольку это будут первые массовые продукты с таким типом памяти, поставщикам, как ожидается, потребуется не менее двух кварталов для отработки процессов и стабилизации объёмов производства.
22.10.2024 [18:10], Руслан Авдеев
Индия и NVIDIA обсуждают совместную работу над ИИ-ускорителямиИндийское правительство ведёт переговоры с NVIDIA о возможности совместной разработки ИИ-чипов. Министр Ашвини Ваишнав (Ashwini Vaishnaw), отвечающий за электронику и IT в целом, заявил, что обсуждение находится на начальной стадии, не сообщив никаких деталей, передаёт The Register. В рамках новой стратегии страны приоритетным стало развитие ИИ-инфраструктуры, причём с опорой на собственные решения там, где это возможно. В частности, планируется построить суперкомпьютер с 10 тыс. ускорителей. Также выделены средства на аренду ускорителей для тех, кто не может их купить, а условия поддержки смягчили, дав возможность развиваться небольшим IT-провайдерам. При это страна готова закупать даже урезанные варианты ускорителей NVIDIA, которые из-за санкций не достались Китаю. С соседом у Индии отношения всё ухудшаются и ухудшаются, а некоторые крупные китайские игроки сами уходят из страны, а их место занимают западные и локальные компании. Индия давно стремится к развитию полупроводникового производства и намерена расширить своё влияние в этой сфере. Местные СМИ сообщают, что переговоры властей и NVIDIA якобы касаются разработки чипов, оптимизированных для некоторых сфер. Например, для обеспечения работы систем безопасности разветвлённой сети индийских железных дорог. У NVIDIA уже есть подобные решения на платформе Orin. Но выпуск даже такой платформы на территории Индии пока не представляется возможным, так что речь, вероятнее всего, идёт именно о сотрудничестве в сфере разработки.
22.10.2024 [11:01], Сергей Карасёв
Supermicro представила All-Flash JBOF-массивы на базе NVIDIA BlueField-3 DPUКомпания Supermicro анонсировала высокопроизводительные системы хранения Storage SuperServer типа JBOF All-Flash, оптимизированные для HPC-задач, обучения ИИ-моделей и инференса. Устройства, рассчитанные на монтаж в стойку, выполнены в форм-факторе 2U. Новинки построены на основе DPU NVIDIA BlueField-3. Эти изделия содержат 16 ядер Cortex-A78, поддерживают интерфейс PCIe 5.0 и обеспечивают скорость в 400 Гбит/с. Системы Supermicro JBOF могут использовать до четырёх ускорителей BlueField-3. В число представленных устройств вошли модели SSG-229J-5BU24JBF и SSG-229J-5BE36JBF. Первая рассчитана на 24 накопителя SFF U.2 NVMe, вторая — на 36 накопителей E3.S. Отсеки для SSD расположены во фронтальной части; допускается горячая замена. В обоих случаях имеются два коннектора M.2 для SSD формата 2280/22110 с интерфейсом PCIe 5.0 x4. Предусмотрены три слота для карт PCIe 5.0 x16 FHFL. ![]() Источник изображения: Supermicro Системы оснащены двумя портами 1GbE и дополнительным портом 1GbE на основе контроллера Realtek. Габариты составляют 762 × 449,4 × 88 мм. Питание обеспечивают два блока с сертификатом 80 Plus Titanium мощностью 1600 Вт у SSG-229J-5BU24JBF и 2000 Вт у SSG-229J-5BE36JBF. Установлены шесть вентиляторов охлаждения диаметром 60 мм. Диапазон рабочих температур — от +10 до +35 °C. Supermicro отмечает, что при использовании SSD вместимостью 30,71 Тбайт можно сформировать хранилище суммарной ёмкостью 1,1 Пбайт. Архитектура контроллеров «активный — активный» гарантирует высокую доступность. |
|