Материалы по тегу: c

31.10.2024 [14:56], Владимир Мироненко

DIGITIMES Research: в 2024 году Google увеличит долю на рынке кастомных ИИ ASIC до 74 %

Согласно отчету DIGITIMES Research, в 2024 году глобальные поставки ИИ ASIC собственной разработки для ЦОД, как ожидается, достигнут 3,45 млн единиц, а доля рынка Google вырастет до 74 %. Как сообщают аналитики Research, до конца года Google начнёт массовое производство нового поколения ИИ-ускорителей TPU v6 (Trillium), что ещё больше увеличит её присутствие на рынке.

В 2023 году доля Google на рынке ИИ ASIC собственной разработки для ЦОД оценивалась в 71 %. В отчёте отмечено, что помимо самой высокой доли рынка, Google также является первым из трёх крупнейших сервис-провайдеров в мире, кто разработал собственные ИИ-ускорители. Первый TPU компания представила в 2016 году. Ожидается, что TPU v6 будет изготавливаться с применением 5-нм процесса TSMC, в основном с использованием 8-слойных чипов памяти HBM3 от Samsung.

Также в отчёте сообщается, что Google интегрировала собственную архитектуру оптического интерконнекта в кластеры TPU v6, позиционируя себя в качестве лидера среди конкурирующих провайдеров облачных сервисов с точки зрения внедрения технологий и масштаба развёртывания. Google заменила традиционные spine-коммутаторы на полностью оптические коммутаторы Jupiter собственной разработки, которые позволяют значительно снизить энергопотребление и стоимость обслуживания ИИ-кластеров TPU POD по сравнению с решениями Broadcom или Mellanox.

 Источник изображения: cloud.google.com

Источник изображения: cloud.google.com

Кроме того, трансиверы Google получил ряд усовершенствований, значительно нарастив пропускную способность. Если в 2017 году речь шла о полнодуплексном 200G-решении, то в этом году речь идёт уже о 800G-решениях с возможностью модернизации до 1,6T. Скорость одного канала также существенно выросла — с 50G PAM4 в 2017 году до 200G PAM4 в 2024 году.

Постоянный URL: http://servernews.ru/1113321
31.10.2024 [11:33], Сергей Карасёв

Cisco представила ИИ-сервер UCS C885A M8 на базе NVIDIA H100/H200 или AMD Instinct MI300X

Компания Cisco анонсировала сервер высокой плотности UCS C885A M8, предназначенный для решения задач в области ИИ, таких как обучение больших языковых моделей (LLM), тонкая настройка моделей, инференс, RAG и пр.

 Источник изображения: Cisco

Источник изображения: Cisco

Устройство выполнено в форм-факторе 8U. В зависимости от модификации устанавливаются два процессора AMD EPYC 9554 поколения Genoa (64 ядра; 128 потоков; 3,1–3,75 ГГц; 360 Вт) или два чипа EPYC 9575F семейства Turin (64 ядра; 128 потоков; 3,3–5,0 ГГц; 400 Вт). Доступны 24 слота для модулей DDR5-600 суммарным объёмом 2,3 Тбайт.

В максимальной конфигурации могут быть задействованы восемь SXM-ускорителей NVIDIA H100, H200 или AMD Instinct MI300X. Каждый ускоритель дополнен сетевым адаптером NVIDIA ConnectX-7 или NVIDIA BlueField-3 SuperNIC. Кроме того, в состав сервера входит DPU BlueField-3. Слоты расширения выполнены по схеме 5 × PCIe 5.0 x16 FHHL плюс 8 × PCIe 5.0 x16 HHHL и 1 × OCP 3.0 PCIe 5.0 x8 (для карты X710-T2L 2x10G RJ45 NIC).

 Источник изображения: Cisco

Источник изображения: Cisco

Новинка оборудована загрузочным SSD вместимостью 1 Тбайт (M.2 NVMe), а также 16 накопителями U.2 NVMe SSD на 1,92 Тбайт каждый. Установлены два блока питания мощностью 2700 Вт и шесть блоков на 3000 Вт с возможностью горячей замены.

Cisco также представила инфраструктурные стеки AI POD, адаптированные для конкретных вариантов использования ИИ в различных отраслях. Они объединяют вычислительные узлы, сетевые компоненты, средства хранения и управления. Стеки, как утверждается, обеспечивают хорошую масштабируемость и высокую эффективность при решении ИИ-задач.

Постоянный URL: http://servernews.ru/1113296
30.10.2024 [12:00], Сергей Карасёв

NVIDIA представила эталонные архитектуры для корпоративных ИИ-фабрик

Компания NVIDIA анонсировала инициативу Enterprise Reference Architectures (Enterprise RA), в рамках которой партнёры и заказчики смогут использовать эталонные архитектуры для построения собственных ИИ-платформ корпоративного уровня, рассчитанных на ресурсоёмкие нагрузки.

NVIDIA отмечает, что на фоне перехода от вычислений общего назначения к ускоренным вычислениям предприятия сталкиваются с различными трудностями при проектировании и развёртывании инфраструктуры ЦОД. Это затрудняет разработку долгосрочных стратегий и снижает эффективность инвестиций. Инициатива Enterprise RA призвана решить проблемы.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Эталонные архитектуры Enterprise RA помогут организациям минимизировать ошибки при проектировании так называемых фабрик ИИ (дата-центров для задач ИИ), предоставляя комплексные рекомендации по аппаратному и программному обеспечению, а также подробные указания по оптимальным конфигурациям серверов, кластеров и сетей. В результате клиенты смогут снизить затраты и сократить время, необходимое для построения вычислительной ИИ-инфраструктуры нового поколения.

Среди преимуществ предлагаемого подхода названы масштабируемость и управляемость, высокий уровень безопасности (применяется принцип нулевого доверия), оптимальная производительность, снижение сложности систем и ускоренный выход на рынок. Эталонные архитектуры спроектированы таким образом, чтобы их можно было легко модернизировать в будущем. Говорится о совместимости с различными сторонними аппаратными и программными компонентами, но в перечень рекомендаций входят прежде всего решения самой NVIDIA, включая:

  • Сертифицированные серверы с ИИ-ускорителями на основе GPU разработки NVIDIA;
  • Оптимизированная сетевая платформа на базе NVIDIA Spectrum-X AI Ethernet и NVIDIA BlueField-3 DPU;
  • Программные компоненты NVIDIA AI Enterprise, в том числе микросервисы NVIDIA NeMo и NVIDIA NIM для быстрого создания и развёртывания приложений ИИ.

Решения на базе NVIDIA Enterprise RA будут предлагаться партнёрами NVIDIA, включая Dell, НРЕ, Lenovo и Supermicro.

Постоянный URL: http://servernews.ru/1113229
30.10.2024 [11:49], Сергей Карасёв

OpenAI разрабатывает собственные ИИ-чипы совместно с Broadcom и TSMC, а пока задействует AMD Instinct MI300X

Компания OpenAI, по информации Reuters, разрабатывает собственные чипы для обработки ИИ-задач. Партнёром в рамках данного проекта выступает Broadcom, а организовать производство изделий планируется на мощностях TSMC ориентировочно в 2026 году.

Слухи о том, что OpenAI обсуждает с Broadcom возможность создания собственного ИИ-ускорителя, появились минувшим летом. Тогда говорилось, что эта инициатива является частью более масштабной программы OpenAI по увеличению вычислительных мощностей компании для разработки ИИ, преодолению дефицита ускорителей и снижению зависимости от NVIDIA.

Как теперь стало известно, OpenAI уже несколько месяцев работает с Broadcom над своим первым чипом ИИ, ориентированным на задачи инференса. Соответствующая команда разработчиков насчитывает около 20 человек, включая специалистов, которые ранее принимали участие в проектировании ускорителей TPU в Google, в том числе Томаса Норри (Thomas Norrie) и Ричарда Хо (Richard Ho). Подробности о проекте не раскрываются.

Reuters, ссылаясь на собственные источники, также сообщает, что OpenAI в дополнение к ИИ-ускорителям NVIDIA намерена взять на вооружение решения AMD, что позволит диверсифицировать поставки оборудования. Речь идёт о применении изделий Instinct MI300X, ресурсы которых будут использоваться через облачную платформу Microsoft Azure.

 Источник изображения: Unsplash

Источник изображения: Unsplash

Это позволит увеличить вычислительные мощности: компания OpenAI только в 2024 году намерена потратить на обучение ИИ-моделей и задачи инференса около $7 млрд. Вместе с тем, как отмечается, OpenAI пока отказалась от амбициозных планов по созданию собственного производства ИИ-чипов. Связано это с большими финансовыми и временными затратами, необходимыми для строительства предприятий.

Постоянный URL: http://servernews.ru/1113232
29.10.2024 [20:28], Сергей Карасёв

Раскрыты подробности архитектуры ИИ-кластера xAI Colossus со 100 тыс. ускорителей NVIDIA H100

Портал ServeTheHome рассказал подробности об архитектуре вычислительного кластера xAI Colossus, предназначенного для обучения крупных ИИ-моделей. Эта система использует 100 тыс. NVIDIA H100, а в дальнейшем количество ускорителей планируется увеличить вдвое. Это самый крупный из известных ИИ-кластеров на текущий момент. Оборудование для него поставили компании Dell и Supermicro.

Стартап xAI, курируемый Илоном Маском (Elon Musk), объявил о запуске суперкомпьютера Colossus в начале сентября нынешнего года. Утверждается, что на создание системы потребовалось всего 122 дня. Причём с момента установки первой стойки с серверами до начала обучения ИИ-моделей прошло только 19 суток. Впрочем, как отмечают эксперты, поскольку машина является «однозадачной», т.е. в отличие от традиционных суперкомпьютеров предназначенной только для работы с ИИ, ускорить строительство было не так уж сложно, хотя результат всё равно впечатляющий.

Как сообщается, в составе Colossus применены серверы на платформе NVIDIA HGX H100, оборудованные системой жидкостного охлаждения. Каждый узел Supermicro серии TNHR2-LCC типоразмера 4U содержит восемь ускорителей NVIDIA H100 и два CPU. Узел разделён на две половинки, одна с CPU и PCIe-коммутаторами и одна с HGX-платой, которые могут извлекаться независимо для простоты обслуживания. CPU, коммутаторы и ускорители охлаждаются посредством СЖО.

 Источник изображения: Supermicro

Источник изображения: Supermicro

Вентиляторы в шасси тоже есть. Воздух от них попадает на теплообменники на задней двери, которые уносят остаточное тепло. Холодных и горячих коридоров в ЦОД нет, воздух имеет одинаковую температуру во всём зале. В нижней части стоек располагается ещё один 4U-блок Supermicro для CDU с резервированием и поддержкой горячей заменой насосов. Каждый сервер имеет четыре блока питания с резервированием и возможностью горячей замены, которые подключены к трёхфазным PDU.

Одна стойка объединяет восемь узлов NVIDIA HGX H100, между которыми располагаются коллекторы СЖО в формате 1U. Таким образом, каждая стойка насчитывает 64 экземпляра H100. Стойки организованы в группы по восемь штук, которые образуют малые кластеры из 512 ускорителей H100. Они в свою очередь объединены в т.н. «острова» по 25 тыс. ускорителей, каждому из которых полагается собственный машинный зал. Общее количество стоек в составе Colossus превышает 1500.

Помимо узлов с ускорителями также есть CPU-узлы и узлы хранения All-Flash (1U). Как отмечает NVIDIA, в кластере Colossus задействована сетевая платформа Spectrum-X Ethernet. Применены коммутаторы Spectrum-X SN5600 и сетевые карты на базе чипа BlueField-3. Компания говорит об использовании трёхуровневой Ethernet-сети с 400GbE-подключением, но точная топология не указана. Судя по всему, выделенной сети для работы с хранилищем не предусмотрено. Каждом ускорителю полагается один 400GbE-адаптер SuperNIC, который и объединяет их в RDMA-сеть. Кроме того, у каждого GPU-узла есть ещё один 400GbE DPU, а также подключение к сервисной сети. Сетевые карты находятся в собственных лотках, благодаря чему их можно заменять без демонтажа шасси. По словам NVIDIA, уровень утилизации сети достигает 95 %.

В качестве энергетического буфера между электросетью и суперкомпьютером используются аккумуляторные банки Tesla Megapack ёмкостью 3,9 МВт·ч каждый. Они необходимы для того, чтобы компенсировать всплески потребляемой мощности, когда нагрузка на ускорители резко возрастает в силу выполняемых ИИ-задач. Впрочем, вероятно, есть и ещё одна причина для такого решения — на первом этапе Colossus был лишён подключения к основной энергосети и в вопросе питания во многом полагался на генераторы.

Постоянный URL: http://servernews.ru/1113159
29.10.2024 [11:45], Сергей Карасёв

ASRock Rack представила плату TURIN2D48G-2L+, которая поддерживает 24 Тбайт DDR5

Компания ASRock Rack анонсировала материнскую плату TURIN2D48G-2L+, предназначенную для построения серверов на платформе AMD. Новинка, выполненная в проприетарном форм-факторе, допускает установку двух процессоров семейства EPYC 9005 (Turin) или  EPYC 9004 (Genoa) в исполнении Socket SP5 (LGA 6096) с показателем TDP до 500 Вт.

Особенность платы заключается в наличии 48 слотов для модулей DDR5-5200 (24 слота в расчёте на CPU). При использовании изделий RDIMM-3DS ёмкостью 512 Гбайт суммарный объём ОЗУ в системе может достигать 24 Тбайт.

Реализованы 12 коннекторов MCIO (PCIe 5.0 / CXL 2.0 x8), четыре разъёма MCIO (PCIe 5.0 / CXL 2.0 x8 или 8 × SATA-3), по два коннектора MCIO (PCIe 5.0 или 8 × SATA-3) и MCIO (PCIe 5.0 x8). Есть также разъём SlimSAS (PCIe 3.0 x2) и два коннектора M.2 для SSD типоразмеров 22110/2280 с интерфейсом PCIe 3.0 x4 или SATA-3. В общей сложности могут быть задействованы до 34 портов SATA-3 для подключения накопителей.

 Источник изображения: ASRock Rack

Источник изображения: ASRock Rack

В оснащение входят BMC-контроллер ASPEED AST2600, двухпортовый сетевой адаптер Intel i350 стандарта 1GbE и контроллер Realtek RTL8211F, на базе которого выполнен выделенный сетевой порт управления. Интерфейсный блок содержит три гнезда RJ45 для сетевых кабелей, два порта USB 3.2 Gen1 Type-A и аналоговый разъём D-Sub. Через разъёмы на плате можно использовать ещё два порта USB 3.2 Gen1, последовательный порт и пр. Есть шесть гнёзд для подключения вентиляторов охлаждения. Диапазон рабочих температур — от +10 до +35 °C.

Постоянный URL: http://servernews.ru/1113155
28.10.2024 [17:35], Руслан Авдеев

Schneider Electric: ЦОД придётся построить газовые турбины, подключиться к АЭС и лишь потом внедрить SMR, чтобы управиться с дефицитом энергии

В условиях острого дефицита электроэнергии на фоне бурного развития ИИ операторы ЦОД ищут дополнительные источники питания, которые не зависят от магистральных сетей. Вице-президент Schneider Electric Стивен Карлини (Steven Carlini), отвечающий за инновации и технологии для дата-центров, опубликовал статью в блоге компании, где назвал наиболее вероятные источники энергии для таких объектов в кратко-, средне- и долгосрочной перспективах.

Сегодня спрос на ёмкость ЦОД часто превышает предложение, особенно в регионах вроде Евросоюза, но девелоперы часто не могут найти достаточно энергии и земли для строительства новых объектов. Тем временем ИИ ЦОД требуют всё больших мощностей — согласно прогнозам экспертов, в США потребление электричества дата-центрами может превысить её поставки в ближайшие несколько лет, в том числе в связи с недостатком ЛЭП.

По словам Карлини, в краткосрочной перспективе дополнением к магистральным сетям могут стать газовые турбины, установленные непосредственно на территории ЦОД. Некоторые нефтегазовые компании уже ведут переговоры с операторами ЦОД, при этом к таким проектам пока не предъявляются столь же жёсткие требования, как к стандартным электросетям. В числе прочих опций — солнечная и ветряная энергия, топливные ячейки на том или ином газе. Например, Amazon (AWS) в прошлом году анонсировала планы перевести на топливные элементы некоторые объекты в Орегоне.

 Источник изображения:  Oliver B/unsplash.com

Источник изображения: Oliver B/unsplash.com

В среднесрочной перспективе предполагается «оживить» закрытые электростанции. Например, Microsoft заключила соглашение с Constellation Energy о возобновлении работы АЭС Three Mile Island в Пенсильвании, а AWS купила кампус ЦОД рядом с атомной электростанцией в том же штате. АЭС Duane Arnold тоже не прочь вернуть в строй. Google также рассматривает атомную энергетику как один из перспективных источников электричества.

В долгосрочной перспективе Карлини предрекает успех малым модульным реакторам (SMR). Он назвал их безопасными, надёжными, эффективными и работающими на «восстановленных» ядерных отходах. Вместе с тем SMR всё ещё должны пройти многоэтапное тестирование и получить одобрение регуляторов, а пока ни одного коммерчески доступного реактора такого типа нет.

 Источник изображения: IEEFA

Источник изображения: IEEFA

По поводу целесообразности SMR для ЦОД тоже есть сомнения, отмечает The Register. Согласно докладу Institute for Energy Economics and Financial Analysis (IEEFA), миниатюрные реакторы всё ещё слишком дороги (и продолжают дорожать), слишком медленно создаются и слишком «рискованны», чтобы играть значительную роль в отказе от электростанций на ископаемом топливе. В институте считают, что на SMR деньги буквально выбрасываются, хотя их можно было бы с пользой потратить на возобновляемую энергетику.

Сам Карлини считает, что единого решения для всех случаев нет — в будущем дата-центры будут получать энергию из самых разных источников, а энергосети превратятся в комплексные экосистемы с подключением классических электростанций на ископаемом топливе, газовых турбин локального значения, локальных кластеров топливных элементов и локальных же источников солнечной и ветряной энергии. Столь сложные системы должны постоянно контролироваться для бесперебойного энергоснабжения, а системы контроля, по мнению Карлини, конечно же, обеспечит Schneider Electric.

Постоянный URL: http://servernews.ru/1113118
28.10.2024 [16:19], Сергей Карасёв

IDC: затраты в области ИИ в Европе к 2028 году превысят $130 млрд

Компания IDC обнародовала свежий прогноз по европейскому рынку ИИ, включая генеративные сервисы. Аналитики говорят, что данная отрасль стремительно расширяется: по итогам 2024 года суммарные затраты ожидаются на уровне $47–$48 млрд.

По состоянию на середину 2024-го около 40 % европейских компаний вкладывают значительные средства в генеративный ИИ, планируя в течение следующих 18 месяцев инвестировать в обучение, ПО с улучшенными возможностями и консалтинговые услуги. Кроме того, 30 % компаний в Европе уже развернули приложения и услуги с функциями генеративного ИИ в своих операционных средах.

В 2024 году в общем объёме затрат на ИИ в Европе примерно 15,7 % пришлось на банковский сектор. Ещё 9,5 % обеспечил ретейл, 8,3 % — софт и информационные сервисы. На телекоммуникационный сегмент пришлось 5,5 % расходов, на сферу профессиональных и персональных услуг — 5,1 %.

 Источник изображений: IDC

Источник изображений: IDC

Если рассматривать отрасль по типу задач, которые выполняются с применением ИИ, то на расширенный анализ и расследование мошенничества в 2024 году пришлось 8,7 % всех расходов. Инструменты разведки и предотвращения угроз обеспечили 8,5 % выручки. Доля расходов на подготовку инфраструктуры ИИ равна 6,6 %. Платформы обслуживания клиентов и самообслуживания на базе ИИ принесли 5,9 %.

Аналитики IDC прогнозируют, что в перспективе показатель CAGR (среднегодовой темп роста в сложных процентах) на европейском рынке ИИ составит 30,3 %: в результате, к 2028-му объём отрасли достигнет $133 млрд. При этом в сегменте генеративного ИИ величина CAGR окажется ещё выше — приблизительно 55 %.

«Внедрение генеративного ИИ быстро переходит от раннего тестирования и экспериментов к более интегрированным бизнес-решениям. Ожидается, что среднегодовой темп роста в данном сегменте будет значительно выше, чем у более традиционных технологий ИИ», — говорит Карла Ла Кроче (Carla La Croce), менеджер по исследованиям IDC.

Постоянный URL: http://servernews.ru/1113109
26.10.2024 [00:53], Владимир Мироненко

Tesla до конца месяца запустит ИИ-кластер из 50 тыс. NVIDIA H100

Tesla планирует ввести в эксплуатацию ЦОД с 50 тыс. ускорителей NVIDIA H100 в конце этого месяца, пишет Data Center Dynamics (DCD) со ссылкой на заявление компании.

«Мы начали использовать кластер на базе нашего завода раньше срока и находимся на пути к развертыванию 50 тыс. GPU в Техасе к концу этого месяца», — сообщил финансовый директор Вайбхав Танеджа (Vaibhav Taneja) в ходе отчёта о финансовых результатах за III квартал. Предполагается, что именно этот кластер, размещённый в Остине (Техас) отставал от графика, из-за чего гендиректор Илон Маск (Elon Musk) уволил в апреле руководителя строительства. В июне по распоряжению Маска 12 тыс. ускорителей H100, предназначавшихся Tesla, были переданы xAI. Сама xAI в сентябре запустила ИИ-кластер со 100 тыс. ускорителей NVIDIA H100.

Капитальные затраты Tesla достигли $3,5 млрд в отчётном квартале, «последовательно увеличившись в основном из-за инвестиций в ИИ-вычисления», а капитальные затраты за год, как ожидается, превысят $11 млрд, что на $1 млрд больше год к году. При этом Танеджа сообщил, что компания «очень разумно подходит к расходам на ИИ», пытаясь наилучшим способом использовать существующую инфраструктуру, прежде чем делать дальнейшие инвестиции.

 Источник изображения: Taylor Vick / Unsplash

Источник изображения: Taylor Vick / Unsplash

Маск заявил, что Tesla продолжает расширять возможности обучения ИИ, чтобы удовлетворить как потребности в обучении автопилота Full Self Driving (FSD), так и роботов Optimus, отметив, что в настоящее время компания не испытывает дефицита вычислительных ресурсов. В квартальном отчёте не упоминается Dojo, ИИ-инфраструктура Tesla на базе ускорителей собственной разработки.

Постоянный URL: http://servernews.ru/1113059
25.10.2024 [19:32], Сергей Карасёв

В Германии появится 500-Пфлопс ИИ-суперкомпьютер ELBJUWEL

Немецкая компания ParTec и научно-исследовательский Центр им. Гельмгольца Дрезден-Россендорфа (HDRZ) подписали меморандум о взаимопонимании в рамках совместного проекта по созданию нового высокопроизводительного комплекса для ИИ-задач.

Создаваемый суперкомпьютер, получивший название ELBJUWEL, разместится в Германии. Эта НРС-система позволит местным учёным, компаниям и государственным учреждениям работать над сложными технологическими задачами. Ожидается, что комплекс повысит конкурентоспособность предприятий в Саксонии, снизив зависимость от международных облачных платформ.

Технические подробности о машине ELBJUWEL пока не раскрываются. Но отмечается, что это будет один из самых мощных ИИ-суперкомпьютеров в мире. Планируемая производительность заявлена на уровне 500 Пфлопс (вероятно, FP64), тогда как быстродействие на ИИ-операциях FP8 будет достигать 50 Эфлопс.

 Источник изображения: HDRZ

Источник изображения: HDRZ

Цель проекта заключается в том, чтобы значительно облегчить доступ к ИИ-вычислениям для промышленных предприятий, средних коммерческих организаций, а также научных учреждений. Новая НРС-платформа, как предполагается, охватит широкий спектр вариантов использования. Сроки ввода ELBJUWEL в эксплуатацию не уточняются.

Нужно отметить, что компания ParTec принимает участие в создании системы JUPITER — первого европейского суперкомпьютера экзафлопсного класса. Монтаж модульного ЦОД для этой машина начался в сентябре. В состав JUPITER войдут энергоэффективные высокопроизводительные европейские Arm-процессоры SiPearl Rhea и решения NVIDIA Quad GH200. ИИ-быстродействие суперкомпьютера до 93 Эфлопс, а FP64-производительность превысит 1 Эфлопс.

Постоянный URL: http://servernews.ru/1113012
Система Orphus