Материалы по тегу: ии

22.04.2023 [00:15], Алексей Степин

Ловкость роборук: TopoOpt от Meta✴ и MIT поможет ускорить и удешевить обучение ИИ

Технологии искусственного интеллекта (ИИ) сегодня бурно развиваются и требуют всё более серьёзных вычислительных мощностей. Но наряду с наращиванием этих мощностей растут требования и к сетевой подсистеме, поэтому крупные компании и исследовательские организации ищут всё новые способы оптимизации инфраструктуры.

Компания Meta в сотрудничестве с Массачусетским технологическим институтом (MIT) и рядом прочих исследовательских организаций опубликовала данные любопытного эксперимента, в котором ИИ-кластер мог менять топологию своего интерконнекта с помощью механической «роборуки».

Система получила название TopoOpt, поскольку вычислительные узлы в ней использовали полностью оптическую сеть с оптической же патч-панелью. Эта сеть объединяла 12 вычислительных узлов ASUS ESC4000A-E10, каждый из которых был оснащён ускорителем NVIDIA A100, сетевыми адаптерами HPE и Mellanox ConnectX-5 (100 Гбит/с) с оптическими трансиверами.

 Источник здесь и далее: USENIX

Источник здесь и далее: USENIX

Наиболее интересное устройство в эксперименте — оптическая патч-панель Telescent, оснащённая механическим манипулятором, способным производить перекоммутацию на лету. Эта «роборука» работала под управлением специализированного ПО, целью которого ставилось нахождение оптимальной сетевой топологии и сегментации сети применительно к различным задачам машинного обучения.

Система с перекоммутируемой оптической сетью не требует энергоёмких высокоскоростных коммутаторов и обеспечивает ряд других преимуществ

Такая роботизированная патч-панель не столь расторопна, как оптические коммутаторы Google с микрозеркальной механикой, но стоит впятеро дешевле и имеет больше портов. Опубликованные экспериментальные данные уверенно свидетельствуют о том, что топология «толстого дерева» (fat tree), использующая несколько слоёв коммутаторов, не оптимальна и даже избыточна для ряда нейросетевых задач.

К тому же перекоммутируемая оптическая сеть без традиционных высокоскоростных коммутаторов требует меньше оборудования, а значит, может быть не только быстрее сети fat tree в ряде ИИ-задач, но и существенно дешевле в развёртывании и поддержании в рабочем состоянии — как минимум за счёт отсутствия затрат на питание множества коммутаторов.

Постоянный URL: http://servernews.ru/1085484
19.04.2023 [22:00], Алексей Степин

Broadcom представила чип-коммутатор Jericho3-AI для ИИ-платформ, попутно раскритиковав NVIDIA

Компания Broadcom, один из ведущих поставщиков «кремния» для сетевых решений, анонсировала новый сетевой процессор Jerico3-AI, который ориентирован на ИИ-системы. Более того, Broadcom считает подход NVIDIA к «интеллектуальным сетевым решениям» с использованием InfiniBand неверным и даже вредным для кластерных ИИ-систем.

Ethernet-коммутаторы компании можно разделить три ветви: наиболее высокопроизводительные чипы Tomahawk, ориентированная на дополнительные возможности ветвь Trident и, наконец, серия Jericho, отличающаяся наибольшей гибкостью в программировании и располагающая более ёмкими буферами. Чип Jericho3-AI BCM88890 — новинка в последней категории, относящаяся к классу 28,8 Тбит/с. Новый коммутатор имеет 144 линка SerDes (106Gbps, PAM4) и может работать в конфигурации 18×800GbE, 36×400GbE или 72×200GbE.

 Источник здесь и далее: Broadcom (via ServeTheHome)

Источник здесь и далее: Broadcom (via ServeTheHome)

В своей презентации Broadcom раскритиковала традиционный подход NVIDIA и других крупных игроков на сетевом рынке, заявив о том, что прямое наращивание пропускной способности и снижение латентности кластерной сети якобы является тупиковой ветвью развития. Вместо этого фабрика на базе Jericho3-AI, по словам компании, позволяет сделать так, чтобы процесс обучения нейросети как можно меньше времени тратил не сетевые операции.

Новый коммутатор обеспечивает идеальную балансировку загрузки, гарантирующую отсутствие заторов, и автоматическое переключение отказавшего соединения на резервное менее, чем за 10-нс, а также позволяет создавать большие «плоские» сети (до 32 тыс. портов 800GbE), характерные для ИИ-кластеров. Каждый ускоритель может получить 800G-подключение, а суммарная производительность фабрики на базе новых коммутаторов может достигать 26 Пбит/с.

Broadcom утверждает, что сеть Ethernet на базе Jericho3-AI превосходит аналогичную по классу сеть NVIDIA InfiniBand в тестах с использованием NCCL. При этом новый коммутатор не содержит никаких вычислительных мощностей общего назначения — он проще, а за счёт использования стандарта Ethernet сети на его основе универсальны, что также снижает стоимость владения инфраструктурой.

Высокая степень интегрированности обеспечит и большую экономичность, а значит, решения на базе нового коммутатора Broadcom окажутся и более дружелюбны к экологии. Новые чипы уже доступны избранным клиентам Broadcom.

Постоянный URL: http://servernews.ru/1085334
07.04.2023 [20:36], Сергей Карасёв

Google заявила, что её ИИ-кластеры на базе TPU v4 и оптических коммутаторов эффективнее кластеров на базе NVIDIA A100 и InfiniBand

Компания Google обнародовала новую информацию о своей облачной суперкомпьютерной платформе Cloud TPU v4, предназначенной для решения задач ИИ и машинного обучения с высокой эффективностью. Система может использоваться в том числе для работы с крупномасштабными языковыми моделями (LLM).

Один кластер Cloud TPU Pod содержит 4096 чипов TPUv4, соединённых между собой через оптические коммутаторы (OCS). По словам Google, решение OCS быстрее, дешевле и потребляют меньше энергии по сравнению с InfiniBand. Google также утверждает, что в составе её платформы на OCS приходится менее 5 % от общей стоимости. Причём данная технология даёт возможность динамически менять топологию для улучшения масштабируемости, доступности, безопасности и производительности.

Отмечается, что платформа Cloud TPU v4 в 1,2–1,7 раза производительнее и расходует в 1,3–1,9 раза меньше энергии, чем платформы на базе NVIDIA A100 в системах аналогичного размера. Правда, пока компания не сравнивала TPU v4 с более новыми ускорителями NVIDIA H100 из-за их ограниченной доступности и 4-нм архитектуры (по сравнению с 7-нм у TPU v4).

 Изображение: Google

Изображение: Google

Благодаря ключевым инновациям в области интерконнекта и специализированных ускорителей (DSA, Domain Specific Accelerator) платформа Google Cloud TPU v4 обеспечивает почти 10-кратный прирост в масштабировании производительности по сравнению с TPU v3. Это также позволяет повысить энергоэффективность примерно в 2–3 раза по сравнению с современными DSA ML и сократить углеродный след примерно в 20 раз по сравнению с обычными дата-центрами.

Постоянный URL: http://servernews.ru/1084691
22.03.2023 [20:32], Алексей Степин

Экспортный китайский вариант NVIDIA H100 получил модельный номер H800

В связи с санкционными ограничениями некоторые разновидности сложных микроэлектронных чипов запрещено экспортировать в Китайскую Народную Республику. Однако производители находят выход. В частности, компания NVIDIA анонсировала экспортный вариант ускорителя H100, не нарушающий никаких санкций. Модельный номер у такого варианта изменён на H800.

Введённые правительством США в 2022 году санкции сделали «невыездными» два наиболее продвинутых продукта NVIDIA: A100 и H100. Такие процессоры сегодня являются основой наиболее динамично развивающейся вычислительной отрасли — нейросетевой. Именно на кластерах из таких ускорителей «натаскивают» мощные нейросети вроде ChatGPT и подобных.

 Ускоритель Hopper H100 в SXM-исполнении. Источник изображений здесь и далее: NVIDIA

Ускоритель Hopper H100 в SXM-исполнении. Источник изображений здесь и далее: NVIDIA

Ещё осенью прошлого года NVIDIA анонсировала A800 — экспортный вариант A100, не попадающий под ограничения за счёт некоторого снижения пропускной способности NVLink, с 600 до 400 Гбайт/с. Сейчас пришло время архитектуры Hopper, которая запущена в массовое производство. По аналогии с флагманом Ampere модернизированный чип получил модельный номер H800. Ограничения в нём реализованы схожим образом: как известно, NVLink в H100 имеет производительность 900 Гбайт/с в базовом SXM-варианте.

 H100 также существует в PCIe-варианте

H100 также существует в PCIe-варианте

Версия H800 использует примерно половину этого потенциала, что, впрочем, не делает её в Китае менее популярной: новинка уже используется китайскими облачными гигантами, такими, как Alibaba, Baidu и Tencent. Есть ли у H800 другие отличия от H100, не говорится — NVIDIA пока отказывается предоставлять такую информацию. Достоверно известно лишь то, что они полностью соответствуют всем санкционным ограничениям. Интересно, появится ли в будущем вариант H800 NVL на базе NVIDIA H100 NVL.

Постоянный URL: http://servernews.ru/1083837
21.03.2023 [20:45], Владимир Мироненко

NVIDIA запустила облачный сервис DGX Cloud — доступ к ИИ-супервычислениям прямо в браузере

NVIDIA запустила сервис ИИ-супервычислений DGX Cloud, предоставляющий предприятиям доступ к инфраструктуре и программному обеспечению, необходимым для обучения передовых моделей для генеративного ИИ и других приложений.

DGX Cloud предлагает выделенные ИИ-кластеры NVIDIA DGX в сочетании с фирменным набором ПО NVIDIA. С его помощью предприятие сможет получить доступ к облачному ИИ-суперкомпьютеру, используя веб-браузер и без надобности в приобретении, развёртывании и управлении собственной HPC-инфраструктурой. Правда, удовольствие это всё равно не из дешёвых — стоимость инстансов DGX Cloud начинается от $36 999/мес., причём деньги получает в первую очередь сама NVIDIA. Для сравнения — полностью укомплектованная система DGX A100 в Microsoft Azure обойдётся примерно в $20 тыс.

Облачные кластеры DGX предлагаются предприятиям на условиях ежемесячной аренды, что гарантирует им возможность быстро масштабировать разработку больших рабочих нагрузок. «DGX Cloud предоставляет клиентам мгновенный доступ к супервычислениям NVIDIA AI в облаках глобального масштаба», — сообщил Дженсен Хуанг (Jensen Huang), основатель и генеральный директор NVIDIA.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Развёртыванием инфраструктуры DGX Cloud компания NVIDIA будет заниматься в сотрудничестве с ведущими поставщиками облачных услуг. Первым среди них стала платформа Oracle Cloud Infrastructure (OCI), предлагающая суперкластер (SuperCluster) с объединёнными RDMA-сетью (в том числе на базе BlueField-3 и Connect-X7) системами DGX (bare metal), которые дополняет высокопроизводительное локальное и блочное хранилище. Cуперкластер может включать до 32 768 ускорителей, но этот рекорд был поставлен с использованием DGX A100, а вот предложение DGX H100 пока что ограничено. В следующем квартале похожее решение появится в Microsoft Azure, а потом в Google Cloud и у других провайдеров.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Первыми пользователями DGX Cloud стали Amgen, одна из ведущих мировых биотехнологических компаний, лидер рынка страховых технологий CCC Intelligent Solutions (CCC) и провайдер цифровых бизнес-платформ ServiceNow. «Мощные вычислительные и многоузловые возможности DGX Cloud позволили нам в 3 раза ускорить обучение белковых LLM с помощью BioNeMo и до 100 раз ускорить анализ после обучения с помощью NVIDIA RAPIDS по сравнению с альтернативными платформами», — сообщил представитель Amgen.

Для управления нагрузками в DGX Cloud предлагается NVIDIA Base Command. Также DGX Cloud включает в себя набор инструментов NVIDIA AI Enterprise для создания и запуска моделей, который предоставляет комплексные фреймворки и предварительно обученные модели для ускорения обработки данных и оптимизации разработки и развёртывания ИИ. DGX Cloud предоставляет поддержку экспертов NVIDIA на всех этапах разработки ИИ. Клиенты смогут напрямую работать со специалистами NVIDIA, чтобы оптимизировать свои модели и быстро решать задачи разработки с учётом сценариев отраслевого использования.

Постоянный URL: http://servernews.ru/1083724
21.03.2023 [19:45], Игорь Осколков

Толстый и тонкий: NVIDIA представила самый маленький и самый большой ИИ-ускорители L4 и H100 NVL

На весенней конференции GTC 2023 компания NVIDIA представила два новых ИИ-ускорителя, ориентированных на инференес: неприличной большой H100 NVL, фактически являющийся парой обновлённых ускорителей H100 в формате PCIe-карты, и крошечный L4, идущий на смену T4.

 Изображения: NVIDIA

Изображения: NVIDIA

NVIDIA H100 NVL действительно выглядит как пара H100, соединённых мостиками NVLink. Более того, с точки зрения ОС они выглядят как пара независимых ускорителей, однако ПО воспринимает их как единое целое, а обмен данными между двумя картам идёт в первую очередь по мостикам NVLink (600 Гбайт/с). Новинка создана в первую очередь для исполнения больших языковых ИИ-моделей, в том числе семейства GPT, а не для их обучения.

 NVIDIA H100 NVL

NVIDIA H100 NVL

Однако аппаратно это всё же не просто пара обычных H100 PCIe. По уровню заявленной производительности NVL-вариант вдвое быстрее одиночного ускорителя H100 SXM, а не PCIe — 3958 и 7916 Тфлопс в разреженных (в обычных показатели вдвое меньше) FP16- и FP8-вычислениях на тензорных ядрах соответственно, что в 2,6 раз больше, чем у H100 PCIe. Кроме того, NVL-вариант получил сразу 188 Гбайт HBM3-памяти с суммарной пропускной способностью 7,8 Тбайт/с.

NVIDIA утверждает, что форм-фактор H100 NVL позволит задействовать новинку большему числу пользователей, хотя четыре слота и TDP до 800 Вт подойдут далеко не каждой платформе. NVIDIA H100 NVL станет доступна во второй половине текущего года. А вот ещё одну новинку, NVIDIA L4 на базе Ada, в ближайшее время можно будет опробовать в облаке Google Cloud Platform, которое первым получило этот ускоритель. Кроме того, он же будет доступен в рамках платформы NVIDIA Launchpad, да и ключевые OEM-производители тоже взяли его на вооружение.

 NVIDIA L4

NVIDIA L4

Сама NVIDIA называет L4 поистине универсальным серверным ускорителем начального уровня. Он вчетверо производительнее NVIDIA T4 с точки зрения графики и в 2,7 раз — с точки зрения инференса. Маркетинговые упражнения компании при сравнении L4 с CPU оставим в стороне, но отметим, что новинка получила новые аппаратные ускорители (де-)кодирования видео и возможность обработки 130 AV1-потоков 720p30 для мобильных устройств. С L4 возможны различные сценарии обработки видео, включая замену фона, AR/VR, транскрипцию аудио и т.д. При этом ускорителю не требуется дополнительное питание, а сам он выполнен в виде HHHL-карты.

Постоянный URL: http://servernews.ru/1083759
17.03.2023 [14:10], Сергей Карасёв

Разработчики Linux отказались принимать апдейты от «Байкал Электроникс»

Сообщество разработчиков ядра Linux отказалось принимать от российской компании «Байкал Электроникс» патчи для ядра. О запрете, как отмечает ресурс Phoronix, сообщил Якуб Кичиньский (Jakub Kicinski), занимающийся поддержкой сетевой подсистемы Linux. «Нам некомфортно принимать патчи от вашей организации или обновления, связанные с произведённым вами оборудованием», — заявил господин Кичиньский в переписке с Сергеем Сёминым, сотрудником «Байкал Электроникс».

Дело в том, что российский разработчик процессоров и SoC с архитектурами MIPS и Arm находится под европейскими и американскими санкциями. В этой связи Якуб Кичиньский посоветовал «Байкал Электроникс» воздержаться от внесения изменений в сетевую подсистему ядра Linux «до дальнейшего уведомления». Отметим, что именно благодаря «Байкал Электроникс» в ядре Linux появилась полноценная поддержка Warrior P5600 — именно это решение лежит в основе чипа «Байкал-Т1».

 Источник изображения: «Байкал Электроникс»

Источник изображения: «Байкал Электроникс»

Как уточняет Phoronix, отказ принимать патчи последовал после того, как «Байкал Электроникс» предложила ряд исправлений для сетевого драйвера STMMAC. Он предназначен для Ethernet-контроллеров Synopsys, которые используются в решениях российской компании. «Серия исправлений, о которой идёт речь, не относится непосредственно к решениям "Байкал Электроникс", а представляет собой всего лишь исправления для сетевого драйвера Synopsys, используемого несколькими различными аппаратными платформами/организациями», — подчёркивается в публикации.

Постоянный URL: http://servernews.ru/1083547
07.03.2023 [00:53], Владимир Мироненко

Вашингтон закрыл Inspur, третьему по величине производителю серверов в мире, доступ к новейшим технологиям США

Министерство торговли США объявило на прошлой неделе о внесении в чёрный список 37 компаний, включая 28 китайских. В их числе Inspur Group, специализирующаяся на ИИ, облаках и Big Data, серверах и СХД и являющаяся третьим по величине игроком на мировом серверном рынке с долей около 10 %. Как пишет агентство Bloomberg, это неожиданное решение может оказать непредвиденное влияние на американские технологические компании, такие как Cisco, IBM и Intel, которые многие годы работают с Inspur Group с целью расширения присутствия на одном из крупнейших рынков мира.

В связи с лидирующими позициями Inspur на внутреннем рынке многие иностранные компании стремятся сотрудничать с ней, чтобы получить к нему доступ. Несколько лет назад Inspur создала совместные предприятия с Cisco (Гонконг, 2016 год) и IBM (Китай, 2018 год), что является обычной практикой, позволяющей упростить одобрение регулирующих органов на поставку продукции в Китай, а также прохождение проверок безопасности. Сама Inspur благодаря партнёрству с американскими компаниями получила доступ к работе на международных рынках. В обеих компаниях Inspur владеет 51 % уставного капитала.

 Изображение: Inspur

Изображение: Inspur

После внесения в чёрный список Inspur не сможет закупать передовые чипы без получения соответствующей экспортной лицензии. И теперь поставщики компании должны будут получать такие лицензии практически на все компоненты и ПО, которые они продают Inspur, включая модули памяти, устройства хранения (HDD, SSD), сетевые контроллеры, контроллеры NVMe/SAS/RAID, ПО и, возможно, даже блоки питания. Среди поставщиков китайской компании есть Intel, NVIDIA, Broadcom, Microsemi, Samsung, Solidigm и SK Hynix. Сейчас Inspur занимается оценкой ситуации. Под санкции США компания попадает уже не в первый раз.

Постоянный URL: http://servernews.ru/1082982
21.01.2023 [16:30], Сергей Карасёв

AWS вложит $35 млрд в расширение мощностей ЦОД в Вирджинии

Облачная платформа Amazon Web Services (AWS), по сообщению Bloomberg, намерена значительно расширить инфраструктуру дата-центров в Вирджинии (США). Сообщается, что на строительство новых ЦОД в этом регионе до 2040 года будет выделено приблизительно $35 млрд.

Amazon уже имеет значительное присутствие в Северной Вирджинии. Облачный провайдер открыл свой первый кластер ЦОД и офисов в этом регионе в 2006 году, а с 2011-го инвестировал в развитие соответствующей инфраструктуры примерно $35 млрд. Компания не раскрывает количество и точное местоположение своих дата-центров, ссылаясь на коммерческую тайну и соображения безопасности.

 Источник изображения: Amazon

Источник изображения: Amazon

О новых планах AWS, как отмечает Datacenter Dynamics, объявили Партнёрство экономического развития Вирджинии и губернатор штата Гленн Янгкин (Glenn Youngkin). Регион привлекателен для операторов ЦОД с точки зрения налоговых льгот и относительно недорогой электроэнергии. Проект предполагает, что AWS построит нескольких новых кампусов дата-центров по всей Вирджинии. Это создаст приблизительно 1000 дополнительных рабочих мест.

«Вирджиния является мировым лидером в области инноваций и облачных вычислений. С 2006 года компания AWS инвестировала более $35 млрд в регион, увеличив общий валовой внутренний продукт Содружества Вирджинии почти на $7 млрд, и ежегодно поддерживает тысячи рабочих мест. Опираясь на эти успешные начинания, мы планируем к 2040 году дополнительно инвестировать $35 млрд», — заявил Роджер Венер (Roger Wehner), директор по экономическому развитию AWS.

 Источник изображения: Amazon

Источник изображения: Amazon

Amazon активно развивается в Северной Вирджинии, крупнейшем в мире рынке ЦОД. Помимо приобретения земли в округах Лаудон и Принс-Уильям, компания намерена развернуть площадки в округах Фокир, Калпепер и Фэрфакс. Однако некоторые проекты AWS столкнулись с сильным сопротивлением местных жителей, в результате чего часть инициатив была приостановлена. Домовладельцы и гражданские активисты жалуются на высокий уровень шума от дата-центров, который производится круглосуточно и без выходных. Причём никаких мер для решения проблемы не предпринимается.

Претензии также связаны с тем, что строительство новых ЦОД предполагается в особых зонах — сельской местности, исторических местах вроде Национального поля битвы в Манассасе, а также в местах захоронений предков многих жителей. Это породило массовые протесты. Наконец, в регионе из-за огромного количества дата-центров возникла нехватка электроэнергии: для питания ЦОД попросту недостаёт линий электропередач.

Постоянный URL: http://servernews.ru/1080666
15.11.2022 [19:08], Сергей Карасёв

Cerebras построила ИИ-суперкомпьютер Andromeda с 13,5 млн ядер

Компания Cerebras Systems сообщила о запуске уникального вычислительного комплекса Andromeda для выполнения «тяжёлых» ИИ-нагрузок. В основу Andromeda положен кластер из 16 блоков Cerebras CS-2, объединённых 96,8-Тбит/с фабрикой. Каждый из них содержит чип WSE-2, насчитывающий 850 тыс. ядер. Таким образом, общее число ядер достигает 13,5 млн. Кроме того, непосредственно в состав каждого чипа входят 40 Гбайт сверхбыстрой памяти. Система уже доступна коммерческим заказчикам, а также различным научным организациям.

 Источник изображения: Cerebras Systems

Источник изображения: Cerebras Systems

Суперкомпьютер также использует 284 односокетных сервера с процессорами AMD EPYC 7713. Суммарное количество вычислительных ядер общего назначения составляет 18 176. Каждый из этих серверов несёт на борту 128 Гбайт оперативной памяти, NVMe-накопитель вместимостью 1,92 Тбайт и две сетевые карты 100GbE. Эти узлы отвечают за предварительную обработку информации.

 Источник: Cerebras Systems

Источник: Cerebras Systems

По заявлениям Cerebras, производительность системы превышает 1 Эфлопс на т.н. разреженных вычислениях и достигает 120 Пфлопс при обычных FP16-вычислениях. Это первый в мире суперкомпьютер, который обеспечивает практически идеальное линейное масштабирование при работе с GPT-моделями, в частности, GPT-3, GPT-J и GPT-NeoX. Иначе говоря, при каждом удвоении числа комплексов CS-2 время обучения моделей сокращается почти в два раза.

Суперкомпьютер смонтирован в дата-центре Colovore в Санта-Кларе (Калифорния, США). Стоимость системы составила приблизительно $30 млн, а на её развёртывание потребовалось всего три дня. Использовать ресурсы Andromeda могут одновременно несколько клиентов.

Постоянный URL: http://servernews.ru/1077382

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;