Материалы по тегу: ускоритель

14.07.2023 [20:00], Владимир Мироненко

Intel представила урезанные версии ИИ-ускорителей Habana Gaudi2 для Китая

Компания Intel провела 11 июля в Пекине мероприятие для клиентов и партнёров на китайском рынке, а также местных СМИ, на котором объявила о доступности ускорителей вычислений Habana Gaudi2, модифицированных с учётом ограничений, наложенных властями США в рамках санкционной политики, сообщил The Register. Таким образом, не желая терять громадный китайский рынок, Intel последовала примеру NVIDIA, выпустившей ускорители A800 и H800, представляющие собой урезанные модификации A100 и H100 соответственно.

Представленный весной 2022 года Gaudi2 позиционируется в качестве конкурента ускорителей A100, популярных у компаний, обучающих большие языковые модели (LLM). Gaudi2 изготовлен с использованием 7-нм техпроцесса и имеет 24 тензорных блока, 96 Гбайт HBM2e и 24 порта 100GbE. Несмотря на то, что согласно внутренним данным Intel, ускоритель Gaudi2 превзошёл в два раза по производительности в тестах ResNet-50 и BERT ускоритель A100, он пока не получил такого широкого распространения, как решения NVIDIA.

 Фото: Intel

Фото: Intel

По словам Digitimes, Intel также оптимизировала ПО Gaudi2 для обучения LLM. Примечательно, что в последнем раунде MLPerf Training v3.0 только ускорители Habana смогли потягаться с чипами NVIDIA в тесте GPT-3. Ожидается, что китайские партнёры Intel, такие как Inspur, New H3C и xFusion, выпустят серверные продукты с Gaudi2. Ранее также сообщалось, что Intel планирует выпустить ускоритель Data Center GPU Max 1450 с меньшей I/O-производительностью, представляющий собой урезанную версию Data Center GPU Max 1550. Как полагает The Register, эта модель тоже в первую очередь предназначена для Китая.

Постоянный URL: http://servernews.ru/1089998
13.07.2023 [17:06], Алексей Степин

Китайские разработчики чипов объединились для создания национальной ИИ-экосистемы

Не секрет, что китайские разработки в области ИИ-ускорителей, DPU и GPU пока существенно уступают новейшим решениям NVIDIA и AMD. Но китайская индустрия не намерена мириться с таким положением вещей, даже несмотря на жёсткие санкционные меры со стороны США.

На мероприятии World AI Conference 2023 был анонсирован совместный проект китайских властей, разработчиков и научно-исследовательских оргинизаций под названием Intelligent Leap Project, целью которого является установление единых стандартов в сфере ИИ и разработка ускорителей нового поколения с учётом этих стандартов.

Об участии в проекте заявили практически все крупные китайские разработчики чипов: Huawei HiSilicon, Enflame, KunLunXin, FeiTeng, Hygon, MetaX, Smart Chip, iluvatar, ShenWei, Biren, Denglin, Fudan Microelectronics, Moore Threads, Riscure, Intellifusion, Corerain, Novauto, TheWake, Axera и KiwiMoore; ряд руководителей присутствовал на церемонии открытия проекта.

 Изображения: Biren

Изображения: Biren

Проект должен объединить индустриальные и научно-исследовательские ресурсы КНР для разработки продвинутых технологий ИИ и создания на их основе единой «умной» экосисистемы, пригодной к использованию как в условиях Китая, так и на международном рынке.

Предполагается создание платформы для всестороннего тестирования ИИ-ускорителей в различных сценариях и их оценки «на профпригодность». КНР всерьёз готовится к прорыву в сфере ИИ. Если раньше речь шла об отдельных инициативах, вроде чипа BR100, то сейчас под эгидой Intelligent Leap Project Китай, похоже, намерен дать серьёзный бой западным технологиям.

Постоянный URL: http://servernews.ru/1089909
12.07.2023 [22:05], Владимир Мироненко

Облачная индустрия оказалась не готова к массовому развёртыванию ИИ

Хотя многие компании считают облако лучшим выбором для обучения и запуска больших приложений ИИ, лишь небольшая часть существующей облачной инфраструктуры на данный момент имеет соответствующие вычислительные мощности, пишет The Wall Street Journal (WSJ). «Сейчас существует довольно большой дисбаланс между спросом и предложением», — сообщил Четан Капур (Chetan Kapoor), директор по управлению продуктами в подразделении AWS EC2. Ниди Чаппелл (Nidhi Chappell), генеральный менеджер Azure AI Infrastructure, отметила наличие «неутолимого» спроса на запуск больших языковых моделей (LLM).

Однако основная часть текущей облачной инфраструктуры не была создана для запуска таких больших и сложных систем. Облако позиционировалось как удобная альтернатива локальным серверам, которую можно легко масштабировать под свои цели с оплатой по факту использования. Большая часть современного облачного пространства состоит из серверов с CPU общего назначения, предназначенных для одновременного выполнения нескольких рабочих нагрузок. И гораздо меньше имеется GPU-серверов и кластеров, оптимизированных для ИИ и больших рабочих нагрузок. При этом AWS, Google, Meta и Microsoft уже увеличили срок эксплуатации имеющегося оборудования с трёх–четырёх до шести лет.

 Источник изображения: Google

Источник изображения: Google

По словам Капура, оптимизированная для ИИ-нагрузок инфраструктура составляет лишь небольшой процент от общего объёма облачных ресурсов компании, хотя темпы её роста гораздо выше, чем у других сегментов. Капур сообщил, что в течение следующих 12 мес. компания развернёт несколько ИИ-кластеров. Microsoft Azure и Google Cloud Platform заявили WSJ, что тоже работают над тем, чтобы сделать ИИ-инфраструктуру большей частью своего парка. Вместе с тем в Microsoft отметили, что не собираются отказываться от серверов общего назначения, которые по-прежнему ценны для компаний.

А вот Dell ожидает, что высокая стоимость облачных вычислений может подтолкнуть компании к локальному развёртыванию систем. «Существующие экономические модели, в первую очередь, публичной облачной среды, не были оптимизированы для того типа спроса и уровня активности, который мы увидим, когда люди перейдут на ИИ-системы», — заявил технический директор Dell Джон Роес (John Roese). По его словам, в локальной среде компании смогут сэкономить на расходах на сеть и хранение данных. С этим не согласны облачные провайдеры, утверждающие, что у них есть доступные по цене предложения, и что в долгосрочной перспективе on-premise системы обойдутся дороже в связи с необходимостью обновления оборудования.

HPE и вовсе строит собственный публичный облачный сервис для обучения моделей ИИ на базе суперкомпьютера, который будет доступен во второй половине 2023 года. «Он специально создан для крупномасштабных сценариев использования ИИ», — заявил Джастин Хотард (Justin Hotard), исполнительный вице-президент и глава сегмента HPC & AI. Впрочем, поставщики оборудования сходятся во мнении, что ИИ-индустрия всё ещё находится на начальном этапе, и что в конечном итоге решение может быть гибридным, когда только часть вычислений будет выполняться в облаке.

Постоянный URL: http://servernews.ru/1089855
04.07.2023 [17:20], Владимир Мироненко

Обойдёмся без NVIDIA: MosaicML перенесла обучение ИИ на ускорители AMD Instinct MI250 без модификации кода

Разработчик решений в области генеративного ИИ MosaicML, недавно перешедший в собственность Databricks, сообщил о хороших результатах в обучении больших языковых моделей (LLM) с использованием ускорителей AMD Instinct MI250 и собственной платформы.

Компания рассказала, что подыскивает от имени своих клиентов новое «железо» для машинного обучения, поскольку NVIDIA в настоящее время не в состоянии обеспечить своими ускорителями всех желающих. MosaicML пояснила, что требования к таким чипам просты:

  • Реальные рабочие нагрузки: поддержка обучения LLM с 16-бит точностью (FP16 или BF16) с той же сходимостью и качеством конечной модели, что и при обучении на системах NVIDIA.
  • Скорость и стоимость: конкурентоспособные производительность и соотношение производительности и стоимости.
  • Разработка: минимальные изменения кода по сравнению с её существующим стеком (PyTorch, FSDP, Composer, StreamingDataset, LLM Foundry).
 Источник изображений: MosaicML

Источник изображений: MosaicML

Как отметила компания, ни один из чипов до настоящего времени смог полностью удовлетворить все требования MosaicML. Однако с выходом обновлённых версий фреймворка PyTorch 2.0 и платформы ROCm 5.4+ ситуация изменилась — обучение LLM стало возможным на ускорителях AMD Instinct MI250 без изменений кода при использовании её стека LLM Foundry.

Некоторые основные моменты:

  • Обучение LLM было стабильным. С высокодетерминированным обучающим стеком LLM Foundry обучение LLM MPT-1B на ускорителях AMD MI250 и NVIDIA A100 дало почти идентичные кривые потерь при запуске с одной и той же контрольной точки. Исследователи даже смогли переключаться между ускорителями AMD и NVIDIA в течение тренировочного прогона.
  • Производительность была конкурентоспособной с существующими системами A100. Исследователи профилировали пропускную способность обучения моделей MPT с параметрами от 1 до 13 млрд и обнаружили, что скорость обработки MI250 на один ускоритель находится в пределах 80 % от A100-40GB и в пределах 73 % от A100-80GB. Как ожидает компания, этот разрыв сократится по мере улучшения программного обеспечения AMD.

При этом никаких изменений в коде не потребовалось.

Все результаты получены на одном узле из четырёх MI250, но компания работает с гиперскейлерами для проверки возможностей обучения на более крупных кластерах AMD Instinct. «В целом наши первоначальные тесты показали, что AMD создала эффективный и простой в использовании программно-аппаратный стек, который может конкурировать с NVIDIA», — сообщила MosaicML. Это важный шаг в борьбе с доминирующим положением NVIDIA на рынке ИИ.

Постоянный URL: http://servernews.ru/1089341
30.06.2023 [12:30], Сергей Карасёв

Lightelligence представила оптический ускоритель Hummingbird

Компания Lightelligence, занимающаяся фотонными вычислениями, представила Hummingbird — специализированный оптический ускоритель, предназначенный для применения в системах, ориентированных на решение сложных задач, связанных с алгоритмами ИИ.

Разработчик называет новинку «оптической сетью на чипе» (Optical Network-on-Chip, oNOC). Устройство объединяет в одном корпусе фотонный блок и традиционный электронный узел. Изделие призвано выполнять функции коммуникационного сетевого компонента для дата-центров и высоконагруженных платформ.

 Источник изображения: Lightelligence

Источник изображения: Lightelligence

Hummingbird использует технологию Lightelligence oNOC, предназначенную для повышения производительности вычислений путём использования инновационных межсоединений на базе кремниевой фотоники. Благодаря применению света снижаются задержки и сокращается энергопотребление по сравнению с традиционными решениями.

 Источник изображения: Lightelligence

Источник изображения: Lightelligence

В Hummingbird задействованы 64 передатчика и 512 приемников, 38 МиБ SRAM и 2 Гбайт DDR4. Ускоритель может стать одним из ключевых компонентов оптических сетей высокой плотности. Изделие выполнено в формате полноразмерной двухслотовой карты расширения с интерфейсом PCIe 3.0 x4, благодаря чему подходит для применения в существующих серверах. Разработчикам доступен комплект SDK для развёртывания различных приложений ИИ и машинного обучения.

Постоянный URL: http://servernews.ru/1089231
29.06.2023 [14:41], Сергей Карасёв

США могут ввести более жёсткие ограничения на поставки в Китай чипов для работы с ИИ

Министерство торговли США, по сообщению The Wall Street Journal, рассматривает возможность дальнейших ограничений на экспорт в Китай передовых чипов, используемых, в частности, для работы с ИИ. Это может негативно отразиться на продажах продукции AMD и NVIDIA.

В связи с санкционными ограничениями, введёнными в 2022 году, компании NVIDIA уже пришлось выпустить для китайского рынка специальные версии ускорителей A100 и H100 — модели A800 и H800 с несколько пониженной производительностью. Причём в случае как минимум некоторых модификаций H800 речь идёт о снижении FP64-производительности, а не только ПСП NVLink как было в случае A800.

Как теперь стало известно, американские власти рассматривают возможность усиления экспортного контроля. Речь идёт о том, чтобы обязать компании, отгружающие чипы в Китай, получать специальную лицензию. Без неё станут невозможными поставки в КНР даже «урезанных» ускорителей.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Предполагается, что в соответствии с новыми правилами каждый контракт на поставку изделий в Китай будет рассматриваться специальной комиссией на индивидуальной основе. Вопрос о введении таких мер, по информации The Wall Street Journal, будет рассмотрен в ближайшее время.

На фоне сообщений об ужесточении санкций акции AMD подешевели примерно на 3,0 %, тогда как стоимость ценных бумаг NVIDIA снизилась на 3,2 %. Сами компании ситуацию никак не комментируют. Отметим, что характеристики своих ИИ-ускорителей также пересмотрели Intel и Graphcore.

Между тем в Китае на фоне дефицита сформировался чёрный рынок ускорителей. В частности, заказчики получают небольшие партии NVIDIA A100, импортируя их из других азиатских стран, включая Индию, Тайвань или Сингапур. При этом цена может достигать $20 тыс.

Постоянный URL: http://servernews.ru/1089151
22.06.2023 [17:04], Алексей Степин

NVIDIA AX800: ИИ-сервер для 5G в форм-факторе PCIe-карты

В форм-факторе плат расширения PCIe существует множество устройств, включая, к примеру, маршрутизаторы. Но NVIDIA AX800 выводит это понятие на новый уровень — здесь плата расширения являет собой полноценный высокопроизводительный сервер. Плата включает DPU BlueField-3, который располагает 16 ядрами Cortex Arm-A78, дополненных 32 Гбайт RAM, а также ускоритель A100 (80 Гбайт). Новинкая является наследницей карты A100X, но с гораздо более производительным DPU.

 Источник изображений здесь и далее: NVIDIA

Источник изображений здесь и далее: NVIDIA

На борту также имеется eMMC объёмом 40 Гбайт, два 200GbEпорта (QSFP56). Плата выполнена в форм-факторе FHFL, имеет пассивное охлаждение и предельный теплопакет 350 Вт. Дополнительно предусмотрен порт 1GbE для удалённого управления для BMC ASPEED AST2600, так что речь действительно идёт о полноценном сервере. На PCB имеются гребёнки разъёмов NVLink — данное решение может работать не в одиночку, а в составе высокоплотного многопроцессорного сервера.

NVIDIA AX800 позволяет построить полностью ускоряемый стек 5G vRAN

NVIDIA позиционирует новинку как решение для систем 5G vRAN, но также она может найти место и в высокоплотных системах периферийных системах для ИИ-задач. В качестве программной платформы предлагается Aerial 5G vRAN. Плата ускоряет обработку L1/L2-трафика 5G и способна предложить до 36,56 и 4,794 Гбит/с нисходящей и восходящей пропускной способности (4T4R). Платформа поддерживает масштабирование от 2T2R до 64T64R (massive MIMO). А поддержка MIG позволяет гибко перераспределять нагрузки ИИ и 5G.

Постоянный URL: http://servernews.ru/1088789
22.06.2023 [14:41], Владимир Мироненко

TrendForce: рост популярности ИИ подстегнёт спрос на память HBM и продвинутые методы упаковки чипов

TrendForce отметила в своём новом исследовании, что в связи с резким ростом популярности приложений генеративного ИИ ведущие провайдеры облачных решений, включая Microsoft, Google, AWS, а также китайские технологические гиганты, такие как Baidu и ByteDance, значительно увеличили приобретение ИИ-серверов, необходимых для обучения и оптимизации ИИ-моделей.

Ажиотаж вокруг генеративного ИИ стал стимулом для разработки более мощных ИИ-серверов и роста этого сегмента рынка. Как полагают аналитики TrendForce, производители будут расширять использование в ИИ-системах передовых технологий, применяя мощные ускорители вычислений и высокопроизводительную память HBM в сочетании с современными методами упаковки чипов. Согласно прогнозу TrendForce, в течение 2023–2024 гг. вырастет спрос на HBM, а также на 30–40 % увеличатся мощности для выпуска чипов с использованием передовых методов упаковки.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

TrendForce отметила, что для повышения вычислительной эффективности ИИ-серверов и увеличения пропускной способности памяти ведущие производители ИИ-микросхем, включая NVIDIA, AMD и Intel, наращивают использование HBM. В настоящее время у чипов NVIDIA A100/H100 имеется 80 Гбайт памяти HBM2e/HBM3. В суперчипе GH200 Grace Hopper используется ускоритель NVIDIA H100 с 96 Гбайт памяти HBM3.

В чипах серии AMD Instinct MI300 тоже используется память HBM3: у версии MI300A её ёмкость составляет 128 Гбайт, а у более продвинутой версии MI300X — 192 Гбайт. Также ожидается, что Google в рамках расширения ИИ-инфраструктуры начнёт в конце 2023 года в партнёрстве с Broadcom производство обновлённых тензорных чипов TPU, тоже с использованием памяти HBM.

 Источник изображения: AMD

Источник изображения: AMD

Согласно прогнозу TrendForce, в 2023 году будет выпущено ИИ-ускорителей с общим объёмом памяти HBM в пределах 290 млн Гбайт, что означает рост год к году на 60 %. В 2024 рост объёмов выпуска памяти HBM составит 30 % или более. Также будет расти спрос на передовые технологии упаковки чипов для сферы ИИ и высокопроизводительных вычислений (HPC). При этом преобладающим методом для ИИ-чипов будет Chip on Wafer on Substrate (CoWoS) от TSMC, позволяющий разместить на одной подложке до 12 стеков памяти HBM.

По оценкам TrendForce, с начала 2023 года спрос на CoWoS вырос почти на 50 % на фоне роста популярности ускорителей NVIDIA A100 и H100. Ожидается, что к концу года ежемесячный выпуск TSMC чипов с применением CoWoS вырастет до 12 тыс. Во второй половине 2023 года возможности заказа выпуска чипов с применением CoWoS будут ограничены в связи с растущим спросом на ИИ-чипы со стороны AMD, Google и других компаний.

Высокий спрос на использование CoWoS сохранится до 2024 года с прогнозируемым ростом производственных мощностей по упаковке этим методом на 30–40 % с учётом готовности соответствующего оборудования. Аналитики TrendForce не исключают возможности использования NVIDIA альтернативных технологий упаковки для производства ускорителей в случае сохранения высокого спроса на системы ИИ. Речь идёт о разработках компаний Samsung и Amkor.

Постоянный URL: http://servernews.ru/1088776
15.06.2023 [01:22], Владимир Мироненко

AWS присматривается к новым ИИ-ускорителям AMD Instinct MI300

Amazon Web Services (AWS), крупнейший в мире провайдер облачных вычислений, рассматривает возможность использования новых ИИ-ускорителей AMD Instinct MI300. Об этом сообщил агентству Reuters Дейв Браун (Dave Brown), вице-президент Amazon по EC2, уточнив, что окончательное решение по данному вопросу пока не принято. При этом у компании уже есть ИИ-ускорители собственной разработки: Trainium и Inferentia2.

Браун рассказал, что AWS отказалась сотрудничать с NVIDIA в деле развёртывания её платформы DGX Cloud, которая пока что доступна только в облаке Oracle. «Они обратились к нам, мы рассмотрели бизнес-модель, но она не имела особого смысла для AWS, которая сама обладает большим опытом в создании надёжных серверов и работе с цепочками поставок», — сообщил Браун, отметив, что AWS предпочитает разрабатывать свои серверы с нуля.

В интервью Reuters гендиректор AMD Лиза Су (Lisa Su) рассказала, что для привлечения клиентов компания предлагает широкий перечень всех компонентов, необходимых для создания систем для запуска ИИ-решений, подобных ChatGPT, оставляя за ними возможность выбора того, что именно подойдёт с учётом использования стандартных отраслевых соединений. Браун сообщил, что команды Amazon и AMD уже сотрудничают какое-то время.

 Изображение: AMD

Изображение: AMD

Добавим, что AWS уже предлагает собственные системы с актуальными ускорителями NVIDIA H100. Аналитики отмечают, что интерес Amazon к MI300 указывает на стремление технологических компаний диверсифицировать парк ИИ-оборудования. А это открывает новые возможности для разработчиков чипов. При этом, как отмечал ресурс The Information, NVIDIA пока что благосклонна к небольшим облачным провайдерам, которые не занимаются созданием собственных ИИ-ускорителей.

Постоянный URL: http://servernews.ru/1088412
14.06.2023 [03:00], Игорь Осколков

AMD представила ИИ-ускорители Instinct MI300X: 192 Гбайт HBM3 и 153 млрд транзисторов

Вместе с Bergamo и Genoa-X компания AMD представила и новый ИИ-ускоритель, а точнее два варианта одного и того же продукта — Instinct MI300A и MI300X. Как и в случае с EPYC, модульный подход к построению чипов позволил компании с минимумом усилий расширить портфолио.

Об Instinct MI300A компания рассказывала неоднократно. Это самодостаточный APU (или XPU), объединяющий 24 ядра EPYC Genoa (три CCD), ускоритель на базе CDNA3 и 128 Гбайт общей памяти HBM3. Конкурировать он будет с решением NVIDIA Grace Hopper, которое включает 72-ядерный Arm-процессор NVIDIA Grace и ускоритель NVIDIA H100 с 96 Гбайт HBM3. Intel же из гонки гибридов временно выбыла, отказавшись в Falcon Shores от блока CPU.

 Изображения: AMD

Изображения: AMD

Правда, подход у компаний разный. NVIDIA предпочитает использовать NVLink и для объединения кристаллов внутри Grace Hopper (C2C), и для связи между узлами, что упрощает масштабирование. AMD в случае Instinct MI300 использует большую подложку-интерпозер, которая объединяет HBM-стеки (8 шт.) и блоки Zen 4/CDNA3 (4 шт.), что даёт определённую гибкость в выборе конфигурации чипа.

Этим компания и воспользовалась, представив OAM-ускорители MI300X, которые напрочь лишены CPU-блоков. Весьма своевременное появление 24-Гбайт модулей HBM3 позволило поднять общий объём памяти до 192 Гбайт, а её пропускную способность (ПСП) — до 5,2 Тбайт/с. Впрочем, о характеристиках новинки AMD больше ничего и не говорит, если не считать упоминания ПСП шины Infinity Fabric (896 Гбайт/с) и количества транзисторов (153 млрд шт.).

Столь большой объём памяти выгодно отличает MI300X от SXM-версии NVIDIA H100, которая может предложить только 80 Гбайт HBM3 и ПСП 3,35 Тбайт/с. Да, у NVIDIA есть «сендвич» H100 NVL, у которого имеется уже 188 Гбайт HBM3 (7,8 Тбайт/с). Но это всё же совсем иной форм-фактор, хотя, как и MI300X, ориентированный на работу с действительно большими ИИ-моделями.

Больший объём набортной памяти позволяет избавиться от лишних перемещений данных между ускорителем и основной памятью системы или несколькими ускорителями. Как и полагается, AMD анонсировала Instinct Platform — плату наподобие NVIDIA HGX, которая объединяет восемь ускорителей MI300X и, по-видимому, соответствует стандарту OCP UBB, что упрощает создание узлов на её основе.

Первые образцы Instinct MI300X появятся в следующем квартале, а образцы MI300A уже поставляются заказчикам. Впрочем, одним «железом» сыт не будешь — компания активно развивает программную платформу, в том числе ROCm, поскольку в области ПО для ИИ догнать, а уж тем более перегнать NVIDIA будет непросто. Это настолько важный пункт для AMD, что даже в презентации речь сначала долго шла о ПО, а уж потом были представлены новые ускорители.

Постоянный URL: http://servernews.ru/1088343

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus