Материалы по тегу: ускоритель
14.07.2023 [20:00], Владимир Мироненко
Intel представила урезанные версии ИИ-ускорителей Habana Gaudi2 для КитаяКомпания Intel провела 11 июля в Пекине мероприятие для клиентов и партнёров на китайском рынке, а также местных СМИ, на котором объявила о доступности ускорителей вычислений Habana Gaudi2, модифицированных с учётом ограничений, наложенных властями США в рамках санкционной политики, сообщил The Register. Таким образом, не желая терять громадный китайский рынок, Intel последовала примеру NVIDIA, выпустившей ускорители A800 и H800, представляющие собой урезанные модификации A100 и H100 соответственно. Представленный весной 2022 года Gaudi2 позиционируется в качестве конкурента ускорителей A100, популярных у компаний, обучающих большие языковые модели (LLM). Gaudi2 изготовлен с использованием 7-нм техпроцесса и имеет 24 тензорных блока, 96 Гбайт HBM2e и 24 порта 100GbE. Несмотря на то, что согласно внутренним данным Intel, ускоритель Gaudi2 превзошёл в два раза по производительности в тестах ResNet-50 и BERT ускоритель A100, он пока не получил такого широкого распространения, как решения NVIDIA. По словам Digitimes, Intel также оптимизировала ПО Gaudi2 для обучения LLM. Примечательно, что в последнем раунде MLPerf Training v3.0 только ускорители Habana смогли потягаться с чипами NVIDIA в тесте GPT-3. Ожидается, что китайские партнёры Intel, такие как Inspur, New H3C и xFusion, выпустят серверные продукты с Gaudi2. Ранее также сообщалось, что Intel планирует выпустить ускоритель Data Center GPU Max 1450 с меньшей I/O-производительностью, представляющий собой урезанную версию Data Center GPU Max 1550. Как полагает The Register, эта модель тоже в первую очередь предназначена для Китая.
13.07.2023 [17:06], Алексей Степин
Китайские разработчики чипов объединились для создания национальной ИИ-экосистемыНе секрет, что китайские разработки в области ИИ-ускорителей, DPU и GPU пока существенно уступают новейшим решениям NVIDIA и AMD. Но китайская индустрия не намерена мириться с таким положением вещей, даже несмотря на жёсткие санкционные меры со стороны США. На мероприятии World AI Conference 2023 был анонсирован совместный проект китайских властей, разработчиков и научно-исследовательских оргинизаций под названием Intelligent Leap Project, целью которого является установление единых стандартов в сфере ИИ и разработка ускорителей нового поколения с учётом этих стандартов. Об участии в проекте заявили практически все крупные китайские разработчики чипов: Huawei HiSilicon, Enflame, KunLunXin, FeiTeng, Hygon, MetaX, Smart Chip, iluvatar, ShenWei, Biren, Denglin, Fudan Microelectronics, Moore Threads, Riscure, Intellifusion, Corerain, Novauto, TheWake, Axera и KiwiMoore; ряд руководителей присутствовал на церемонии открытия проекта. Проект должен объединить индустриальные и научно-исследовательские ресурсы КНР для разработки продвинутых технологий ИИ и создания на их основе единой «умной» экосисистемы, пригодной к использованию как в условиях Китая, так и на международном рынке. Предполагается создание платформы для всестороннего тестирования ИИ-ускорителей в различных сценариях и их оценки «на профпригодность». КНР всерьёз готовится к прорыву в сфере ИИ. Если раньше речь шла об отдельных инициативах, вроде чипа BR100, то сейчас под эгидой Intelligent Leap Project Китай, похоже, намерен дать серьёзный бой западным технологиям.
12.07.2023 [22:05], Владимир Мироненко
Облачная индустрия оказалась не готова к массовому развёртыванию ИИХотя многие компании считают облако лучшим выбором для обучения и запуска больших приложений ИИ, лишь небольшая часть существующей облачной инфраструктуры на данный момент имеет соответствующие вычислительные мощности, пишет The Wall Street Journal (WSJ). «Сейчас существует довольно большой дисбаланс между спросом и предложением», — сообщил Четан Капур (Chetan Kapoor), директор по управлению продуктами в подразделении AWS EC2. Ниди Чаппелл (Nidhi Chappell), генеральный менеджер Azure AI Infrastructure, отметила наличие «неутолимого» спроса на запуск больших языковых моделей (LLM). Однако основная часть текущей облачной инфраструктуры не была создана для запуска таких больших и сложных систем. Облако позиционировалось как удобная альтернатива локальным серверам, которую можно легко масштабировать под свои цели с оплатой по факту использования. Большая часть современного облачного пространства состоит из серверов с CPU общего назначения, предназначенных для одновременного выполнения нескольких рабочих нагрузок. И гораздо меньше имеется GPU-серверов и кластеров, оптимизированных для ИИ и больших рабочих нагрузок. При этом AWS, Google, Meta✴ и Microsoft уже увеличили срок эксплуатации имеющегося оборудования с трёх–четырёх до шести лет. По словам Капура, оптимизированная для ИИ-нагрузок инфраструктура составляет лишь небольшой процент от общего объёма облачных ресурсов компании, хотя темпы её роста гораздо выше, чем у других сегментов. Капур сообщил, что в течение следующих 12 мес. компания развернёт несколько ИИ-кластеров. Microsoft Azure и Google Cloud Platform заявили WSJ, что тоже работают над тем, чтобы сделать ИИ-инфраструктуру большей частью своего парка. Вместе с тем в Microsoft отметили, что не собираются отказываться от серверов общего назначения, которые по-прежнему ценны для компаний. А вот Dell ожидает, что высокая стоимость облачных вычислений может подтолкнуть компании к локальному развёртыванию систем. «Существующие экономические модели, в первую очередь, публичной облачной среды, не были оптимизированы для того типа спроса и уровня активности, который мы увидим, когда люди перейдут на ИИ-системы», — заявил технический директор Dell Джон Роес (John Roese). По его словам, в локальной среде компании смогут сэкономить на расходах на сеть и хранение данных. С этим не согласны облачные провайдеры, утверждающие, что у них есть доступные по цене предложения, и что в долгосрочной перспективе on-premise системы обойдутся дороже в связи с необходимостью обновления оборудования. HPE и вовсе строит собственный публичный облачный сервис для обучения моделей ИИ на базе суперкомпьютера, который будет доступен во второй половине 2023 года. «Он специально создан для крупномасштабных сценариев использования ИИ», — заявил Джастин Хотард (Justin Hotard), исполнительный вице-президент и глава сегмента HPC & AI. Впрочем, поставщики оборудования сходятся во мнении, что ИИ-индустрия всё ещё находится на начальном этапе, и что в конечном итоге решение может быть гибридным, когда только часть вычислений будет выполняться в облаке.
04.07.2023 [17:20], Владимир Мироненко
Обойдёмся без NVIDIA: MosaicML перенесла обучение ИИ на ускорители AMD Instinct MI250 без модификации кодаРазработчик решений в области генеративного ИИ MosaicML, недавно перешедший в собственность Databricks, сообщил о хороших результатах в обучении больших языковых моделей (LLM) с использованием ускорителей AMD Instinct MI250 и собственной платформы. Компания рассказала, что подыскивает от имени своих клиентов новое «железо» для машинного обучения, поскольку NVIDIA в настоящее время не в состоянии обеспечить своими ускорителями всех желающих. MosaicML пояснила, что требования к таким чипам просты:
Как отметила компания, ни один из чипов до настоящего времени смог полностью удовлетворить все требования MosaicML. Однако с выходом обновлённых версий фреймворка PyTorch 2.0 и платформы ROCm 5.4+ ситуация изменилась — обучение LLM стало возможным на ускорителях AMD Instinct MI250 без изменений кода при использовании её стека LLM Foundry. Некоторые основные моменты:
При этом никаких изменений в коде не потребовалось. Все результаты получены на одном узле из четырёх MI250, но компания работает с гиперскейлерами для проверки возможностей обучения на более крупных кластерах AMD Instinct. «В целом наши первоначальные тесты показали, что AMD создала эффективный и простой в использовании программно-аппаратный стек, который может конкурировать с NVIDIA», — сообщила MosaicML. Это важный шаг в борьбе с доминирующим положением NVIDIA на рынке ИИ.
30.06.2023 [12:30], Сергей Карасёв
Lightelligence представила оптический ускоритель HummingbirdКомпания Lightelligence, занимающаяся фотонными вычислениями, представила Hummingbird — специализированный оптический ускоритель, предназначенный для применения в системах, ориентированных на решение сложных задач, связанных с алгоритмами ИИ. Разработчик называет новинку «оптической сетью на чипе» (Optical Network-on-Chip, oNOC). Устройство объединяет в одном корпусе фотонный блок и традиционный электронный узел. Изделие призвано выполнять функции коммуникационного сетевого компонента для дата-центров и высоконагруженных платформ. Hummingbird использует технологию Lightelligence oNOC, предназначенную для повышения производительности вычислений путём использования инновационных межсоединений на базе кремниевой фотоники. Благодаря применению света снижаются задержки и сокращается энергопотребление по сравнению с традиционными решениями. В Hummingbird задействованы 64 передатчика и 512 приемников, 38 МиБ SRAM и 2 Гбайт DDR4. Ускоритель может стать одним из ключевых компонентов оптических сетей высокой плотности. Изделие выполнено в формате полноразмерной двухслотовой карты расширения с интерфейсом PCIe 3.0 x4, благодаря чему подходит для применения в существующих серверах. Разработчикам доступен комплект SDK для развёртывания различных приложений ИИ и машинного обучения.
29.06.2023 [14:41], Сергей Карасёв
США могут ввести более жёсткие ограничения на поставки в Китай чипов для работы с ИИМинистерство торговли США, по сообщению The Wall Street Journal, рассматривает возможность дальнейших ограничений на экспорт в Китай передовых чипов, используемых, в частности, для работы с ИИ. Это может негативно отразиться на продажах продукции AMD и NVIDIA. В связи с санкционными ограничениями, введёнными в 2022 году, компании NVIDIA уже пришлось выпустить для китайского рынка специальные версии ускорителей A100 и H100 — модели A800 и H800 с несколько пониженной производительностью. Причём в случае как минимум некоторых модификаций H800 речь идёт о снижении FP64-производительности, а не только ПСП NVLink как было в случае A800. Как теперь стало известно, американские власти рассматривают возможность усиления экспортного контроля. Речь идёт о том, чтобы обязать компании, отгружающие чипы в Китай, получать специальную лицензию. Без неё станут невозможными поставки в КНР даже «урезанных» ускорителей. Предполагается, что в соответствии с новыми правилами каждый контракт на поставку изделий в Китай будет рассматриваться специальной комиссией на индивидуальной основе. Вопрос о введении таких мер, по информации The Wall Street Journal, будет рассмотрен в ближайшее время. На фоне сообщений об ужесточении санкций акции AMD подешевели примерно на 3,0 %, тогда как стоимость ценных бумаг NVIDIA снизилась на 3,2 %. Сами компании ситуацию никак не комментируют. Отметим, что характеристики своих ИИ-ускорителей также пересмотрели Intel и Graphcore. Между тем в Китае на фоне дефицита сформировался чёрный рынок ускорителей. В частности, заказчики получают небольшие партии NVIDIA A100, импортируя их из других азиатских стран, включая Индию, Тайвань или Сингапур. При этом цена может достигать $20 тыс.
22.06.2023 [17:04], Алексей Степин
NVIDIA AX800: ИИ-сервер для 5G в форм-факторе PCIe-картыВ форм-факторе плат расширения PCIe существует множество устройств, включая, к примеру, маршрутизаторы. Но NVIDIA AX800 выводит это понятие на новый уровень — здесь плата расширения являет собой полноценный высокопроизводительный сервер. Плата включает DPU BlueField-3, который располагает 16 ядрами Cortex Arm-A78, дополненных 32 Гбайт RAM, а также ускоритель A100 (80 Гбайт). Новинкая является наследницей карты A100X, но с гораздо более производительным DPU. На борту также имеется eMMC объёмом 40 Гбайт, два 200GbEпорта (QSFP56). Плата выполнена в форм-факторе FHFL, имеет пассивное охлаждение и предельный теплопакет 350 Вт. Дополнительно предусмотрен порт 1GbE для удалённого управления для BMC ASPEED AST2600, так что речь действительно идёт о полноценном сервере. На PCB имеются гребёнки разъёмов NVLink — данное решение может работать не в одиночку, а в составе высокоплотного многопроцессорного сервера. NVIDIA позиционирует новинку как решение для систем 5G vRAN, но также она может найти место и в высокоплотных системах периферийных системах для ИИ-задач. В качестве программной платформы предлагается Aerial 5G vRAN. Плата ускоряет обработку L1/L2-трафика 5G и способна предложить до 36,56 и 4,794 Гбит/с нисходящей и восходящей пропускной способности (4T4R). Платформа поддерживает масштабирование от 2T2R до 64T64R (massive MIMO). А поддержка MIG позволяет гибко перераспределять нагрузки ИИ и 5G.
22.06.2023 [14:41], Владимир Мироненко
TrendForce: рост популярности ИИ подстегнёт спрос на память HBM и продвинутые методы упаковки чиповTrendForce отметила в своём новом исследовании, что в связи с резким ростом популярности приложений генеративного ИИ ведущие провайдеры облачных решений, включая Microsoft, Google, AWS, а также китайские технологические гиганты, такие как Baidu и ByteDance, значительно увеличили приобретение ИИ-серверов, необходимых для обучения и оптимизации ИИ-моделей. Ажиотаж вокруг генеративного ИИ стал стимулом для разработки более мощных ИИ-серверов и роста этого сегмента рынка. Как полагают аналитики TrendForce, производители будут расширять использование в ИИ-системах передовых технологий, применяя мощные ускорители вычислений и высокопроизводительную память HBM в сочетании с современными методами упаковки чипов. Согласно прогнозу TrendForce, в течение 2023–2024 гг. вырастет спрос на HBM, а также на 30–40 % увеличатся мощности для выпуска чипов с использованием передовых методов упаковки. TrendForce отметила, что для повышения вычислительной эффективности ИИ-серверов и увеличения пропускной способности памяти ведущие производители ИИ-микросхем, включая NVIDIA, AMD и Intel, наращивают использование HBM. В настоящее время у чипов NVIDIA A100/H100 имеется 80 Гбайт памяти HBM2e/HBM3. В суперчипе GH200 Grace Hopper используется ускоритель NVIDIA H100 с 96 Гбайт памяти HBM3. В чипах серии AMD Instinct MI300 тоже используется память HBM3: у версии MI300A её ёмкость составляет 128 Гбайт, а у более продвинутой версии MI300X — 192 Гбайт. Также ожидается, что Google в рамках расширения ИИ-инфраструктуры начнёт в конце 2023 года в партнёрстве с Broadcom производство обновлённых тензорных чипов TPU, тоже с использованием памяти HBM. Согласно прогнозу TrendForce, в 2023 году будет выпущено ИИ-ускорителей с общим объёмом памяти HBM в пределах 290 млн Гбайт, что означает рост год к году на 60 %. В 2024 рост объёмов выпуска памяти HBM составит 30 % или более. Также будет расти спрос на передовые технологии упаковки чипов для сферы ИИ и высокопроизводительных вычислений (HPC). При этом преобладающим методом для ИИ-чипов будет Chip on Wafer on Substrate (CoWoS) от TSMC, позволяющий разместить на одной подложке до 12 стеков памяти HBM. По оценкам TrendForce, с начала 2023 года спрос на CoWoS вырос почти на 50 % на фоне роста популярности ускорителей NVIDIA A100 и H100. Ожидается, что к концу года ежемесячный выпуск TSMC чипов с применением CoWoS вырастет до 12 тыс. Во второй половине 2023 года возможности заказа выпуска чипов с применением CoWoS будут ограничены в связи с растущим спросом на ИИ-чипы со стороны AMD, Google и других компаний. Высокий спрос на использование CoWoS сохранится до 2024 года с прогнозируемым ростом производственных мощностей по упаковке этим методом на 30–40 % с учётом готовности соответствующего оборудования. Аналитики TrendForce не исключают возможности использования NVIDIA альтернативных технологий упаковки для производства ускорителей в случае сохранения высокого спроса на системы ИИ. Речь идёт о разработках компаний Samsung и Amkor.
15.06.2023 [01:22], Владимир Мироненко
AWS присматривается к новым ИИ-ускорителям AMD Instinct MI300Amazon Web Services (AWS), крупнейший в мире провайдер облачных вычислений, рассматривает возможность использования новых ИИ-ускорителей AMD Instinct MI300. Об этом сообщил агентству Reuters Дейв Браун (Dave Brown), вице-президент Amazon по EC2, уточнив, что окончательное решение по данному вопросу пока не принято. При этом у компании уже есть ИИ-ускорители собственной разработки: Trainium и Inferentia2. Браун рассказал, что AWS отказалась сотрудничать с NVIDIA в деле развёртывания её платформы DGX Cloud, которая пока что доступна только в облаке Oracle. «Они обратились к нам, мы рассмотрели бизнес-модель, но она не имела особого смысла для AWS, которая сама обладает большим опытом в создании надёжных серверов и работе с цепочками поставок», — сообщил Браун, отметив, что AWS предпочитает разрабатывать свои серверы с нуля. В интервью Reuters гендиректор AMD Лиза Су (Lisa Su) рассказала, что для привлечения клиентов компания предлагает широкий перечень всех компонентов, необходимых для создания систем для запуска ИИ-решений, подобных ChatGPT, оставляя за ними возможность выбора того, что именно подойдёт с учётом использования стандартных отраслевых соединений. Браун сообщил, что команды Amazon и AMD уже сотрудничают какое-то время. Добавим, что AWS уже предлагает собственные системы с актуальными ускорителями NVIDIA H100. Аналитики отмечают, что интерес Amazon к MI300 указывает на стремление технологических компаний диверсифицировать парк ИИ-оборудования. А это открывает новые возможности для разработчиков чипов. При этом, как отмечал ресурс The Information, NVIDIA пока что благосклонна к небольшим облачным провайдерам, которые не занимаются созданием собственных ИИ-ускорителей.
14.06.2023 [03:00], Игорь Осколков
AMD представила ИИ-ускорители Instinct MI300X: 192 Гбайт HBM3 и 153 млрд транзисторовВместе с Bergamo и Genoa-X компания AMD представила и новый ИИ-ускоритель, а точнее два варианта одного и того же продукта — Instinct MI300A и MI300X. Как и в случае с EPYC, модульный подход к построению чипов позволил компании с минимумом усилий расширить портфолио. Об Instinct MI300A компания рассказывала неоднократно. Это самодостаточный APU (или XPU), объединяющий 24 ядра EPYC Genoa (три CCD), ускоритель на базе CDNA3 и 128 Гбайт общей памяти HBM3. Конкурировать он будет с решением NVIDIA Grace Hopper, которое включает 72-ядерный Arm-процессор NVIDIA Grace и ускоритель NVIDIA H100 с 96 Гбайт HBM3. Intel же из гонки гибридов временно выбыла, отказавшись в Falcon Shores от блока CPU. Правда, подход у компаний разный. NVIDIA предпочитает использовать NVLink и для объединения кристаллов внутри Grace Hopper (C2C), и для связи между узлами, что упрощает масштабирование. AMD в случае Instinct MI300 использует большую подложку-интерпозер, которая объединяет HBM-стеки (8 шт.) и блоки Zen 4/CDNA3 (4 шт.), что даёт определённую гибкость в выборе конфигурации чипа. Этим компания и воспользовалась, представив OAM-ускорители MI300X, которые напрочь лишены CPU-блоков. Весьма своевременное появление 24-Гбайт модулей HBM3 позволило поднять общий объём памяти до 192 Гбайт, а её пропускную способность (ПСП) — до 5,2 Тбайт/с. Впрочем, о характеристиках новинки AMD больше ничего и не говорит, если не считать упоминания ПСП шины Infinity Fabric (896 Гбайт/с) и количества транзисторов (153 млрд шт.). Столь большой объём памяти выгодно отличает MI300X от SXM-версии NVIDIA H100, которая может предложить только 80 Гбайт HBM3 и ПСП 3,35 Тбайт/с. Да, у NVIDIA есть «сендвич» H100 NVL, у которого имеется уже 188 Гбайт HBM3 (7,8 Тбайт/с). Но это всё же совсем иной форм-фактор, хотя, как и MI300X, ориентированный на работу с действительно большими ИИ-моделями. Больший объём набортной памяти позволяет избавиться от лишних перемещений данных между ускорителем и основной памятью системы или несколькими ускорителями. Как и полагается, AMD анонсировала Instinct Platform — плату наподобие NVIDIA HGX, которая объединяет восемь ускорителей MI300X и, по-видимому, соответствует стандарту OCP UBB, что упрощает создание узлов на её основе. Первые образцы Instinct MI300X появятся в следующем квартале, а образцы MI300A уже поставляются заказчикам. Впрочем, одним «железом» сыт не будешь — компания активно развивает программную платформу, в том числе ROCm, поскольку в области ПО для ИИ догнать, а уж тем более перегнать NVIDIA будет непросто. Это настолько важный пункт для AMD, что даже в презентации речь сначала долго шла о ПО, а уж потом были представлены новые ускорители. |
|