Материалы по тегу: ускоритель
04.12.2024 [17:43], Сергей Карасёв
AWS построит распределённый ИИ-суперкомпьютер Project Rainier с десятками тысяч ИИ-ускорителей Trainium2Облачная платформа AWS официально представила инстансы EC2 Trn2 и Trn2 UltraServer — самые высокопроизводительные решения EC2, ориентированные на ИИ-приложения, машинное обучение и задачи инференса. В основу положены фирменные ускорители Amazon Trainium2 второго поколения. ИИ-ускорители Trainium2 содержат восемь ядер NeuronCore и 96 ГиБ памяти HBM с пропускной способностью 2,9 Тбайт/с. Ядра могут адресоваться и использоваться по отдельности или же пары физических ядер могут быть сгруппированы в один логический блок. Trainium2 обеспечивает FP8-быстродействие до 1,3 Пфлопс, а FP8-производительность в разреженных вычислениях достигает 5,2 Пфлопс. Инстансы EC2 Trn2 содержат 16 ускорителей Trainum2, связанных посредством интерконнекта NeuronLink. В сумме это даёт 128 ядер NeuronCore и 1,5 ТиБ памяти HBM с суммарной пропускной способностью 46 Тбайт/с. Производительность на операциях FP8 достигает 20,8 Пфлопс. Каждый инстанс включает 192 vCPU, 2 ТиБ памяти и адаптеры AWS Elastic Fabric Adapter (EFA) v3 на 3,2 Тбит/с. Утверждается, что инстансы Trn2 обеспечивают в четыре раза более высокую производительность, в четыре раза большую пропускную способность памяти и в три раза большую ёмкость памяти, нежели инстансы Trn1. Кроме того, экземпляры Trn2 предлагают на 30–40 % лучшее соотношение цены и производительности, чем EC2 P5e и P5en на базе GPU. Инстансы Trn2 доступны в регионе AWS US East (Огайо), а в ближайшем будущем появятся и в других зонах. В свою очередь, платформа UltraServer включает четыре инстанса Trn2 (64 ускорителя Trainum2) с интерконнектом NeuronLink с низкой задержкой. В сумме это даёт 512 ядер NeuronCore и 6 ТиБ памяти HBM с суммарной пропускной способностью 185 Тбайт/с. Быстродействие на операциях FP8 составляет 83 Пфлопс (332 Пфлопс в разреженных вычислениях). Новые узлы используют СЖО. Десятки тысяч ускорителей Trainium2 могут формировать кластеры EC2 UltraCluster. В частности, такую систему в рамках инициативы Project Rainier компания Amazon намерена создать в партнёрстве со стартапом Anthropic, который специализируются на технологиях генеративного ИИ. Интересно, что ИИ-суперкомпьютер Project Rainier будет распределённым — его узлы разместятся сразу в нескольких ЦОД. ВОЛС между дата-центрами организует Lumen. Одной из причин от попытки построить один гигантский кампус называется невозможность быстро получить достаточно энергии в одном месте, хотя у компании уже есть площадка рядом с АЭС. Недавно Amazon объявила о намерении удвоить инвестиции в Anthropic, доведя их до $8 млрд. Создание системы Rainier планируется завершить в следующем году. Ожидается, что она станет одним из крупнейших в мире вычислительных кластеров для обучения моделей ИИ. По заявлениям AWS, комплекс обеспечит в пять раз более высокую производительность по сравнению с платформой, которую Anthropic использовала до сих пор для разработки своих языковых моделей. Достанутся ли Anthropic и ресурсы ещё облачного ИИ-суперкомпьютера Project Ceiba, который получит 21 тыс. суперчипов NVIDIA Blackwell, не уточняется. Кроме того, по сообщению The Register, компания Amazon приоткрыла завесу тайны над ИИ-ускорителями следующего поколения — изделиями Trainium3. По сравнению с предшественниками они, как утверждается, обеспечат четырёхкратное увеличение быстродействия. Говорится, что Trainium3 станет первым специализированным ускорителем для ИИ и машинного обучения, созданным на основе 3-нм техпроцесса. Эффективность по сравнению с Trainium2 увеличится примерно на 40 %. Ожидается, что на коммерческом рынке изделия Trainium3 появятся в конце 2025 года.
03.12.2024 [13:59], Руслан Авдеев
Разработчик ИИ-чипов Tenstorrent привлёк $693 млн в раунде финансирования серии DСтартап Tenstorrent, занятый разработкой ИИ-ускорителей, привлёк $693 млн в рамках раунда финансирования серии D — спрос на инвестиции превысил предложение. По данным EE Times, участвовали как финансовые, так и стратегические инвесторы, а предварительная оценка компании до раунда составила $2 млрд. Раунд возглавили Samsung Securities и AFW Partners, к ним присоединились новые инвесторы, включая XTX Markets, LG Electronics, Hyundai Motor Group и Bezos Expeditions. В августе 2024 года конкурент стартапа — компания Groq привлекла $640 млн. До этого казалось, что инвестиционный климат для разработчиков ИИ-чипов стал не лучшим, частично из-за того, что у стартапов не получилось отвоевать сколько-нибудь значимую долю рынка у лидера — компании NVIDIA. Хотя индустрия ИИ-чипов — весьма оживлённый рынок, инвесторы, по словам Tenstorrent, ведут себя весьма осторожно. Разрабатываемые продукты имеют значение лишь отчасти, немалое внимание уделяется команде (а в Tenstorrent работает легендарный Джим Келлер), планам и другим факторам. Средства помогут внедрению и продвижению Tenstorrent не только ускорителей, но и IP-блоков и систем. В компании заявляют, что не рассчитывали привлечь столько денег, но желающих инвестировать оказалось больше, чем ожидалось, причём некоторые инвесторы носят «стратегический» характер для компании. Теперь Tenstorrent планирует увеличить штат с 600 до около 700 сотрудников. На сегодня компания закрыла сделки в общей сложности на сумму около $150 млн. В основном речь идёт о продаже лицензий компаниям вроде LG Electronics и BOS Semiconductor. Утверждается, что компания продолжит лицензирование интеллектуальной собственности, будет предлагать услуги по разработке полупроводников «на сторону» и, конечно, намерена увеличить продажи своих ускорителей. Новый ускоритель Tenstorrent Blackhole должен появиться уже в начале 2025 года. В компании подчёркивают, что клиенты и инвесторы очень ценят open source проекты Tenstorrent — столько денег, выпуская проприетарное ПО, привлечь бы не удалось. NVIDIA навязывает собственную проприетаруню программную платформу CUDA. Именно она считается препятствием для молодых производителей ИИ-чипов, поскольку CUDA повсеместно распространена, что затрудняет переход на альтернативные решения. В открытом ПО особенно заинтересованы разработчики решений для транспорта и робототехники, поскольку в этих сферах строгие стандарты безопасности и контроль над каждой строчкой кода важен.
25.11.2024 [20:50], Руслан Авдеев
Amazon вложит ещё $4 млрд в Anthropic и снизит её зависимость от NvidiaКомпания Amazon (AWS) раскрыла планы удвоить инвестиции в Anthropic, доведя их до $8 млрд. Объявление о новых вложениях было сделано через год после того, как гиперскейлер сообщил о выделении стартапу $4 млрд, сообщает Silicon Angle. На тот момент главный конкурент OpenAI назвал AWS своим ключевым облачным провайдером. С новой сделкой роль AWS в обучении моделей Anthropic только усилится. Anthropic представила свою наиболее передовую модель Claude 3.5 Sonnet в прошлом месяце — это улучшенная версия большой языковой модели (LLM) той же серии, дебютировавшей несколько месяцев назад. Новая Claude 3.5 Sonnet лучше предшественницы в выполнении некоторых задач, включая написание кода. Она также обошла OpenAI GPT-4o в нескольких бенчмарках. Anthropic предлагает свои LLM через сервис Amazon Bedrock, обеспечивающий доступ к управляемым ИИ-моделям. Расширенное сотрудничество обеспечит пользователям ранний доступ к функции, позволяющей настраивать модели Claude с использованием кастомных датасетов. Также планируется поддержать друг друга в разработках. Anthropic будет использовать ИИ-ускорители Trainium и Inferentia для внутренних задач. В компании подчеркнули, что задействуют ускорители для крупнейших базовых моделей. В то же время специалисты Anthropic поддержат AWS в разработке новых чипов Tranium. Стек ПО Neutron включает компилятор, оптимизирующий ИИ-модели для работы на инстансах Tranium, и некоторые другие инструменты. Компания также работает над низкоуровневыми программными ядрами, распределяющими задачи между вычислительными ядрами ускорителей. Последний раунд финансирования Anthropic состоится через два месяца после того, как OpenAI привлекла рекордные для стартапа $6,6 млрд. Также она получила кредитную линию на $4 млрд от группы банков. OpenAI, оцениваемая в $157 млрд, будет инвестировать средства в ИИ-исследования и вычислительную инфраструктуру.
21.11.2024 [00:26], Владимир Мироненко
Intel случайно раскрыла, что готовит ИИ-ускоритель Jaguar Shores вслед за Falcon ShoresIntel сообщила о новом ИИ-ускорителе Jaguar Shores, готовящемся в качестве преемника Falcon Shores, упомянув его в презентации во время технического семинара на конференции SC24. Презентация была посвящена чипам Gaudi, сообщает ресурс HPCwire. По мнению источника, упоминание чипа следующего поколения в презентации могло быть случайным. Ожидается, что Falcon Shores поступит в серийное производство в 2025 году. Также в следующем году в массовую продажу поступит ИИ-ускоритель Gaudi 3, представленный ещё в феврале 2023 года. В остальном Intel предпочитает не раскрывать подробностей о своих планах по выпуску ИИ-чипов. Для сравнения, NVIDIA и AMD уже анонсировали планы по выпуску чипов вплоть до 2026–2027 гг. В августе прошлого года Intel сообщила ресурсу HPCwire о работе над чипом Falcon Shores 2, который планируется к выпуску в 2026 году. «У нас упрощённая дорожная карта, поскольку мы объединяем наши GPU и ускорители в единое предложение», — пояснил тогда генеральный директор Патрик Гелсингер (Pat Gelsinger). С тех пор финансовое положение Intel значительно ухудшилось, однако компания продолжает разработку новых ИИ-ускорителей. Пока неясно, будет ли Jaguar Shores GPU или ASIC, но логика именования чипов Intel позволяет предположить, что речь идёт именно о GPU следующего поколения. На данный момент Intel уступила рынок ИИ-обучения компаниям NVIDIA и AMD, сосредоточив свои усилия на инференсе с использованием ИИ-ускорителей Gaudi. Вероятно, Jaguar Shores также будет ориентирован на задачи инференса, который Гелсингер определил как более крупный и перспективный рынок. Однако чтобы догнать ушедших вперёд конкурентов NVIDIA и AMD, Jaguar Shores должен стать действительно прорывным продуктом, полагает HPCwire. «Наши инвестиции в ИИ будут дополнять и использовать наши решения на базе x86, с акцентом на корпоративный, экономически эффективный вывод данных. Наша дорожная карта для Falcon Shores остаётся неизменной», — заявил представитель Intel ресурсу HPCwire несколько месяцев назад.
20.11.2024 [17:16], Руслан Авдеев
AWS предоставит IBM доступ к ИИ-ускорителям на $475 миллионовAWS близка к заключению сделки с компанией IBM на сумму $475 млн. По данным Business Insider, компания готовится предоставить компании IBM доступ к своим облачным ИИ-решениям. Компании ведут переговоры о пятилетнем использовании IBM ИИ-ускорителей в облаке Amazon. В частности, IBM планирует задействовать инстансы EC2 с чипами NVIDIA, что подтверждается одним из внутренних документов Amazon. По некоторым данным, сотрудничество уже началось — IBM начала обучать отдельные модели на указанных системах с использованием платформы AWS SageMaker. Однако переговоры ещё продолжаются, и подписание окончательного соглашения пока не гарантировано. Примечательно, что IBM имеет собственное облако, где так же предоставляет доступ к ускорителям. Однако, по оценкам экспертов, её доля на мировом облачном рынке не превышает 10 %. Ранее, в 2024 году, IBM анонсировала увеличение использования сервисов AWS для своей платформы Watson AI. Компании намерены интегрировать IBM watsonx.governance с платформой Amazon SageMaker, чтобы помочь клиентам эффективно управлять рисками, связанными с ИИ-моделями, и упростить их использование. Amazon активно продвигает чипы собственной разработки — Inferentia и Trainium, а ранее в этом месяце пообещала предоставить «кредиты» исследователям в сфере ИИ на сумму $110 млн для доступа к свои чипам в рамках программы Build on Trainium. Пока неизвестно, намерена ли IBM применять чипы AWS или отдаст предпочтение более популярным решениям, таким как продукты NVIDIA.
20.11.2024 [13:04], Руслан Авдеев
IBM и AMD расширяют сотрудничество: Instinct MI300X появится в облаке IBM CloudКомпания IBM объявила о расширении сотрудничества с AMD для предоставления ускорителей Instinct MI300X в формате «ускорители как услуга» (Accelerators-as-a-Service). По словам IBM, новое решение расширяет возможности и энергоэффективность генеративных ИИ-моделей и HPC-приложений. AMD Instinct MI300X станут доступны в IBM watsonx, а также будут поддерживаться в Red Hat Enterprise Linux AI. Они дополнят портфолио IBM Cloud, уже включающее Intel Gaudi 3 и NVIDIA H100. Ускоритель AMD Instinct MI300X оснащён 192 Гбайт памяти HBM3. И относительно малое количество ускорителей способно обеспечить работу больших ИИ-моделей, что позволяет снизить затраты с сохранением производительности и масштабируемости. Ускорители будут доступны в составе виртуальных серверов и частных виртуальных облаков, а также в контейнеризированных средах IBM Cloud Kubernetes Service и IBM Red Hat OpenShift. Кроме того, для MI300X будут доступны LLM Granite и инструмент InstructLab. Речь идёт в том числе об интеграции программных решений IBM с ПО AMD ROCm. По словам компании, предложенные решения обеспечит клиентов гибкой, безопасной, высокопроизводительной и масштабируемой средой для рабочих нагрузок ИИ. AMD Instinct MI300X станут доступны пользователям IBM Cloud в I половине 2025 года.
18.11.2024 [21:30], Сергей Карасёв
Счетверённые H200 NVL и 5,5-кВт GB200 NVL4: NVIDIA представила новые ИИ-ускорителиКомпания NVIDIA анонсировала ускоритель H200 NVL, выполненный в виде двухслотовой карты расширения PCIe. Изделие, как утверждается, ориентировано на гибко конфигурируемые корпоративные системы с воздушным охлаждением для задач ИИ и НРС. Как и SXM-вариант NVIDIA H200, представленный ускоритель получил 141 Гбайт памяти HBM3e с пропускной способностью 4,8 Тбайт/с. При этом максимальный показатель TDP снижен с 700 до 600 Вт. Четыре карты могут быть объединены интерконнкетом NVIDIA NVLink с пропускной способностью до 900 Гбайт/с в расчёте на GPU. При этом к хост-системе ускорители подключаются посредством PCIe 5.0 x16. В один сервер можно установить две такие связки, что в сумме даст восемь ускорителей H200 NVL и 1126 Гбайт памяти HBM3e, что весьма существенно для рабочих нагрузок инференса. Заявленная производительность FP8 у карты H200 NVL достигает 3,34 Пфлопс против примерно 4 Пфлопс у SXM-версии. Быстродействие FP32 и FP64 равно соответственно 60 и 30 Тфлопс. Производительность INT8 — до 3,34 Пфлопс. Вместе с картами в комплект входит лицензия на программную платформа NVIDIA AI Enterprise. Кроме того, NVIDIA анонсировала ускорители GB200 NVL4 с жидкостным охлаждением. Они включает два суперчипа Grace-Backwell, что даёт два 72-ядерных процессора Grace и четыре ускорителя B100. Объём памяти LPDDR5X ECC составляет 960 Гбайт, памяти HBM3e — 768 Гбайт. Задействован интерконнект NVlink-C2C с пропускной способностью до 900 Гбайт/с, при этом всем шесть чипов CPU-GPU находятся в одном домене. Система GB200 NVL4 наделена двумя коннекторами M.2 22110/2280 для SSD с интерфейсом PCIe 5.0, восемью слотами для NVMe-накопителей E1.S (PCIe 5.0), шестью интерфейсами для карт FHFL PCIe 5.0 x16, портом USB, сетевым разъёмом RJ45 (IPMI) и интерфейсом Mini-DisplayPort. Устройство выполнено в форм-факторе 2U с размерами 440 × 88 × 900 мм, а его масса составляет 45 кг. TDP настраиваемый — от 2,75 кВт до 5,5 кВт.
11.11.2024 [19:03], Руслан Авдеев
Softbank животворящий: Graphcore активно нанимает персонал для разработки новых ИИ-решенийЧерез четыре месяца после покупки японским конгломератом SoftBank британский стартап Graphcore, разрабатывающий ИИ-ускорители, занялся наймом новых сотрудников. По данным EE Times, сейчас у компании открыто 75 позиций в сферах разработки и тестирования полупроводников, управления инфраструктурой ЦОД и ИИ-исследований. Всего год назад компания спешно искала финансирование и сокращала персонал. Сейчас штат Graphcore насчитывает 375 человек, но компания намерена увеличить количество сотрудников на 20 % в Великобритании, Польше и на Тайване. Прочие офисы, включая подразделение в Китае, закрылись. По словам главы Graphcore Найджела Туна (Nigel Toon), компания представляет собой место, где эксперты по полупроводникам, ПО, ИИ и т.п. могут и полностью реализовать себя. Тем не менее, производственные планы бизнеса пока не раскрываются. На момент покупки Graphcore имела в своём портфолио три поколения чипов. Однако последнее поколение Bow IPU, выпущенное в 2022 году, по большому счёту являлось апгрейдом продукта второго поколения от 2020 года. Модель имела 892 Мбайт набортной SRAM, дополненной внешней DDR-памятью, а не HBM. Другими словами, теоретически продукт не слишком подходит для обучения больших языковых моделей (LLM). Впрочем, Cerebras тоже использует SRAM в составе своих суперчипов, но последняя дополнена массивами гибридной памяти MemoryX. А SambaNova в SN40L в итоге пришла к сочетанию SRAM, HBM и DDR. Если Graphcore намерена создать новое поколение ИИ-ускорителей, то она, вероятно, пойдёт по пути SambaNova, считают в EE Times. На это косвенно указывает вакансия инженера ЦОД, для которой желателен опыт работы с жидкостным охлаждением. Также компании требуются специалисты для работы над облачными платформами и инфраструктурой ЦОД. Не исключено, что компания сменит бизнес-модель на манер Groq, продавая не ускорители, а доступ к ИИ-сервисам. Cerebras и SambaNova, например, уже успели по очереди похвастаться производительностью своих инференс-платформ. В случае Graphcore смещение фокуса на инференс открывает возможности для освоения корпоративных и суверенных ИИ-решений, которых ещё не было, когда последние чипы компании вышли на рынок. Тем не менее, пока нет данных, готов ли SoftBank обеспечить Graphcore достаточными средствами для развития больших ЦОД.
11.11.2024 [11:29], Сергей Карасёв
США запретили TSMC выпускать передовые чипы для китайских ИИ-компанийTSMC, по сообщению The Register, полностью прекратит выпуск передовых изделий для китайских заказчиков, которые занимаются разработкой аппаратных ИИ-решений, включая ускорители на базе GPU. Данная мера, как утверждается, продиктована необходимостью соблюдения экспортных требований США. Власти США последовательно вводят различные санкции, призванные ограничить возможности китайской полупроводниковой индустрии. Речь идёт о закупках чипов NVIDIA, памяти HBM и других компонентов. А нидерландской компании ASML запрещено поставлять в Китай оборудование для DUV-литографии, на котором можно изготавливать 5- и 7-нм продукцию. Теперь новые ограничительные меры в отношении клиентов из КНР вводит TSMC. Этот контрактный производитель объявил о том, что с 11 ноября 2024 года прекращает отгружать чипы, произведённые по 7-нм и более совершенным технологиям, китайским заказчикам, которые занимаются разработкой ИИ-устройств и GPU. Напомним, что в октябре TSMC уведомила американские власти о том, что некий китайский клиент, по всей видимости, пытается обойти экспортный контроль в отношении Huawei, размещая заказы на изделия, схожие с ИИ-ускорителем Ascend 910B. Это продукт был разработан Huawei в качестве альтернативы NVIDIA A100. Решение Ascend 910B представляет собой следующее поколение 7-нм чипа Ascend 910. По имеющейся информации, TSMC, следуя экспортным ограничения США, прекратила все поставки изделий этому неназванному клиенту. Решение TSMC ограничит возможности китайских компаний по использованию технологий с нормами 7-нм и менее при создании ИИ-устройств. Вместе с тем, подчёркивается, что правила не распространяются на китайских клиентов, которые заказывают у TSMC 7-нм чипы для других приложений, таких как мобильные устройства и системы связи. Как отмечает TrendForce, решение TSMC «отражает осторожную позицию гиганта контрактного производства в глобальной цепочке поставок полупроводников на фоне разгорающейся войны в сфере микрочипов между двумя мировыми сверхдержавами».
04.11.2024 [17:05], Сергей Карасёв
NextSilicon представила самооптимизирующиеся ускорители вычислений Maverick-2Компания NextSilicon сообщила о разработке устройств Maverick-2 — так называемых интеллектуальных вычислительных ускорителей (Intelligent Compute Accelerator, ICA). Изделия, как утверждается, обеспечивают высокую производительность и эффективность при решении задач HPC и ИИ, а также при обслуживании векторных баз данных. NextSilicon разрабатывает новую вычислительную платформу для ресурсоёмких приложений. Применяются специальные программные алгоритмы для динамической реконфигурации оборудования на основе данных, получаемых непосредственно во время выполнения задачи. Это позволяет оптимизировать производительность и энергопотребление. Maverick-2 ICA, по словам компании, представляет собой программно-определяемый аппаратный ускоритель. По заявлениям NextSilicon, изделие в плане производительности на один ватт затрачиваемой энергии более чем в четыре раза превосходит традиционные GPU, а в сравнении с топовыми CPU и вовсе достигается 20-кратное превосходство. При этом говорится об уменьшении эксплуатационных расходов более чем в два раза. «Телеметрические данные, собранные во время работы приложения, используются интеллектуальными алгоритмами NextSilicon для непрерывной самооптимизации в реальном времени. Результатом являются эффективность и производительность в задачах HPC при сокращении потребления энергии на 50–80 % по сравнению с традиционными GPU», — заявляет компания. Решения Maverick-2 доступны в виде однокристальной карты расширения PCIe 5.0 x16 и двухкристального OAM-модуля. В первом случае объём памяти HBM3e составляет 96 Гбайт, энергопотребление — 300 Вт. У второго изделия эти показатели равны 192 Гбайт и 600 Вт. Тактовая частота в обоих вариантах — 1,5 ГГц. При производстве применяется 5-нм технология TSMC. Говорится о совместимости с популярными языками программирования и фреймворками, такими как C/C++, Fortran, OpenMP и Kokkos. Это позволяет многим приложениям работать без изменений, упрощая портирование и устраняя необходимость в проприетарном программном стеке. |
|