Материалы по тегу: ускоритель
22.03.2023 [20:32], Алексей Степин
Экспортный китайский вариант NVIDIA H100 получил модельный номер H800В связи с санкционными ограничениями некоторые разновидности сложных микроэлектронных чипов запрещено экспортировать в Китайскую Народную Республику. Однако производители находят выход. В частности, компания NVIDIA анонсировала экспортный вариант ускорителя H100, не нарушающий никаких санкций. Модельный номер у такого варианта изменён на H800. Введённые правительством США в 2022 году санкции сделали «невыездными» два наиболее продвинутых продукта NVIDIA: A100 и H100. Такие процессоры сегодня являются основой наиболее динамично развивающейся вычислительной отрасли — нейросетевой. Именно на кластерах из таких ускорителей «натаскивают» мощные нейросети вроде ChatGPT и подобных. Ещё осенью прошлого года NVIDIA анонсировала A800 — экспортный вариант A100, не попадающий под ограничения за счёт некоторого снижения пропускной способности NVLink, с 600 до 400 Гбайт/с. Сейчас пришло время архитектуры Hopper, которая запущена в массовое производство. По аналогии с флагманом Ampere модернизированный чип получил модельный номер H800. Ограничения в нём реализованы схожим образом: как известно, NVLink в H100 имеет производительность 900 Гбайт/с в базовом SXM-варианте. Версия H800 использует примерно половину этого потенциала, что, впрочем, не делает её в Китае менее популярной: новинка уже используется китайскими облачными гигантами, такими, как Alibaba, Baidu и Tencent. Есть ли у H800 другие отличия от H100, не говорится — NVIDIA пока отказывается предоставлять такую информацию. Достоверно известно лишь то, что они полностью соответствуют всем санкционным ограничениям. Интересно, появится ли в будущем вариант H800 NVL на базе NVIDIA H100 NVL.
22.03.2023 [00:22], Сергей Карасёв
Решения NVIDIA в области вычислительной литографии заложат основу для выпуска чипов нового поколенияNVIDIA в рамках GTC 2023 объявила о новом решении, которое привносит возможности ускорения работы в сферу вычислительной литографии. Это позволит крупным игрокам полупроводниковой отрасли, таким как ASML, TSMC и Synopsys, ускорить разработку и производство микросхем нового поколения по мере приближения характеристик чипов к физическим ограничениям. Речь идёт о библиотеке NVIDIA cuLitho для вычислительной литографии. Говорится, что её интеграцией уже занимаются контрактный производитель TSMC, а также фирма Synopsys, работающая в области САПР для проектирования электроники. Производитель оборудования ASML также сотрудничает с NVIDIA в области GPU и cuLitho. Эти компании намерены встроить cuLitho в своё ПО, производственные процессы и системы на базе чипов с архитектурой NVIDIA Hopper. Говорится, что предприятия, использующие cuLitho, смогут ежедневно производить в 3–5 раз больше фотошаблонов при в 9 раз меньших затратах энергии по сравнению с традиционными методами. Предполагается, что решение NVIDIA позволит проектировать микросхемы по более «тонкому» техпроцессу, нежели это возможно сейчас. Кроме того, сократится время выхода продуктов на рынок и повысится энергоэффективность крупных дата-центров, отвечающих за управление производственными процессами. В частности, с применением cuLitho может быть заложена основа для выпуска изделий с нормами 2 нм и менее. Утверждается, что, работая на базе GPU разработки NVIDIA, платформа cuLitho обеспечивает скачок производительности до 40 раз по сравнению с обычной литографией. Это даёт возможность 500 системам NVIDIA DGX H100 заменить 40 000 CPU благодаря параллельной обработке различных элементов вычислительной литографии. Кроме того, значительно снижается энергопотребление ЦОД и сокращается негативное воздействие на окружающую среду.
21.03.2023 [19:45], Игорь Осколков
Толстый и тонкий: NVIDIA представила самый маленький и самый большой ИИ-ускорители L4 и H100 NVLНа весенней конференции GTC 2023 компания NVIDIA представила два новых ИИ-ускорителя, ориентированных на инференес: неприличной большой H100 NVL, фактически являющийся парой обновлённых ускорителей H100 в формате PCIe-карты, и крошечный L4, идущий на смену T4. NVIDIA H100 NVL действительно выглядит как пара H100, соединённых мостиками NVLink. Более того, с точки зрения ОС они выглядят как пара независимых ускорителей, однако ПО воспринимает их как единое целое, а обмен данными между двумя картам идёт в первую очередь по мостикам NVLink (600 Гбайт/с). Новинка создана в первую очередь для исполнения больших языковых ИИ-моделей, в том числе семейства GPT, а не для их обучения. Однако аппаратно это всё же не просто пара обычных H100 PCIe. По уровню заявленной производительности NVL-вариант вдвое быстрее одиночного ускорителя H100 SXM, а не PCIe — 3958 и 7916 Тфлопс в разреженных (в обычных показатели вдвое меньше) FP16- и FP8-вычислениях на тензорных ядрах соответственно, что в 2,6 раз больше, чем у H100 PCIe. Кроме того, NVL-вариант получил сразу 188 Гбайт HBM3-памяти с суммарной пропускной способностью 7,8 Тбайт/с. NVIDIA утверждает, что форм-фактор H100 NVL позволит задействовать новинку большему числу пользователей, хотя четыре слота и TDP до 800 Вт подойдут далеко не каждой платформе. NVIDIA H100 NVL станет доступна во второй половине текущего года. А вот ещё одну новинку, NVIDIA L4 на базе Ada, в ближайшее время можно будет опробовать в облаке Google Cloud Platform, которое первым получило этот ускоритель. Кроме того, он же будет доступен в рамках платформы NVIDIA Launchpad, да и ключевые OEM-производители тоже взяли его на вооружение. Сама NVIDIA называет L4 поистине универсальным серверным ускорителем начального уровня. Он вчетверо производительнее NVIDIA T4 с точки зрения графики и в 2,7 раз — с точки зрения инференса. Маркетинговые упражнения компании при сравнении L4 с CPU оставим в стороне, но отметим, что новинка получила новые аппаратные ускорители (де-)кодирования видео и возможность обработки 130 AV1-потоков 720p30 для мобильных устройств. С L4 возможны различные сценарии обработки видео, включая замену фона, AR/VR, транскрипцию аудио и т.д. При этом ускорителю не требуется дополнительное питание, а сам он выполнен в виде HHHL-карты.
17.03.2023 [16:15], Сергей Карасёв
Intel отменила выпуск неанонсированных ускорителей Thunder Bay — код Linux-драйвера будет удалёнКорпорация Intel, по сообщению ресурса Phoronix, приняла решение свернуть проект по разработке гибридных чипов с кодовым названием Thunder Bay, которые должны были прийти на смену Keem Bay. Участки кода в ядре Linux, связанные с этими продуктами, в ближайшее время будут полностью удалены. Изначально предполагалось, что изделия Thunder Bay совместят х86-ядра Xeon и ядра Movidius VPU для ускорения обработки визуальных данных и машинного зрения. Позднее появилась информация, что процессоры Thunder Bay, вероятно, получат вычислительный блок на базе энергоэффективных ядер Arm Cortex-A53. На это указывали изменения, которые Intel начала вносить в код ядра. Долгое время о проекте практически ничего не было слышно. И вот теперь стало известно, что изделиям Thunder Bay не суждено увидеть свет. О причинах сворачивания инициативы ничего не сообщается. По всей видимости, это связано с финансовыми трудностями и масштабной реорганизацией Intel, в ходе которой будут сокращены тысячи сотрудников. Отмечается, что уже начался процесс удаления кода, связанного с поддержкой Thunder Bay, из ядра Linux. Сама корпорация ситуацию никак не комментирует.
12.03.2023 [12:41], Сергей Карасёв
Разработчик ИИ-ускорителей Groq взял на вооружение языковую модель Meta✴ LLaMAСтартап Groq, специализирующийся на разработке ИИ-ускорителей, сообщил об адаптации языковой модели Meta✴ LLaMA для своих аппаратных решений. Изначально эта модель ориентирована на работу в системах, оснащённых ускорителями NVIDIA. Meta✴ анонсировала LLaMA в конце февраля 2023 года. Модель предназначена для создания чат-ботов вроде ChatGPT. Количество параметров в случае LLaMA может варьироваться от 7 до 65 млрд против 175 млрд у OpenAI GPT-3, которая является основой ChatGPT. При этом, как утверждается, по производительности LLaMA выигрывает у GPT-3. По заявлениям Groq, команде компании из менее чем десяти человек понадобилось около недели для переноса LLaMA на собственную аппаратную платформу. Модель была запущена на сервере GroqNode, который оборудован восемью одноядерными процессорами GroqChip. «Мы быстро перенесли LLaMA на GroqChip, несмотря на то, что эта модель изначально не предназначена для нашего оборудования. Для подготовки кода для компилятора Groq требуется минимальная работа. Связано это с тем, что компилятор Groq обнаруживает параллелизм программы и оптимальные макеты данных автоматически — вручную написанный код не требуется», — отмечает Groq. Таким образом, теперь исследователи, а также специалисты по обработке и анализу данных смогут использовать передовую языковую ИИ-модель LLaMA на оборудовании Groq. Ожидается, что это повысит скорость разработки продуктов и их вывода на коммерческий рынок.
08.03.2023 [21:36], Алексей Степин
«ZIP-ускоритель»: Pure Storage представила карту расширения DirectCompress Accelerator для эффективного сжатия данных на летуКомпания Pure Storage делает всё для популяризации СХД класса All-Flash, в том числе продвигает такие решения в сегменты, где традиционно господствовала «механика». Вместе с новой системой FlashBlade//E производитель анонсировал ускоритель DirectCompress Accelerator для сжатия данных на лету, способный в некоторых случаях улучшить эффективность компрессии почти на треть, а также разгрузить центральный процессор хранилища. Pure Storage использует в своих флеш-массивах как сжатие на лету (inline), так и отложенное (post-process). В последнем случае речь идёт о дополнительной компрессии уже после записи данных и при высвобождении процессорных мощностей. Однако иногда этот процесс конфликтует со сбором мусора, что снижает степень компрессии. Ускоритель DirectCompress Accelerator (DCA) призван избежать таких ситуаций. Плата расширения (PCIe x8) на базе FPGA полностью избавляет CPU флеш-массива от сжатия данных в режиме inline. Более того, разработчики сообщают, что применение DCA в некоторых случаях способно улучшить эффективность сжатия на 30 %, то есть выгадать серьёзный объём дополнительного пространства, а значит, уменьшить удельную стоимость хранения данных на флеш-массиве. В настоящее время ускоритель предлагается для массивов FlashArray//XL, включая приобретённые по подписке Evergreen. В дальнейшем Pure Storage планирует добавить поддержку DCA в другие серии массивов FlashArray.
06.03.2023 [16:30], Владимир Мироненко
Новые задержки у Intel: выпуск ускорителей Rialto Bridge отменён, а Falcon Shores — отложенКомпания Intel опубликовала в конце прошлой недели письмо вице-президента и главы подразделения Super Compute Group Джеффа Маквея (Jeff McVeigh), в котором, помимо обновлённой информации о состоянии линейки продуктов серверных ускорителей вычислений Intel и их принятии клиентами, было объявлено о ряде кардинальных изменений планов компании по поводу будущих продуктов этой категории. В частности, Intel отказалась от производства ускорителей серии Rialto Bridge, выход которых был намечен на текущий год. Вместо этого компания сразу перейдёт к выпуску чипов Falcon Shores с более новой версией архитектуры Intel Xe. Правда, их выход теперь запланирован на 2025 год вместо 2024-го. Следует также отметить, что если ранее Intel планировала выпуск Falcon Shores в форм-факторе гибридных (XPU) чипов, объединяющих CPU, ускорители и память на основе чиплетов (тайлов в терминологии Intel), то теперь первыми появятся HPC-ускорители следующего поколения без CPU-ядер. Компания пояснила ресурсу ServeTheHome, что по-прежнему придерживается планов по выпуску гибридных (XPU) чипов Falcon Shores, но они увидят свет немного позже. Это означает, что как минимум до 2026 года NVIDIA и AMD будут опережать Intel в деле внедрения архитектур следующего поколения. Как отметил ресурс AnandTech, положительным моментом является то, что Intel не отказывается от архитектуры Xe, которая используется во многих её продуктах, от встроенной графики до HPC-ускорителей, что подчёркивает её важность и жизнеспособность. Отмена Rialto Bridge в сочетании с задержкой Falcon Shores является серьёзной неудачей для Intel, но в итоге она просто заменяет одну итерацию Xe другой, более продвинутой. Изменения планов Intel также коснулись семейства серверных ускорителей Intel Flex для облачных игр и кодирования мультимедиа, поскольку Intel отказалась от запуска Lancaster Sound (также известного как Next Sound) в пользу следующего поколения ускорителей Melville Sound, разработка которых будет ускорена. Intel не назвала точной даты презентации данного решения. Ранее его выход ожидался в те же сроки, что и у Falcon Shores. Согласно Intel, изменения планов относительно Intel Flex позволят ей соответствовать двухлетнему графику выпуска серверных ускорителей. Её конкуренты, NVIDIA и AMD, последние годы работают в таком же режиме. По словам Intel, это изменение «соответствует ожиданиям клиентов в отношении внедрения новых продуктов и даёт время для развития их экосистем».
23.02.2023 [20:07], Владимир Мироненко
Больше половины выручки в IV квартале 2023 финансового года NVIDIA получила от поставок для ЦОД и серверовКомпания NVIDIA сообщила результаты работы в IV квартале 2023 финансового года, закончившемся 29 января 2023 года. Выручка компании за квартал составила $6,05 млрд, что на 21 % меньше, чем за аналогичный период 2022 финансового года, и на 2 % больше, чем в предыдущем квартале. Прибыль (GAAP) на разводненную акцию за квартал составила $0,57, что на 52 % меньше, чем в прошлом году, и на 111 % больше, чем в предыдущем квартале. Большая часть продаж ускорителей NVIDIA для ИИ-нагрузок относится к сегменту ЦОД. Выручка компании от поставок таких решений 11 % в годовом исчислении до $3,62 млрд. NVIDIA объяснила рост выручки увеличением закупок провайдерами облачных сервисов из США. Поставки чипов для автомобильной промышленности выросли более чем вдвое — $294 млн против $125 млн годом ранее. Падение выручки в целом связано со снижением поставок для игровой индустрии — $1,83 млрд за квартал против $3,42 млрд в аналогичном квартале 2022 года (на 46 % меньше). Компания заявила, что снижение выручки в игровом сегменте произошло из-за накопившихся запасов чипов на складах её партнёров. Также сообщается, что было отгружено меньше чипов для игровых консолей Nintendo. В целом за 2023 финансовый год выручка NVIDIA составила $26,97 млрд, что не отличается от результата предыдущего года. Выручка в сегменте ЦОД выросла в годовом исчислении на 41 % до $15,01 млрд. Прибыль (GAAP) на разводненную акцию равна $1,74, что на 55 % меньше, чем год назад. В I квартале 2024 финансового года компания ожидает получить выручку в размере $6,5 млрд ±2 %. «ИИ переживает переломный момент, готовясь к широкому внедрению во всех отраслях», — заявил Дженсен Хуанг (Jensen Huang), основатель и генеральный директор NVIDIA. NVIDIA совместно с ведущим облачными провайдерами предлагает заказчиками ИИ-как-услугу. Аппаратная платформа DGX задействует ускорители H100 и 400G-интерконнект InfiniBand NDR (Quantum-2), а программный стек включает готовые библиотеки и инструменты, а также предварительно обученные модели искусственного интеллекта. Такое решение уже предлагается в Oracle Cloud Infrastructure, а в Microsoft Azure, Google Cloud Platform и т.д. оно появится чуть позже.
13.02.2023 [20:18], Алексей Степин
Южнокорейский стартап Rebellions представил ИИ-чип ATOMЮжная Корея объявила о намерении получить собственные процессоры и ускорители ещё в 2021 году. В число разработчиков вошёл и стартап Rebellions, который, как передаёт Reuters, анонсировал новый ИИ-чип ATOM, способный конкурировать с NVIDIA A100 в ряде задач. С учётом огромной популярности ИИ-решений желание обладать собственными ускорителями для задач подобного класса выглядит вполне оправданно. Правительство Южной Кореи намеревается вложить в ИИ-отрасль более $800 млн, и к 2030 году добиться, чтобы 80 % ИИ-чипов в местных ЦОД были представлены отечественными решениями. В настоящее время основным производителем ИИ-ускорителей является NVIDIA, на чью долю, согласно аналитикам Jefferies, приходится около 86 % всего рынка, и до нынешнего момента аналогов у Южной Кореи не было. Появление ATOM должно изменить эту ситуацию. Данный чип изначально проектировался с прицелом для машинного зрения и для чат-ботов. Благодаря достаточно узкой специализации, его удалось сделать достаточно экономичным: согласно имеющимся данным, потребление ATOM составляет 20 % от аналогичного показателя NVIDIA A100. Сведений о внутреннем устройстве ATOM пока нет. Судя по снимку, решение достаточно мощное, поскольку плата ускорителя оснащена двумя разъёмами питания: 6+8. Проект Rebellions включает в себя сотрудничество с крупным южнокорейским телеком-провайдером, компанией KT Corp, а также с дочерней структурой SK Telecom, компанией Sapeon Korea, который тоже выпускает ИИ-ускорители. В настоящее время объём инвестиций составляет $96 млн, из которых четверть приходится на долю KT Corp. Ещё примерно $7,8 млн получено в виде гранта от правительства Южной Кореи. За производство чипа отвечает Samsung Electronics.
03.02.2023 [15:27], Сергей Карасёв
Intel продолжит работы над ИИ-ускорителями Habana GaudiКорпорация Intel, по сообщению ресурса HPCwire, намерена продолжить разработку ИИ-ускорителей семейства Habana Gaudi, даже несмотря на существенное ухудшение финансового положения и различные рыночные препятствия. Как сообщил Эйтан Медина (Eitan Medina), главный операционный директор Habana Labs, компания раскроет детали о решении Gaudi3 позднее в текущем году. В мае 2022 года Intel анонсировала ускоритель Gaudi2 (на изображении). Он несёт на борту 96 Гбайт памяти HBM2e с пропускной способностью до 2,45 Тбайт/с и 48 Мбайт памяти SRAM. Предусмотрены два основных типа вычислительных блоков — Matrix Multiplication Engine (MME) и Tensor Processor Core (TPC). Изделие выпускается в форм-факторе OAM с применением 7-нм техпроцесса. Как рассказал господин Медина, для ускорителя Gaudi3 предусмотрено применение 5-нм технологии производства. По сравнению с предшественником новинка получит больше памяти, предоставит более мощные вычислительные ресурсы и расширенные сетевые возможности. Кроме того, планируется реализация дополнительных функций. «Мы также работаем над оценкой возможностей объединить лучшее из двух миров —архитектур Intel GPU и Habana Gaudi. Такой подход может быть реализован в четвертом поколении ускорителя», — сказал Медина. Не исключено, что Gaudi получит некоторые элементы Intel Xe, ориентированные на высокопроизводительные вычисления. Gaudi3 нацелен на глубокое обучение в корпоративных средах. По всей видимости, объединение компонентов двух изделий позволит будущим версиям Gaudi лучше конкурировать с передовыми ускорителями NVIDIA. |
|