Материалы по тегу: ускоритель
18.05.2023 [18:24], Сергей Карасёв
Dell оснастит серверы Power Edge SQL-ускорителем NeuroBlade для аналитики данныхКомпания NeuroBlade анонсировала специализированный ускоритель SQL Processing Unit (SPU), предназначенный для решения задач, связанных с аналитикой больших данных. О планах по использованию новинки уже объявила корпорация Dell: решение появится в серверах семейства Power Edge. Представленный ускоритель — NeuroBlade SPU G200 — выполнен в виде карты расширения с интерфейсом PCIe. Утверждается, что он может быть интегрирован в существующие дата-центры без изменения их архитектуры. Изделие NeuroBlade SPU G200 связывается с движком запросов базы данных для выполнения ресурсоёмких задач. При этом не требуется модификация структуры запросов или правка кода. По заявлениям разработчика, новинка обеспечивает неизменно высокую пропускную способность независимо от сложности запросов, а объём обрабатываемых данных может исчисляться петабайтами. Отмечается, что ускоритель NeuroBlade SPU G200 по сравнению с традиционными аппаратными платформами позволяет сократить затраты на вычислительные ресурсы, ПО и электроэнергию в 3–5 раз при работе с базами данных. При этом производительность повышается в 10–100 раз в зависимости от выполняемой нагрузки. Помимо решения задач бизнес-аналитики, карта подходит для «озёр данных», ETL-процессов, масштабных хранилищ информации и пр.
09.05.2023 [01:01], Сергей Карасёв
Ускоритель NVIDIA A800 для Китая стоит около $14,5 тыс.В интернете, по сообщению ресурса VideoCardz, появились подробности о характеристиках ускорителя NVIDIA A800 — урезанной версии NVIDIA А100, созданной специально для китайского рынка. Это решение предлагается по ориентировочной цене $14,5 тыс. На аналогичный шаг с выпуском особых версий ускорителей для Китая пошла и Intel. В условиях жёстких американских санкций в отношении Китая компания NVIDIA вынуждена создавать специализированные ускорители для рынка КНР с ограниченной производительностью. Снижение производительности в случае A800 объясняется прежде всего ограничениями в плане масштабируемости: можно использовать до восьми SXM-изделий против 16 для А100. Кроме того, пропускная способность интерконнекта NVLink составляет 400 Гбайт/с против 600 Гбайт/с у оригинальной версии. Хотя вычислительная мощность на нагрузках FP32 и FP64 оказывается сопоставимой. У А800 показатели, по данным NVIDIA, достигают соответственно 19,5 Тфлопс и 9,7 Тфлопс, что и у A100. Тензорные ядра для BF16/FP16 выдают те же 312 Тфлопс (624 Тфлопс с разреженностью). Ускорители серии NVIDIA A800 существуют в вариантах PCIe с 40 и 80 Гбайт памяти HBM2e (с воздушным или жидкостным охлаждением), а также в модификации SXM с 80 Гбайт памяти.
05.05.2023 [01:08], Владимир Мироненко
Microsoft финансирует разработки AMD в области ИИ, а AMD помогает ей в работе над собственным ИИ-ускорителем AthenaКорпорация Microsoft сотрудничает с Advanced Micro Devices (AMD) и инвестирует средства в её работу по созданию ИИ-чипов, пишет Bloomberg со ссылкой на информированные источники. Корпорация также работает с AMD над собственным ИИ-ускорителем Athena, первые сведения о котором появились совсем недавно. Microsoft является ведущим провайдером услуг облачных вычислений и принимает активное участие в развёртывании ИИ. Корпорация уже вложила $10 млрд в OpenAI, разработчика ИИ-чат-бота ChatGPT, планируя использовать его возможности во всех своих программных продуктах. Также у Microsoft есть подразделение по производству полупроводниковых компонентов под руководством бывшего исполнительного директора Intel Рани Боркара (Rani Borkar), насчитывающее почти 1000 сотрудников. На создание собственных ИИ-чипов корпорация потратила почти $2 млрд, что, впрочем, не мешает ей сотрудничать с NVIDIA. Для реализации планов по внедрению ИИ в свои продукты и развёртыванию иных ИИ-сервисов корпорации требуется гораздо больше вычислительных мощностей, чем у неё есть. Но пока что компания вынуждена довольствоваться закупками ускорителей NVIDIA. AMD тоже считает приоритетной сферу ИИ. «Мы очень рады нашим возможностям в области искусственного интеллекта — это наш стратегический приоритет № 1, — заявила гендиректор AMD Лиза Су (Lisa Su) во время последнего отчёта о квартальных результатах, — Мы находимся на самых ранних этапах эры ИИ, и скорость внедрения и роста ИИ выше, чем у любой другой технологии в новейшей истории». Проект Athena стал приоритетным для команды Боркара, которая также работала над чипами для серверов и компьютеров Surface. Созданный ею ускоритель, который можно использовать для обучения и запуска моделей ИИ, уже проходит внутреннее тестирование и может быть запущен уже в следующем году, утверждает один из источников. Однако до NVIDIA корпорации по-прежнему далеко. Сообщается, что NVIDIA является предпочтительным поставщиком ускорителей для многих облачных и сервис-провайдеров и иных крупных потребителей. Как отметил Bloomberg, создать альтернативу продуктам NVIDIA будет непросто, поскольку компания предлагает комплексные программно-аппаратные решения, включающие ПО, оборудование (в том числе сетевое и готовые серверы), средства разработки и т.д.
26.04.2023 [19:50], Сергей Карасёв
Meta✴ вынужденно пересмотрела архитектуру своих ЦОД из-за отказа от выпуска собственных ИИ-чипов в пользу ускорителей NVIDIAКомпания Meta✴, по сообщению Reuters, была вынуждена пересмотреть конфигурацию своих дата-центров из-за отставания от конкурентов в плане развития ИИ-платформ. Компания, в частности, решила отказаться от дальнейшего внедрения инференс-чипов собственной разработки. Отмечается, что до прошлого года Meta✴ применяла архитектуру, в которой традиционные CPU соседствуют с кастомизированными решениями. Однако выяснилось, что такой подход менее эффективен по сравнению с применением ускорителей (GPU). При этом ранее компания отказалась от ИИ-ускорителей Qualcomm, указав на недоработки ПО, которые, судя по всему, были устранены только недавно. А с Esperanto, вероятно, отношения у Meta✴ пока не сложились. Впрочем, теперь компании интересен генеративный ИИ, а не только рекомендательные системы, что накладывает иные требования к оборудованию. В течение почти всего 2022 года Meta✴ активно инвестировала в развите инфраструктуры, однако в конце года стало известно, что она приостановила строительство целого ряда ЦОД, а затем пересмотрела расходы на дата-центры. Компания решила кардинально переосмыслить архитектуру своих ЦОД, сделав ставку на СЖО. Как теперь выясняется, связано это с тем, что Meta✴ отказалась от собственных ИИ-чипов в пользу ускорителей NVIDIA: объём заказов последних исчисляется «миллиардами долларов». Соответствующую платформу Grand Teton компания показала в конце прошлого года. Но ускорители потребляют больше энергии и выделяют больше тепла, нежели CPU или узкоспециализированные ASIC. Кроме того, ускорители должны физически находиться довольно близко друг к другу, хотя с интерконнектом компания тоже уже экспериментирует. Всё это влияет на архитектуру ЦОД. Тем не менее, Meta✴ всё же разрабатывает некий секретный чип, который сгодится и для обучения ИИ-моделей, и для инференса. Ожидается, что это решение увидит свет в 2025 году. Пока что для обучения ИИ компания намерена использовать собственный ИИ-суперкомпьютер RSC и облачные кластеры Microsoft Azure. Похожий путь избрала Microsoft, решившая создать свой ИИ-чип, не отказываясь пока от ускорителей NVIDIA. The Information добавляет, что вице-президент Microsoft по разработке «кремния» Жан Буфархат (Jean Boufarhat) присоединится к Meta✴. Он возглавит команду Facebook✴ Agile Silicon Team (FAST), чтобы помочь компании в реализации проектов по созданию чипов. Ранее Meta✴ переманила из Intel руководителя разработки сетевых решений для дата-центров. У Google и Amazon уже есть свои ИИ-чипы для обучения и инференса.
19.04.2023 [14:33], Владимир Мироненко
The Information: Microsoft с 2019 года работает над собственными ИИ-чипами, но заменой ускорителей NVIDIA они пока не станутMicrosoft уже длительное время работает над созданием собственных ИИ-чипов, которые позволят снизить затраты на обучение генеративных моделей ИИ, подобных той, что используется в чат-боте ChatGPT компании OpenAI LP, сообщил ресурс The Information. По данным источников ресурса, по меньшей мере с 2019 года Microsoft работает над новым 5-нм чипом под кодовым названием Athena. Более того, небольшая группа сотрудников Microsoft и OpenAI уже тестирует производительность новых чипов на больших языковых моделях, таких как GPT-4. Таким образом, Microsoft собирается присоединиться к гиперскейлерам, уже создавшим свои ИИ-ускорители. Так, Google создала уже не одно поколение TPU, а у AWS есть сразу и Trainium, и Inferentia. Meta✴, как сообщается, тоже разрабатывает собственные чипы, но пока активно сотрудничает NVIDIA, лидером рынка ИИ-ускорителей. Последняя построила для Meta✴ ИИ-суперкомпьютер RSC, но самой Meta✴ этого мало, поэтому она будет использовать облачные ИИ-кластеры Microsoft Azure. А Azure, как считается, является одним из крупнейших потребителей чипов NVIDIA — сейчас компании вместе создают ещё один облачный ИИ-суперкомпьютер. Предполагается, что наличие собственных ИИ-чипов позволяет заключить с NVIDIA более выгодные сделки на поставку её ИИ-ускорителей. «Microsoft хочет использовать большие языковые модели во всех своих приложениях, включая Bing, [Microsoft] 365 и GitHub, — сказал ресурсу The Information главный аналитик SemiAnalysis Дилан Патель. — Их развёртывание в таком масштабе с использованием готового оборудования будет стоить десятки миллиардов долларов в год». При этом пока компания старается экономить на оборудовании. В начале 2023 года Microsoft инвестировала в OpenAI $10 млрд и сейчас ускоренно интегрирует технологию ИИ в свои сервисы. Однако внедрение больших языковых моделей (LLM) сдерживается из-за нехватки ускорителей NVIDIA. К тому же NVIDIA продаёт свою продукцию с большой наценкой, поэтому создание собственного ИИ-чипа позволит Microsoft сэкономить значительные суммы. По данным The Information, компания планирует выпуск нескольких поколений чипов, первое из которых должно появиться в 2024 году. Сообщается, что эти чипы пока не предназначены для замены продуктов NVIDIA, поскольку их предполагается использовать для расширения существующей инфраструктуры Microsoft.
14.04.2023 [01:03], Владимир Мироненко
AWS объявила о доступности EC2-инстансов Inf2 на базе фирменных ИИ-ускорителей Inferentia2AWS объявила об общедоступности недорогих и высокопроизводительных инференс-инстансов Amazon EC2 Inf2 для генеративного ИИ. Новинки используют фирменные ИИ-ускорители Inferentia2. Как утверждает AWS, это самый экономичный и энергоэффективный вариант запуска моделей генеративного ИИ, таких как GPT-J или Open Pre-Trained Transformer (OPT). По сравнению с инстансами Amazon EC2 Inf1 инстансы Inf2 обеспечивают до 4 раз более высокую пропускную способность и до 10 раз меньшую задержку (в таких же пределах ускорители Inferentia2 превосходят Inferentia). В настоящее время доступно четыре варианта инстансов Inf2, имеющих до 12 ускорителей AWS Inferentia2 со 192 vCPU, связанных интерконнектом NeuronLink v2. Их совокупная вычислительная мощность достигает 2,3 Пфлопс (BF16 или FP16). Инстансы Inf2 предлагают до 384 Гбайт общей памяти, по 32 Гбайт памяти HBM у каждого чипе Inferentia2, и общую пропускную способность памяти (ПСП) 9,8 Тбайт/с. Такая ПСП особенно важна для для исполнения больших языковых моделей (LLM). А поскольку чипы AWS Inferentia2 специально созданы для ИИ-нагрузок DL, инстансы Inf2 показывают не менее чем на 50 % лучшее соотношение производительности на Ватт по сравнению с другими сопоставимыми EC2-инстансами. Как и ускоритель AWS Trainium, AWS Inferentia2 имеет два блока NeuronCore-v2, стеки HBM и выделенные механизмы коллективных вычислений для распараллеливания нагрузки на нескольких ускорителях. NeuronCore-v2 включает аппаратные движки для скалярных, векторных и тензорных (матричных) вычислений, а также 512-бит блок GPSIMD, блоки DSP, SRAM и некоторые другие узкоспециализированные движки. Ускоритель поддерживает выполнение кастомных обработчиков (C/C++, PyTorch). AWS Inferentia2 поддерживает широкий спектр типов данных, включая FP32, TF32, BF16, FP16 и UINT8, позволяя выбрать наиболее подходящий тип данных для своих рабочих нагрузок. Он также поддерживает новый настраиваемый тип данных FP8 (cFP8), который особенно актуален для больших моделей. По словам компании, такие гибкость и реконфигурируемость чипа позволяют добиться максимальной эффективности выполнения ИИ-нагрузок.
12.04.2023 [16:24], Сергей Карасёв
Внезапный пересмотр модельного ряда ускорителей Intel Max объясним желанием не потерять рынок КитаяКорпорация Intel, по сообщению ресурса Tom's Hardware, отменила выпуск ускорителей Data Center GPU Max 1350 (Ponte Vecchio), предназначенных для использования в НРС-системах и оборудовании для ЦОД. Данное решение, как сообщается, связано с реструктуризацией на фоне ухудшившегося финансового положения и снижения продаж. Однако истинная причина может оказаться гораздо прозаичнее. Как отмечается на сайте самой Intel, решения Data Center GPU Max 1350 были официально анонсированы в I квартале 2023 года. Планировалось, что они будут производиться до января 2026-го. Конфигурация включает 112 ядер Xe, 112 блоков трассировки лучей и 96 Гбайт памяти HBM2e. Показатель TDP был заявлен на отметке 450 Вт. Intel также предложит более мощный ускоритель Data Center GPU Max 1550 с опцией воздушного охлаждения, хотя изначально он планировался только для систем с СЖО. А вот вместо Data Center GPU Max 1350 Intel готовит решение Data Center GPU Max 1450, выход которого на рынок запланирован в конце 2023 года. Предположительно, это будет урезанная версия изделия Data Center GPU Max 1550, которая получит 128 ядер Xe, 128 Гбайт HBM2e, TDP на уровне 450 Вт. Компания прямо говорит о сниженной I/O-производительности. Ранее Intel уже отказалась от ускорителей Rialto Bridge, а выпуск Falcon Shores — перенесла. Как сообщает The Register, отказ Intel от выпуска Data Center GPU Max 1350 может быть связан с желанием корпорации укрепить позиции на «других рынках». И речь, судя по всему, идёт в первую очередь о Китае. Благодаря пониженной по сравнению с Data Center GPU Max 1550 производительности Intel сможет поставлять новинку в КНР. Санкции, объявленные прошлой осенью, запрещают экспорт в Китай изделий со скоростью обмена данными 600 Гбайт/с и выше, и Data Center GPU Max 1450 должен укладываться в допустимые нормы. На Китай приходится значительная часть доходов Intel, а учитывая рост востребованности ИИ-приложений и НРС-услуг, появление Data Center GPU Max 1450 может укрепить положение корпорации на рынке Поднебесной. Ранее NVIDIA, для которой китайский рынок тоже очень важен, уже пошла на аналогичный шаг, сначала представив ускоритель A800 (урезанный вариант A100), а затем и H800 (аналог H100).
07.04.2023 [20:38], Сергей Карасёв
AMD представила ускоритель Alveo MA35D для «умного» кодирования AV1-видеоAMD анонсировала специализированный ускоритель Alveo MA35D для работы с видеоматериалами. Новинка приходит на смену FPGA Alveo U30 компании Xilinx, которую AMD поглотила в начале 2022 года. По сравнению с предшественником модель Alveo MA35D привносит поддержку AV1 и 8K, а также обещает четырёхкратное увеличение количества одновременно обрабатываемых видеопотоков. Решение может одновременно обрабатывать до 32-х потоков 1080p60, до восьми потоков 4Kp60 или до четырёх потоков 8Kp30. В основу ускорителя положены два VPU-блока на базе 5-нм ASIC, разработка которых началась ещё в недрах Xilinix, но которые не имеют отношения к FPGA. Каждый модуль VPU включает два «полноценных» кодировщика с поддержкой AV1/VP9/H.264/H.265 и два — только с AV1. Каждый из VPU использует 8 Гбайт собственной памяти LPDDR5, а для связи с CPU служит интерфейс PCIe 5.0 x8 (по x4 для каждого модуля). В состав VPU также входят четыре ядра общего назначения с архитектурой RISC-V. Для новинки доступен SDK-комплект с поддержкой широко используемых видеофреймворков FFmpeg и Gstreamer. Интересной особенностью является наличие выделенного ИИ-ускорителя (22 Топс) для предварительной обработки видеопотока и улучшения качества и скорости кодирования. Ускоритель покадрово определяет, какие части изображения (лица, текст и т.д.) должны быть закодированы с повышенными качестовом, а какие — нет. Также он определяет повреждённые кадры и по возможности восстанавливает или удаляет их до передачи кодировщику. При этом задержка при 4К-стриминге составляет приблизительно 8 мс. Заявленное энергопотребление составляет 1 Вт в расчёте на один канал 1080p60. Показатель TDP составляет 50 Вт, но, по заявлениям AMD, в обычных условиях он не превышает 35 Вт. Ускоритель выполнен в виде низкопрофильной однослотовой PCIe-карты. Задействована пассивная система охлаждения. В один 1U-сервер могут быть установлены до восьми таких ускорителей, что позволит одновременно обрабатывать до 256 видеопотоков. Пробные поставки карты уже начались, а массовые отгрузки намечены на III квартал 2023 года. Рекомендованная цена составляет $1595. AMD подчёркивает, что новый (де-)кодер разработан с нуля, а не позаимствован из её же GPU. В этом отличие подхода от Intel и NVIDIA, которые предлагают использовать более универсальные GPU Flex и L4 соответственно. Alveo MA35D рассчитан на стриминговые площадки, видеохостинги и т.д. При этом Google, например, уже разработала собственные ASIC Argos, а Meta✴ заручилась поддержкой Broadcom для той же цели.
03.04.2023 [19:55], Сергей Карасёв
ИИ в кармане: ADLINK представила портативный внешний ускоритель Pocket AI на базе NVIDIA RTX A500Компания Adlink Technology анонсировала портативный внешний ускоритель Pocket AI, который может быть подключён к ноутбуку или компактному ПК посредством интерфейса Thunderbolt 3.0 (PCI Express 3.0 x4). Говорится о совместимости с операционными системами Windows 10/11 и Linux. В основу новинки положен графический чип NVIDIA Ampere GA107 (RTX A500). Архитектура предусматривает наличие 2048 ядер CUDA, 64 тензорных ядер и 16 ядер RT. Базовая частота составляет 435 МГц, частота в турбо-режиме — 1335 МГц. Объём памяти GDDR6 равен 4 Гбайт, частота — 6000 МГц. Заявленная производительность достигает 100 TOPS (INT8) или 6,54 Тфлопс на операциях с одинарной точностью (FP32). Говорится о поддержке OptiX, Microsoft DXR, Vulkan, NGX, CUDA 10, PhysX и Flex. Устройство имеет размеры 106 × 72 × 25 мм и весит 250 г. Диапазон рабочих температур простирается от 0 до 40 °C. Питание подаётся через разъём USB Type-C (стандарт USB Power Delivery 3.0+; 40 Вт). Внешний ускоритель предназначен для решения ИИ-задач, встраиваемых приложений, промышленных систем и пр. Заявленный показатель TGP равен 25 Вт. Приём предварительных заказов на новинку откроется в текущем месяце, а фактические продажи начнутся в июне.
22.03.2023 [22:02], Алексей Степин
AMD и NVIDIA победили: NEC останавливает разработку уникальных векторных процессоров SX-AuroraЯпонская компания NEC была одной из немногих, отстаивавших собственный уникальный путь в сфере развития вычислительных технологий со своими векторными процессорами SX-Aurora. Хотя данное направление до недавних пор активно развивалось, компания, похоже, не выдержала давления со стороны NVIDIA и AMD и объявила о прекращении разработок новых решений в серии Aurora. Работы над усовершенствованием векторной архитектуры NEC продолжались до конца прошлого года, когда компания объявила о подготовке новых вычислительных узлов SX-Aurora TSUBASA C401-8 на базе ускорителей с 16 блоками Vector Engine 3.0 и 96 Гбайт интегрированной памяти HBM2. И хотя в августе этого года в Научном центре Университета Тохоку будет запущен новый суперкомпьютер на их основе, новых разработок в этой сфере не будет. Как отметил Сатоши Мацуока (Satoshi Matsuoka), глава крупнейшего в Японии суперкомпьютерного центра RIKEN, где был создан суперкомпьютер Fugaku, NEC неслучайно объявила об отказе от разработки нового поколения процессоров SX-Aurora. Хотя в целях компании значилось 10-кратное повышение энергоэффективности, теперь NEC считает, что эта цель может быть достигнута с использованием стандартных коммерческих ускорителей. Главной причиной называется появление решений AMD и NVIDIA, на голову превосходящих все наработки NEC. В частности, упоминается AMD Instinct MI300. При этом отмечено, что это решение «похоронило» бы даже новое поколение SX-Aurora, когда речь заходит о ПСП. Целью NEC был показатель 2+ Тбайт/с, в то время как новинка AMD, располагая памятью HBM3 с 8192-бит шиной, может обеспечить 6,8 Тбайт/с. Также «естественным врагом» SX-Aurora является NVIDIA Grace Hopper с его мощной процессорной частью и развитой инфраструктурой NVLink, демонстрирующий к тому же выдающуюся энергоэффективность. Примечательно, что оба продукта от AMD и NVIDIA являются APU, то есть гибридными чипами, объединяющими ускорители и CPU собственной разработки, а также быструю память. Финансовый кризис 2009 года ударил по разработкам NEC в области процессоростроения сильно, но ситуацию тогда спасла общая незрелость рынка GPGPU и технологии HBM. Сейчас на это надеяться нельзя, да и ситуация с точки зрения программной экосистемы в мире HPC говорит не в пользу NEC. По всей видимости, прямо на наших глазах ещё одна уникальная вычислительная архитектура становится достоянием истории. При этом в Японии пока что сохраняется ещё одна уникальная отечественная архитектура — PEZY-SC. Arm-процессоры Fujitsu A64FX, ставшие основой Fugaku, тоже достаточно уникальны, однако их наследники в лице MONAKA переориентированы на более массовый сегмент. Таким образом, собственные массовые HPC-решения сейчас есть только у Китая, которому новейшие американские и британские ускорители достанутся в кастрированном виде. |
|