Материалы по тегу: ускоритель

12.04.2021 [20:00], Сергей Карасёв

NVIDIA представила младшие серверные ускорители A10 и A30

Компания NVIDIA в рамках конференции GPU Technology Conference 2021 анонсировала ускорители A10 и A30, предназначенные для обработки приложений искусственного интеллекта и других задач корпоративного класса.

Модель NVIDIA A10 использует 72 ядра RT и может оперировать 24 Гбайт памяти GDDR6 с пропускной способностью до 600 Гбайт/с. Максимальное значение TDP составляет 150 Вт. Новинка выполнена в виде полноразмерной карты расширения с интерфейсом PCIe 4.0: в корпусе сервера устройство займёт один слот расширения. Производительность в вычислениях одинарной точности (FP32) заявлена на уровне 31,2 терафлопса. Новинку можно рассматривать как замену NVIDIA T4.

Модель NVIDIA A30, в свою очередь, получила исполнение в виде двухслотовой карты расширения с интерфейсом PCIe 4.0. Задействованы 24 Гбайт памяти HBM2 с пропускной способностью до 933 Гбайт/с. Показатель TDP равен 165 Вт. Обе новинки используют архитектуру Ampere с тензорными ядрами третьего поколения.

Решения подходят для применения в серверах массового сегмента, рабочих станциях, а также в составе платформы NVIDIA EGX и для периферийных вычислений.

Постоянный URL: http://servernews.ru/1037122
12.04.2021 [20:00], Сергей Карасёв

Ускоритель NVIDIA A16 рассчитан на инфраструктуры VDI

Компания NVIDIA представила сегодня акселератор корпоративного класса A16: анонс новинки состоялся в рамках мероприятия GPU Technology Conference 2021. Ускоритель поможет в организации дистанционной работы, что актуально в текущей эпидемиологической обстановке. В такой ситуации востребованы платформы виртуальных рабочих столов (VDI).

В инфраструктуре VDI среды виртуальных рабочих мест размещаются на централизованном сервере и развёртываются по запросу. Для поддержания работы таких систем как раз и предназначен ускоритель NVIDIA A16. Решение объединяет четыре графических процессора с архитектурой Ampere. Также имеются аппаратные (де-)кодеры NVENC (x4) и NVDEC (x8).

Используется 64 Гбайт памяти GDDR6 — по 16 Гбайт на процессор.Устройство позволяет формировать виртуальные GPU (vGPU) с памятью объёмом 1, 2, 4, 8 или 16 Гбайт. Имеется поддержка технологий NVIDIA Virtual PC (vPC), Virtual Applications (vApps), RTX Workstation (vWS), Virtual Compute Server (vCS).

Ускоритель выполнен в виде карты расширения с интерфейсом PCIe 4.0. В компьютерном корпусе новинка займёт два слота. Для дополнительного питания служит 8-контактный разъём; заявленный показатель TDP — 250 Вт. Поставки акселератора NVIDIA A16 начнутся в текущем году. Более точные сроки начала продаж и стоимость разработчик раскроет позднее.

Постоянный URL: http://servernews.ru/1037129
03.04.2021 [15:29], Сергей Карасёв

Китайский ускоритель Big Island готов соперничать с решениями AMD и NVIDIA

Китайская компания Shanghai Tianshu Intellectual Semiconductor Co. на этой неделе объявила о скором начале массового производства и грядущей коммерческой доступности GPGPU-ускорителей на основе чипа под именем Big Island.

Названное решение — это первый ускоритель родом из КНР, для которого предусмотрена 7-нанометровая технология производства. Предполагается, что изделие составит конкуренцию продуктам AMD Instinct MI100 и NVIDIA A100, а в будущем и Intel, в сегменте центров обработки данных и платформ высокопроизводительных вычислений (HPC).

Отмечается, что выпуском графических чипов Big Island займётся компания TSMC с применением своей 7-нанометровой методики FinFET, а интерпозер собственной разработки будет использовать 65-нм техпроцесс TSMC. Новинка будет иметь 24 млрд транзисторов. Ускоритель получит интерфейс PCIe 4.0 x16 и будет доступен как в виде полноразмерной карты расширения, так и в виде OAM-модуля.

Tianshu Zhixin заявляет, что Big Island по производительности практически вдвое превосходит продукты для массового рынка других производителей. При этом достигается меньшее энергопотребление. В целом, новые изделия должны предложить привлекательное соотношение цены и быстродействия.

Разработчик уже обнародовал изображения ускорителей и серверных продуктов на основе Big Island. А слайд ниже даёт представление о производительности новинки. Правда, о скорости вычислений FP64 создатели умалчивают. Зато сказано, что чип получит 32 Гбайт памяти HBM2 с пропускной способностью 1,2 Тбайт/с, а также поддержку виртуализации.

Постоянный URL: http://servernews.ru/1036460
24.03.2021 [16:08], Сергей Карасёв

Ускоритель Intel Xe Ponte Vecchio получит более 100 млрд транзисторов

Исполнительный директор Intel Пэт Гелсингер (Pat Gelsinger) в рамках мероприятия «Intel Unleashed: Engineering the Future» рассказал о реализации проекта по разработке ускорителя Ponte Vecchio, предназначенного для применения в системах высокопроизводительных вычислений (HPC).

Отмечается, что немногим более чем за два года существования проекта специалистам Intel удалось добиться выдающихся результатов. В частности, уже создан опытный рабочий образец процессора. Господин Гелсингер в ходе выступления показал такое изделие. Процессор имеет «черепичный» дизайн с 47 элементами, что прекрасно видно на опубликованных изображениях.

При производстве используются как 3D-компоновка Foveros, так и соединения EMIB. Общее количество используемых транзисторов превышает 100 млрд. Сообщается также, что решение обеспечивает производительность свыше одного петафлопса. Но не уточняется, о какой точности идёт речь.

Для сравнения: у AMD MI100 пиковая FP64-производительность составляет 11,5 Тфлопс (и в два раза больше для FP32), а у NVIDIA A100 — 9,7 Тфлопс для FP64 и 19,5 Тфлопс для FP32. Для других форматов (bfloat16, FP16, INT4 или INT8) эти значения в разы больше у обоих ускорителей.

Графические процессоры Ponte Vecchio будут применяться в тандеме с процессорами Xeon с кодовым названием Sapphire Rapids. Решения Ponte Vecchio, в частности, войдут в состав суперкомпьютера Aurora для Аргоннской национальной лаборатории Министерства энергетики США. Завершить создание этой системы планируется к концу текущего года.

Постоянный URL: http://servernews.ru/1035655
19.03.2021 [23:23], Сергей Карасёв

Фотонные ИИ-сопроцессоры LightOn можно арендовать «всего» за €1900/мес.

Базирующийся в Париже (Франция) стартап LightOn представил своё первое коммерческое устройство — самый мощный в мире, по словам компании, фотонный сопроцессор, предназначенный для систем искусственного интеллекта (ИИ) и высокопроизводительных вычислений.

Устройство, рассчитанное на монтаж в стойку, выполнено в формате 2U. «Сердце» системы — оптический процессор (OPU) Aurora2, содержащий одно фотонное ядро Nitro второго поколения. Его быстродействие составляет 1,5 TeraOPS при показателе TDP всего в 30 Вт. В ряде задач OPU значительно быстрее CPU и GPU, и при этом потребляет намного меньше энергии.

Для работы с устройством необходим сервер с Intel Xeon (на AMD тоже всё должно работать, но совместимость не проверялась), Ubuntu 18.04+ или Debian 10, Python 3.7+ и свободным слотом PCIe 2.0 x4. Поддерживаются PyTorch 1.0+ и scikit-learn, а также фирменная библиотека LightOn ML v1.2 и собственный SDK.

Устройство будет доступно заказчикам на условиях аренды. Стоимость начинается с €1900/мес. (без НДС) при заключении контракта на три года. Поставки устройств начнутся в июне 2021 года. Компания также предлагает заранее сконфигурированные решения, техническую поддержку и индивидуальные обучающие курсы. Более подробную информацию о новинке можно найти здесь. Кроме того, у компании есть облачный сервис, где доступны OPU первого поколения.

Постоянный URL: http://servernews.ru/1035285
25.02.2021 [17:04], Алексей Степин

IBM разработала прототип 7-нм высокоэффективного ИИ-сопроцессора

В популярных нынче вычислительных ядрах, процессорах и SoC, нацеленных на рынок машинного обучения, как правило, используются режимы вычисления с пониженной разрядностью, такие, как FP16 или даже INT8.

Но для реализации обучения и инференс-систем на периферии даже восьмибитная точность может быть избыточной, а вот экономичность остаётся ключевым фактором. Компания IBM раскрыла некоторые детали относительно своего нового ИИ-чипа, предназначенного специально для периферийных систем.

В последние годы наблюдается развитие так называемых периферийных вычислений, в которых первичная обработка потока «сырых» данных выполняется непосредственно в местах их получения, либо наиболее близко к таким местам. В отличие от классической обработки в ЦОД, на периферии такие ресурсы как габариты и энергоснабжение ограничены, вот почему разработчики стараются сделать такие чипы и системы как можно более экономичными и компактными.

Среди них компания IBM, которая раскрыла информацию о новом прототипе ИИ-сопроцессора, предназначенном специально для систем машинного обучения и инференс-систем периферийного типа. Как сообщают источники, главным преимуществом новинки является способность выполнять вычисления с ещё менее высокой точностью, чем принято в машинном обучении, однако достаточной для ряда задач.

Новая разработка IBM интересна тем, что обеспечивает сопоставимую точность обучения при использовании менее точных форматов вычислений

Новая разработка IBM интересна тем, что обеспечивает сопоставимую точность обучения при использовании менее точных форматов вычислений

Изначально в машинном обучении применялись классические вычислительные ядра с точностью вычислений как минимум FP32, однако для ряда случаев такая точность избыточна, а энергопотребление далеко от оптимального. В этом смысле за прошедшие пять лет именно IBM удалось добиться существенных успехов. Ещё в 2019 году компания показала возможность использования 8-битной точности с плавающей запятой для обучения, а для инференса оказалось достаточно даже 4 бит.

На конференции NeurIPS 2020 компания отчиталась о дальнейших успехах в этой области: новый периферийный ИИ-сопроцессор, спроектированный с использованием 7-нм технологических норм, обеспечивает достаточно надёжные результаты при обучении в 4-битном режиме, а для инференс-задач он использует и вовсе двухбитный режим. Точность при этом достаточно высока, хотя в некоторых случаях и понижается на несколько процентов, а вот производительность оказывается почти в четыре раза выше, нежели при использовании 8-битного режима. Естественно, возможны и вычисления смешанной точности.

За счёт сочетания пониженной точности и тонкого техпроцесса обеспечивается высокая энергоэффективность, и IBM не без оснований считает, что такие процессоры займут место классических там, где их возможностей достаточно, например, в машинном зрении и системах распознавания речи. Кроме того, IBM разработала новый алгоритм сжатия ScaleCom, позволяющий очень эффективно сжимать именно данные машинного обучения. Говорится о возможности сжатия в 100, а в некоторых случаях и в 400 раз. Подробности можно узнать на сайте компании.

Постоянный URL: http://servernews.ru/1033524
23.01.2021 [21:18], Алексей Степин

Китайский ускоритель Zhaoxin Big Island обещает составить конкуренцию AMD и NVIDIA

Графические процессоры уже давно ускоряют не только графику, но и активно используются для вычислений различного рода, включая задачи машинного обучения. Но дуумвират AMD и NVIDIA подошёл к концу. Помимо Intel с её архитектурой Xe, на рынок ускорителей вышла китайская Zhaoxin Semiconductor.

Компания это сравнительно молодая, она была основана в 2013 году как совместное предприятие с некогда популярным производителем VIA Technologies. Инициатором создания Zhaoxin выступило правительство Шанхая. Наряду с наработками в области архитектуры x86, в распоряжение компании попали и разработки бывшей S3 Graphics. В 2020 году компания объявила о намерении выпускать дискретные графические ускорители.

Изначально речь шла о достаточно бюджетном решении. Об этом свидетельствовало намерение использовать уже далеко не новый 28-нм техпроцесс TSMC и уложиться при этом в теплопакет в районе 70 Ватт. Из-за санкций США Zhaoxin отказалась от использования 16-нм техпроцесса. Однако сейчас, похоже, большую часть проблем удалось преодолеть: компания анонсировала первый китайский ускоритель на базе собственной архитектуры и 7-нм техпроцесса!

В распоряжении Zhaoxin Semiconductor собственных полупроводниковых фабрик нет. Конкретного имени контрактного производителя для своей новинки под именем Big Island она не называет, но большую часть 7-нм чипов на сегодня производит TSMC. На тайваньского гиганта указывает и сайт Zhaoxin, там же упоминаются известные разработчики полупроводниковых решений Synopsys и Mentor Graphics. Кроме того, компания подтверждает использование в Big Island компоновки 2.5DCoWoS (2.5D chip-on-wafer-on-substrate), впервые использованной TSMC, так что сомнений насчёт того, кто производит новинку, остаётся немного.

Процессор достаточно сложен, он состоит из 24 млрд транзисторов, что, впрочем, существенно меньше, чем у NVIDIA A100 с его 54 млрд. Тем не менее, поддерживается большинство популярных форматов вычислений, включая FP16, FP32, INT32 и bfloat16. В режиме FP16 пиковая производительность достигает 147 Тфлопс, что выше, нежели 78 Тфлопс A100. Впрочем, лидером здесь является AMD Instinct MI100 с производительностью 184 Тфлопс.

Разработка новой архитектуры, как сообщают зарубежные источники, была начата в 2018 году, а первые образцы кремния увидели свет ещё в мае 2020 года, то есть у Zhaoxin было достаточно много времени, чтобы довести Big Island до ума. Ожидается, что массовое производство нового чипа будет развёрнуто в этом году, но точные временные рамки пока неизвестны.

Постоянный URL: http://servernews.ru/1030854
29.12.2020 [14:58], Владимир Мироненко

Производитель ИИ-чипов Graphcore получил $222 млн инвестиций и теперь оценивается почти в $3 млрд

Производитель ИИ-чипов Graphcore провёл раунд финансирования серии E, в ходе которого собрал $222 млн инвестиций. Генеральный директор и соучредитель Graphcore Найджел Тун (Nigel Toon) сообщил ресурсу TechCrunch, что с учётом этого раунда компания получила в общей сложности $440 млн и оценивается в $2,77 млрд.

По его словам, полученные средства компания направит на решение нескольких ключевых задач. Во-первых, благодаря финансированию Graphcore продолжит работу над своей технологией, основанной на архитектуре IPU (Intelligence Processing Unit, интеллектуальный сопроцессор), которая конкурирует с чипами NVIDIA и Intel, тоже оптимизированными для приложений ИИ. Во-вторых, деньги также будут использованы для поддержки финансов Graphcore перед возможным первичным публичным размещением (IPO).

Graphcore

Graphcore

«У нас сильные позиции, чтобы удвоить ставки и быстро расти, а также воспользоваться открывающимися перед нами возможностями», — заявил Найджел Тун. Он отметил, что было бы «преждевременным» считать эту серию E как раунд «перед IPO» и добавил: «У нас достаточно денег, и это даёт нам возможность сделать следующий шаг», всё же намекая на такой вариант. По слухам, в последние недели компания рассматривает возможность проведения IPO не на родине (в Великобритании), а на бирже Nasdaq в США.

В июле Graphcore выпустила второе поколение своего флагманского чипа GC200 и основанную на нём систему IPU Machine M2000, которую компания описывает как первый ИИ-компьютер с одним петафлопсом вычислительной мощности «размером с коробку из-под пиццы».

Постоянный URL: http://servernews.ru/1029010
10.12.2020 [13:04], Юрий Поздеев

Esperanto представила энергоэффективный ИИ-чип ET-SoC-1 с более чем 1000 ядрами RISC-V

На саммите RISC-V компания Esperanto представила новый чип, предназначенный для машинного обучения, который содержит 1089 ядер с низким энергопотреблением. Компания Esperanto была создана в 2014 году и за последние несколько лет смогла привлечь $77 млн венчурного капитала, что позволило ей разработать несколько новых чипов на базе архитектуры RISC-V.

Новый 64-бит чип Esperanto ET-SoC-1 будет иметь два комплекта ядер: ET-Maxion, представляющий собой высокопроизводительное решение, и ET-Minion — компактное энергоэффективное решение c векторным/тензорным ускорением операций для машинного обучения.

Модуль расширения OCP Glacier Point v2 с шестью чипами Esperanto ET-SoC-1

Модуль расширения OCP Glacier Point v2 с шестью чипами Esperanto ET-SoC-1

Чипы ET-SoC-1 будут выпускаться по 7-нм технологии TSMC, при этом количество транзисторов достигает внушительных 23,8 млрд. До сих пор для рабочих нагрузок ИИ и машинного обучения использовались GPU, которые обладают унифицированными ядрами, однако имеют большое энергопотребление. Решения от Esperanto, как утверждает компания, способны обеспечить больше производительности в пересчете на Вт потребляемой мощности.

ET-Maxion изначально основано на архитектуре процессора Berkeley Out-Of-Order (BOOM) RISC-V с открытым исходным кодом. Хотя Esperanto и планирует значительное расширение архитектуры, преемственность сохраняется, что особенно важно для разработанных решений под данную архитектуру. Esperanto продолжит поддержку репозитория BOOM, однако все расширения технологии будут иметь отдельную платную лицензию.

Ядра ET-Minion разработаны для вычислений с плавающей точкой, он использует 64-битный набор команд RISC-V (in-order), с расширением DSЕ и дополнительными инструкциями для ускорения тензорных и векторных операций, которые могут выполняться параллельно (до 4 потоков).

Готовое решение (SoC) будет включать в себя 16 ядер ET-Maxion RISC-V с кешем L1 и L2, 4096 ядер ET-Minion RISC-V, а также аппаратные ускорители. Решение будет иметь единое адресное пространство между ядрами, обеспечивая согласованную поддержку кеш-памяти. Esperanto уже разработала компилятор для своего решения, которое показало себя более энергоэффективным в сравнении с GPU. Обещана поддержка всех основных фреймворков для машинного обучения.

Не стоит думать, что подобные решения отберут значительную долю рынка у GPU: NVIDIA приобретает Arm и собирается выпускать решения на этой архитектуре, которая может составить достойную конкуренцию RISC-V. А сама ниша подобных специализированных решений уже достаточно насыщена: Xilinx, Mythic, Groc, Intel и многие другие компании выпускают энергоэффективные чипы для ускорения разного типа ИИ-нагрузок.

Постоянный URL: http://servernews.ru/1027480
02.12.2020 [13:06], Владимир Мироненко

ИИ-ускорители Habana Gaudi от Intel появились в облаке AWS

Генеральный директор AWS Энди Ясси (Andy Jassy) представил во вторник на мероприятии AWS re: Invent 2020 инстансы EC2 с использованием до восьми ИИ-ускорителей Habana Gaudi, способные обеспечит рост производительности до 40 % по сравнению с текущими инстансами EC2 на базе графических процессоров для рабочих нагрузок машинного обучения.

Ускорители Habana Gaudi специально разработаны для тренировки моделей глубокого обучения для рабочих нагрузок, включающих обработку естественного языка, обнаружение объектов, классификацию, системы рекомендаций и персонализации.

Назвав инстансы EC2 на основе Habana Gaudi «идеальными» для таких рабочих нагрузок, AWS заявила, что рост сложности моделей машинного обучения увеличивает время и стоимость обучения ИИ. «Заказчики продолжают искать способы снизить стоимость обучения, чтобы выполнять итерации чаще и улучшать качество своих моделей машинного обучения, — заявила AWS. — Инстансы EC2 на основе Gaudi предназначены для удовлетворения таких потребностей клиентов, обеспечивая экономическую эффективность при тренировке моделей машинного обучения».

При этом экземпляры EC2 на основе Gaudi изначально поддерживают популярные программные платформы, такие как TensorFlow и PyTorch. А с помощью пакета SynapseAI от Habana разработчики смогут легко создавать новые или переносить существующие обучающие модели с графических процессоров на ускорители Gaudi.

Intel приобрела Habana в 2019 году в рамках стратегии по расширению использования искусственного интеллекта, и чтобы расширить портфолио ИИ-ускорителей для облака и центров обработки данных — категории чипов, в которой доминирует NVIDIA. Intel заявила, что это приобретение поможет её переходу к поставкам нового класса систем с XPU, объединяющих процессоры и ускорители с различной компоновкой.

Постоянный URL: http://servernews.ru/1026833
Система Orphus