Материалы по тегу: cuda

05.10.2021 [18:20], Андрей Галадей

AMD опубликовала проект GPUFORT по переносу Fortran-кода c CUDA и OpenACC

AMD опубликовала исходный код нового проекта под названием GPUFORT. Он будет доступен под эгидой ROCm и станет новой попыткой создать открытую альтернативу CUDA от NVIDIA, на этот раз для Fortran. Код GPUFORT опубликован на GitHub под лицензией MIT.

«Красные» уже несколько лет пытаются помочь разработчикам перенести как можно больше кода, специфичного для CUDA, на платформы и фреймворки, которые поддерживаются ускорителями Radeon и Instinct. В основном это касалось C/C++, но GPUFORT сосредоточен на портировании кода на языке Fortran и позволяет приводить код проектов для CUDA или OpenACC к OpenMP 4.5+ или HIP C++.

На данный момент это всё ещё исследовательский проект, а не готовый набор инструментов. Разработчики сами говорят, что до полной автоматизации ещё далеко, поскольку в любом случае потребуется ручная проверка транслированного кода. Тем не менее, сами они уже успешно использовали GPUFORT для переноса ряда HPC-приложений, производительность которых оказалась сравнимой с исходным CUDA-вариантом.

Постоянный URL: http://servernews.ru/1050581
17.04.2021 [21:43], Андрей Галадей

NVIDIA анонсировала поддержку Python в CUDA 11.3

NVIDIA анонсировала поддержку языка программирования Python в своей новой версии CUDA под номером 11.3. Этот язык играет ключевую роль в экосистеме приложений для науки, техники, анализа данных и глубокого обучения. В компании заявили, что давно стремились упростить использование вычислительных мощностей графических процессоров, предоставляя стандартизированные библиотеки, инструменты и ПО.

На сегодняшний день доступ к GPU и CUDA из Python может быть осуществлен только с помощью сторонних программного обеспечения, такого как Numba, CuPy, Scikit-CUDA, RAPIDS, PyCUDA, PyTorch, TensorFlow и так далее. Для каждого из этих проектов создана собственная прослойка взаимодействия между CUDA и Python.

Именно поэтому цель создания CUDA Python — унификация всей экосистемы с единым стандартным набором низкоуровневых интерфейсов для предоставления прямого доступа из Python ко всем CUDA API хоста. Это позволит упростить взаимосвязь между различными библиотеками и фреймворками.

Проект CUDA Python будет доступен на GitHub. Изначально NVIDIA предложит обёртки (wrappers) для Cython/Python для работы с драйвером CUDA и runtime API. В дальнейшем компания собирается расширить поддержку, добавив возможность напрямую работать с CUDA-библиотеками cuBLAS, cuFFT, cuDNN, nvJPEG и другими.

Постоянный URL: http://servernews.ru/1037545
23.02.2021 [22:23], Андрей Галадей

Вышло обновление ZLUDA v2, открытой реализации CUDA для GPU Intel

Ранее мы уже писали об экспериментальнои проекте ZLUDA, развивающем открытую реализацию CUDA для GPU Intel, которая позволила бы нативно исполнять CUDA-приложения на ускорителях Intel без каких-либо модификаций. При этом её разработка ведётся независимо и от Intel, и от NVIDIA.

Новинка построена на базе интерфейса Intel oneAPI Level Zero, и может работать на картах Intel UHD/Xe с неплохим уровнем производительности. Однако у первой версии был ряд ограничений. Вчера же вышла вторая версия, которая получила ряд улучшений. Кроме того, автор проекта объявил о переходе на модель непрерывного выпуска релизов.

Основной упор в новой версии сделан на улучшение поддержки Geekbench и работы в Windows-окружении. Собственно говоря, автор прямо говорит, что оптимизация под Geekbench пока является основной целью, а другие CUDA-приложения могут не работать. Кроме того, такое ПО, запущенное с помощью ZLUDA будет работать медленнее, чем на картах NVIDIA, в силу разности архитектур GPU и необходимости эмуляции некоторых возможностей. Подробности приведены на странице проекта.

Постоянный URL: http://servernews.ru/1033317
24.11.2020 [19:36], Андрей Галадей

Проект ZLUDA позволит запускать CUDA-приложения на GPU Intel

Недавно Intel представила концепцию oneAPI, а в декабре ожидается «золотой релиз» всех инструментов. Но есть и альтернативный проект ZLUDA с открытым исходным кодом, который предоставляет реализацию CUDA на базе oneAPI Level Zero. Это позволит запускать программы, изначально «заточенные» под NVIDIA CUDA, на видеокартах Intel UHD и Xe.

Как отмечается, ZLUDA является независимым от NVIDIA и Intel проектом, хотя и использует API Level Zero. ZLUDA предоставляет альтернативную версии библиотеки libcuda и позволяет приложениям CUDA работать без каких-либо модификаци на графических картах Intel с «почти нативной» производительностью. Правда, потребуется графика не ниже Gen9.

engadget.com

engadget.com

ZLUDA всё ещё находится на ранней стадии разработки, но возможностей утилиты уже достаточно, чтобы запускать программу Geekbench с тестами CUDA. Хотя, само собой, о полной поддержке всех функций CUDA речи ещё не идёт. Как ожидается, в будущем ZLUDA сможет работать и поверх HIP-интерфейсов AMD в качестве альтернативы Intel Level Zero.

Новинка написана на языке Rust. Исходники доступны на GitHub. При этом отмечается, что новинка в ряде случаев идёт наравне или даже превосходит OpenCL в тесте GeekBench. Так что если повезёт, то простое использование CUDA будет возможно не только на картах NVIDIA.

Постоянный URL: http://servernews.ru/1026163
03.09.2020 [20:23], Илья Коваль

NVIDIA ускорила работу CUDA в WSL 2

В майском обновлении Windows 10 появилось второе поколение Windows Subsystem for Linux (WSL 2), которое привнесло значительно улучшение производительности для выполняемых в новой среде Linux-программ, «родную» поддержку графического интерфейса и аппаратное ускорение графики. Последнее касается не только GUI, но и работы с CUDA — в июне NVIDIA объявила о ранней поддержке этой возможности в WSL 2.

Реализовано это посредством технологии виртуализации GPU-PV, которая уже давно является частью модели WDDM —вызовы ПО пользовательского окружения пробрасываются непосредственно к драйверу, работающему с ядром ОС. Таким образом любые приложения, использующие слой виртуализации Windows — Sandbox, гости Hyper-V и, собственно, WSL 2 — могут получить доступ к GPU. А это, в свою очередь, позволяет исполнять требовательные к GPU задачи в отдельном окружении практически без потерь в производительности. В теории, конечно.

На практике поддержка этих возможностей со стороны NVIDIA всё ещё носит предварительный характер. В последнем обновлении, выпущенном вчера, компания исправила некоторые проблемы и добавила новые возможности. В частности, повышена производительность в случае запуска небольших, не сгруппированных нагрузок. Добавлена поддержка DirectML для аппаратного ускорения работы с DirectX 12 и включена возможность PTX JIT. Всё это делается на стороне драйвера, для доступа к которому надо быть участником программ NVIDIA Developer Program и Microsoft Windows Insider Program.

В следующей версии драйвера обещана поддержка OptiX, оптимизация работы с памятью, поддержка NVML и nvidia-smi, а также улучшения в работе систем с несколькими GPU. Всё это позволит упростить разработку и отладку ПО для ускорителей NVIDIA, сохранив доступ к привычному Linux-окружению и инструментам в Windows 10.

Постоянный URL: http://servernews.ru/1019833
22.10.2019 [21:15], Андрей Галадей

NVIDIA, Ericsson и Red Hat улучшат 5G-сети с помощью ИИ

Компания NVIDIA, очевидно, намерена покорять не только игровые высоты, но также и телекоммуникационные. Сообщается, что графический гигант и компания Rad Hat объявили о сотрудничестве.

В его рамках планируется создать высокопроизводительную облачную 5G-инфраструктуру на базе открытого продукта Red Hat OpenShift.

Проект позволит создавать высокопроизводительные радиосети пятого поколения. Это также даст операторам доступ к ИИ-приложениям, снизит задержки при передаче данных, позволит обрабатывать сигналы физического уровня 5G и хранить все данные в высокопроизводительной памяти GPU.

В результате это избавит систему от традиционных «бутылочных горлышек» в виде медленных промежуточных устройств, и повысит скорость передачи данных. Для обработки будет принять пакет программного обеспечения NVIDIA Aerial. А Red Hat OpenShift позволит использовать готовое решение Kubernetes для управления и автоматизации 5G RAN, использования контейнеров и так далее.

Как отмечается, Aerial позволит легко созавать GPU-ускоренные программно-определяемые беспроводные сети радиодоступа. Пакет разработки включает в себя инструменты CUDA Virtual Network Function (cuVNF) и CUDA Baseband (cuBB), которые позволяют передавать данные в память графических ускорителей, отвечают за ввод-вывод и обработку сигналов. В качестве аппаратной платформы предлагается NVIDIA EGX.

В проекте участвует и компания Ericsson, которая позволит объединить виртуализированные 5G-сети и решения на базе искусственного интеллекта. Компании планируют сделать такие сети коммерчески успешными. А это, в свою очередь, даст новый импульс для развития дополненной и виртуальной реальности, мобильных игр и супервычислений.

И хотя пока компании не уточняют конкретных сроков, похоже, что планы разработаны на ближайшие годы. Ведь в 2020-м, по слухам, Apple представит свою гарнитуру дополненной реальности. А 5G-смартфоны уже есть на рынке.

Постоянный URL: http://servernews.ru/996040
14.09.2019 [22:33], Андрей Созинов

JPR: AMD необходим аналог CUDA для победы в HPC и дата-центрах

Не так давно аналитическая компания Jon Peddie Research сообщила, что компания AMD смогла укрепить свои позиции на рынке потребительских графических процессоров. Однако в области высокопроизводительных вычислений доля ускорителей на графических процессорах AMD остаётся очень и очень небольшой.

На текущий момент на рынке высокопроизводительных ускорителей вычислений на базе GPU доминирует компания NVIDIA со своими решениями серии Tesla. А вот компания AMD довольствуется лишь некоторыми «точечными» успехами.

Например, строящийся суперкомпьютер Frontier, который будет запущен в 2021 году и станет, по предварительной оценке, самым производительным в мире, будет использовать центральные процессоры AMD EPYC и ускорители вычислений AMD Radeon Instinct. При этом с точки зрения «голой» производительности решения AMD не уступают конкурентам.

Так что же мешает распространению ускорителей Radeon? По мнению аналитиков, проблема заключается не столько в «железе», сколько в программной составляющей. У компании NVIDIA есть набор инструментов разработки CUDA, который позволяет использовать все возможности GPU, и что не менее важно, позволяет писать программный код на диалектах языков C, C++ и Fortran, что значительно облегчает процесс разработки.

Кроме того, NVIDIA уже более десяти лет помогает адаптировать различные программы, библиотеки и алгоритмы для работы на своих ускорителях, а также вкладывается в образовательные программы и сотрудничает с ВУЗами. CUDA многие программисты изучают ещё в университете, и после завершения обучения умеют работать с данными инструментами, что востребовано на рынке.

У компании AMD полного аналога CUDA попросту нет, и потому писать ПО под Radeon значительно сложнее, нежели под Tesla и прочие продукты NVIDIA. AMD поддерживает открытые библиотеки OpenCL, а также открытый проект HIP, который позволяет преобразовать CUDA в код C++. Но этого явно недостаточно.

Компании AMD чтобы завоевать позиции в области высокопроизводительных вычислений и центров обработки данных, нужен конкурент CUDA. Ещё два года назад создание такого конкурента было просто невозможно, потому что AMD боролась за свою жизнь. Но теперь, когда дела компании пошли в гору, настало время заняться программным обеспечением и составить NVIDIA ту же конкуренции, что и Intel в процессорной области.

Постоянный URL: http://servernews.ru/994071
17.06.2019 [19:51], Андрей Созинов

NVIDIA обеспечит ARM-системам поддержку ускорения вычислений с CUDA

Компания NVIDIA объявила о том, что теперь её продукты в полной мере поддерживают работу с центральными процессорами на архитектуре ARM. В первую очередь это должно позволить производителям создавать ещё более экономичные суперкомпьютеры для вычислений экзафлопсного уровня с поддержкой алгоритмов искусственного интеллекта.

Уже к концу текущего года создатели систем на базе ARM получат доступ ко всему программному обеспечению NVIDIA для искусственного интеллекта (ИИ) и высокопроизводительных вычислений (High performance computing, HPC). По словам компании, это ПО способно ускорить свыше 600 HPC-приложений и все AI-фреймворки. Сюда входят все библиотеки NVIDIA CUDA-X AI и HPC, GPU-ускоренные AI-фреймворки и инструменты программной разработки, такие, как PGI-компиляторы с поддержкой OpenACC и профилировщики.

Как известно, опыт работы с ARM у компании NVIDIA уже был. Ещё относительно недавно она активно трудилась над созданием собственных ARM-процессоров, которые сочетались бы с её собственными графическими ускорителями и использовались в мобильных устройствах, роботах и роботизированных автомобилях. Вместе с тем NVIDIA разрабатывала не только аппаратную часть, но и программную, и в итоге теперь эти наработки смогут использовать и сторонние производители.

Заметим, что уже сейчас NVIDIA обеспечила поддержку ускорения HPC и ИИ на архитектурах x86 и POWER, а после завершения процесса оптимизации к ним присоединится ARM. Получается, NVIDIA в скором времени сможет предложить ускорение вычислений для всех наиболее распространённых архитектур CPU.

«Суперкомпьютеры являются необходимым инструментом для совершения научных открытий. Переход на экзафлопсный уровень вычислений значительно расширит горизонты человеческого познания, — говорит Дженсен Хуанг (Jensen Huang), основатель и генеральный директор NVIDIA. — Масштабирование традиционных вычислений подходит к своему пределу из-за ограничений, накладываемых энергопотреблением суперкомпьютеров. Сочетание CUDA-ускоренных вычислений и энергоэффективной архитектуры ARM позволит HPC-сообществу перейти на экзафлопсный уровень».

«ARM работает со своей экосистемой, чтобы наделить платформы на базе ARM высочайшей производительностью и возможностями экзафлопсного уровня, — говорит Саймон Сигарс (Simon Segars), генеральный директор ARM. — Партнёрство с NVIDIA для обеспечения CUDA-ускорения архитектуре ARM является очень важным событием для HPC-сообщества, которое уже применяет технологии ARM для решения самых сложных в мире научных задач».

Согласно представленному сегодня обновлённому рейтингу Green500, ускорители на графических процессорах NVIDIA лежат в основе 22 из 25 самых энергоэффективных суперкомпьютеров мира. Высокой эффективности способствует то, что в данных системах тяжёлые вычислительные нагрузки выполняются на более энергоэффективных GPU с ядрами CUDA. Ещё отмечается сотрудничество NVIDIA с Mellanox по оптимизации вычислений в супервычислительных кластерах, а также использование SXM 3D-компоновки и высокоскоростного интерфейса NVIDIA NVLink, что позволяет создавать узлы с высокой плотностью и масштабируемостью. А теперь с поддержкой ARM могут появиться ещё более эффективные системы. 

Идеальным вариантом для NVIDIA было бы наличие в портфолио собственного процессора, что позволило бы создать единую платформу и экосистему без явной зависимости от других производителей. Причём такой процессор вовсе не обязан быть очень мощным. Гораздо важнее масштабируемость GPU-платформ, и покупка Mellanox вполне может оказаться первым шагом в этом направлении. 

Постоянный URL: http://servernews.ru/989326
17.09.2017 [20:00], Иван Грудцын

Сервер NVIDIA DGX-1 возглавил рейтинг производительности Geekbench

Онлайн-база Geekbench Browser время от времени пополняется результатами, в которых фигурируют опытные образцы комплектующих — процессоров, материнских плат, графических адаптеров и т. д. И вот недавно в ней обнаружились записи, в которых фигурировал обновлённый сервер NVIDIA DGX-1 для задач глубинного обучения. Найти результаты системы на базе восьми HPC-ускорителей Tesla V100 было совсем несложно, ведь расположились они на первом и втором местах в табели о рангах Geekbench 4.

В ходе тестирования использовались разные API — OpenCL и CUDA. Прогон бенчмарка Geekbench 4 с проприетарным API NVIDIA оказался значительно более успешным, чем с альтернативным интерфейсом программирования приложений. Разница между результатами составила 54,4 % — 743 537 очков против 481 504. Лучшие результаты на ускорителях Tesla P100 сегодня выглядят совсем уж скромно на фоне успехов представителей семейства NVIDIA Volta. Лучший из них едва превысил отметку в 320 тыс. очков.

Тестирование проводилось в Linux-среде (Ubuntu 16.04.2 LTS), а конфигурация сервера DGX-1, скорее всего, соответствовала базовой. По умолчанию в 3U-корпусе установлены восемь ускорителей Tesla V100 16GB HBM2 в форм-факторе SXM2 (интерфейс NVLink 2.0 с ПСП 300 Гбайт/с), дуэт 20-ядерных процессоров Intel Xeon E5-2698 v4, 512 Гбайт оперативной памяти LRDIMM DDR4-2133, четыре 1,92-Тбайт SSD-накопителя в массиве RAID 0, такое же количество блоков питания номиналом 1600 Вт каждый и множество элементов системы охлаждения.

Сравнение характеристик PCI-E и SXM2-версий Tesla V100

Сравнение характеристик PCI-E и SXM2-версий Tesla V100

Вычислительные возможности сервера NVIDIA DGX-1 образца 2017 года (ранее система базировалась на Tesla P100) наглядно иллюстрирует сравнение его результатов с показателями двух- и четырёхпроцессорных серверов, «заряженных» CPU Intel Xeon Platinum серии 8100. Шестикратное преимущество DGX-1 — веский аргумент в пользу решения NVIDIA. Напомним, что в матричных (Tensor) вычислениях производительность SXM2-версии Tesla V100 составляет 120 Тфлопс, а PCI-E версии — 112 Тфлопс. Последняя используется в рабочих станциях DGX Station «всего лишь» с четырьмя HPC-ускорителями NVIDIA и одним процессором Intel Xeon E5-2698 v4.

Поставки серверов DGX-1 на базе решений NVIDIA Volta начались более полутора месяцев назад. За одну систему заказчикам предлагается заплатить $149 000 — на 20 тыс. долларов больше, чем за аналогичный сервер на ускорителях Tesla P100.

Постоянный URL: http://servernews.ru/958629
30.05.2017 [12:39], Геннадий Детинич

NVIDIA и тайваньские ODM-производители наполнят мир ИИ-ускорителями

В ходе выступления на открытии Computex 2017 глава NVIDIA Дженсен Хуанг сделал ряд заявлений, которые призваны подчеркнуть новую роль компании в меняющемся мире. Новый мир обещает оказаться наполненным платформами и решениями с зачатками искусственного интеллекта. Десять лет назад всё началось с поглощения AMD компании ATI, что вылилось в создание гибридных решений и технологий GPGPU, которые позволили графическим ядрам выполнять неграфические расчёты. В активе NVIDIA нет собственных вычислительных скалярных ядер, но технология CUDA компании для решения задач с помощью GPGPU стала более популярной, чем аналогичная технология AMD.

www.extremetech.com

www.extremetech.com

Тема искусственного интеллекта и глубокого машинного обучения вдохнула в GPGPU-платформы новую жизнь. Графические процессоры с множеством потоковых процессоров оптимально подходят для ускорения «ИИ-расчётов» с одинарной (FP32) и половинной (FP16) точностью. Появляется возможность собрать суперкомпьютер для ИИ буквально размером с тумбочку. Это закроет нужды в подобных вычислительных ресурсах для массы небольших фирм и учебных учреждений, а для центров обработки данных открываются перспективы едва ли не безграничного масштабирования соответствующих ресурсов. Отдать клиенту ровно столько, сколько он требует — это высший пилотаж любого сервиса, и NVIDIA готова в этом помочь.

Полочный компьютер NVIDIA DGX-1 на адаптерах с графическими процессорами P100 или V100

Полочный компьютер NVIDIA DGX-1 на адаптерах с графическими процессорами P100 или V100

Год назад компания представила полочный компьютер DGX-1 на адаптерах с графическими процессорами P100 (архитектура Pascal). Неделями ранее платформа DGX-1 получила обновление в виде адаптеров с GPU V100 (архитектура Volta). Это система с восемью ускорителями в формфакторе SXM2. Между собой ускорители связаны в «кубическую» ячеистую сеть через интерфейс NVIDIA NVLink. Одна такая полка в операциях с половинной точностью обеспечивает производительность на уровне 960 Тфлопс. Помимо восьми адаптеров Tesla V100 в состав DGX-1 входит пара процессоров Intel Xeon, обеспечивая загрузку операционной системы и GPGPU-вычисления.

Эталонная платформа NVIDIA HGX

Эталонная платформа NVIDIA HGX

Для использования DGX-1 в составе стандартных стоек в ЦОД в компании разработали эталонную платформу HGX на базе жидкостного охлаждения. Аппаратные конфигурации DGX-1 и HGX ничем не отличаются. Более того, DGX-1 на GPU P100 легко могут быть замены на DGX-1 с GPU V100. Чтобы наполнить рынок систем для ЦОД критической массой ускорителей, NVIDIA запустила в понедельник 29 мая партнёрскую программу по поддержке ряда тайваньских ODM-производителей. Среди партнёров можно обнаружить как давних клиентов NVIDIA — это компании Inventec, Quanta и Wistron, так и новое имя — компанию Foxconn.

Блок-схема эталонной платформы NVIDIA HGX (NVIDIA)

Блок-схема эталонной платформы NVIDIA HGX (NVIDIA)

В рамках партнёрской программы NVIDIA обещает разработчикам ранний доступ к документации и архитектуре HGX, а также всестороннюю техническую поддержку. Для компании важно заручится интересом со стороны тайваньских производителей, иначе их фокус внимания рискует переключиться на конкурирующие продукты Google (TPU),  AMD (Vega) и Intel (Xeon Phi).

Постоянный URL: http://servernews.ru/953054
Система Orphus