Материалы по тегу: intel xe

19.08.2021 [16:00], Игорь Осколков

Intel анонсировала ускорители Xe HPC Ponte Vecchio: 100+ млрд транзисторов, микс 5/7/10-нм техпроцессов Intel и TSMC и FP32-производительность 45+ Тфлопс

Как и было обещано несколько лет назад, основным «строительным блоком» для графики и ускорителей Intel станут ядра Xe, которые можно будет гибко объединять и сочетать с другими аппаратными блоками для получения заданной производительности и функциональности. Компания уже анонсировала первые «настоящие» дискретные GPU серии Arc, а на Intel Architecture Day она поделилась подробностями о серверных ускорителях Xe HPC и Ponte Vecchio.

Основой Xe HPC является вычислительное ядро Xe Core, которое включает по восемь векторных и матричных движков для данных шириной 512 и 4096 бит соответственно. Они делят между собой L1-кеш объёмом 512 Кбайт, с которым можно общаться на скорости 512 байт/такт.

Заявленная производительность для векторного движка (бывший EU), ориентированного на «классические» вычисления, составляет 256 операций/такт для FP32 и FP64 или 512 — для FP16. Матричный движок нужен скорее для ИИ-нагрузок, поскольку работает только с данными TF32, FP16, BF16 и INT8 — 2048, 4096, 4096 и 8192 операций/такт соответственно. Данный движок работает с инструкциями XMX (Xe Matrix eXtensions), которые в чём-то схожи с AMX в Intel Xeon Sapphire Rapids.

Отдельные ядра объединяются в «слайсы» (slice) — по 16 Xe-Core в каждом, которые дополнены 16 блоков аппаратной трассировки лучей. Именно слайс является базовым функциональным блоком. Он изготавливается на TSMC по 5-нм техпроцессу в рамках инициативы Intel IDM 2.0. Слайсы объединяются в стеки — по 4 шт. в каждом.

Стек включает также базовую (Base) «подложку» (или тайл), четыре контроллерами памяти HBM2e (сама память вынесена в отдельные тайлы), общим L2-кешем объёмом 144 Мбайт, один медиа-движок с аппаратными кодеками, а также тайл Xe Link и контроллер PCIe 5. Base-тайл изготовлен по техпроцессу Intel 7 и использует EMIB для объединения всех блоков.

Тайлы Xe Link, изготавливаемые по 7-нм техпроцессу TSMC, включают 8 интерфейсов для стеков/ускорителей вкупе с 8-портовыми коммутатором и используют SerDes-блоки класса 90G. Всё это позволяет объединить до 8 стеков по схеме каждый-с-каждым, что, в целом, напоминает подход NVIDIA, хотя у последней NVSwitch всё же (пока) является внешним компонентом.

В самом ускорителе в зависимости от конфигурации стеков может быть один или два. В случае Ponte Vecchio их как раз два, и Intel приводит некоторые данные о его производительности: более 45 Тфлопс в FP32-вычислениях, более 5 Тбайт/с пропускной способности внутренней фабрики памяти и более 2 Тбайт/с — для внешних подключений. Для сравнения, у NVIDIA A100 заявленная FP32-производительность равняется 19,5 Тфлопс, а AMD Instinct MI100 — 23,1 Тфлопс.

Также Intel показала результаты бенчмарка ResNet-50 в обучении и инференсе: 3400 и 43000 изображений в секунду соответственно. Эти результаты являются предварительными, поскольку получены не на финальной версии «кремния». Но надо учитывать, что Ponte Vecchio есть ещё одно преимущество — отдельный Rambo-тайл с дополнительным сверхбыстрым кешем, который, вероятно, можно рассматривать в качестве L3-кеша.

В целом, Ponte Vecchio — это один из самых сложны чипов на сегодняшний день. Он объединяет с помощью EMIB и Foveros 47 тайлов, изготовленных по пяти разным техпроцессам, а общий транзисторный бюджет превышает 100 млрд. Данные ускорители будут доступны в форм-факторе OAM и виде готовых плат с четырьмя ускорителями на борту (на ум опять же приходит NVIDIA HGX). И именно такие платы в паре с двумя процессорами Sapphire Rapids войдут в состав узлов суперкомпьютера Aurora. Ещё одной машиной, использующей связку новых CPU и ускорителей Intel станет SuperMUC-NG (Phase 2).

Официальный выход Ponte Vecchio запланирован на 2022 год, но и выход следующих поколений ускорителей AMD и NVIDIA, с которыми и надо будет сравнивать новинки, тоже не за горами. Пока что Intel занята не менее важным делом — развитием программной экосистемы, основой которой станет oneAPI, набор универсальных инструментов разработки приложений для гетерогенных (CPU, GPU, IPU, FPGA и т.д.) приложений, который совместим с оборудованием AMD и NVIDIA.

Постоянный URL: http://servernews.ru/1047111
28.06.2021 [19:00], Алексей Степин

Intel на ISC 2021: от Xeon Ice Lake-SP и Sapphire Rapids до Ponte Vecchio и DAOS

Партнёрский материал

В рамках суперкомпьютерной выставки-конференции компания ISC 2021 Intel рассказала о своих последних решениях в области высокопроизводительных вычислений (HPC), а также коротко упомянула о будущих продуктах. Сочетание новых процессорных платформ Xeon Scalable, ускорителей Ponte Vecchio на базе Intel Xe и сетевых адаптеров Ethernet 800/810 Series должно обеспечить компании уверенную позицию в мире HPC.

В последние пару лет в секторе HPC появились решения на базе 64-ядерных EPYC, а затем и разработки на базе архитектуры ARM, показавшие высокие удельную производительность и энергоэффективность. В то же время платформа Intel® Xeon® хоть и была в ряде отношений прогрессивной — достаточно вспомнить уникальную поддержку памяти Optane™ и инструкций AVX-512, — однако количество ядер на процессор до уровня конкурентов нарастить не удавалось, а гибридная платформа Xeon 9200 популярности не снискала по ряду причин.

Но сейчас ситуация начинает меняться в пользу Intel. Хотя третье поколение Xeon Scalable (Ice Lake-SP) и задержалось, но получилось достаточно интересным: у новых процессоров появилась поддержка действительно серьёзных по объёму защищённых вычислительных анклавов, шины PCIe 4.0, дальнейшее развитие AVX-512 и VNNI, восьмиканальный контроллер памяти DDR4-3200, а максимальное количество ядер при этом выросло с 28 до 40, что уже хоть как-то сопоставимо с EPYС второго и третьего поколений.

Несмотря на некоторое отставание по «сырому» количеству ядер, процессоры Xeon Scalable третьего поколения, согласно данным Intel, хорошо показывают себя в ряде HPC-приложений благодаря усовершенствованной микроархитектуре и поддержке расширений и VNNI. Как сообщила Intel, процессор Xeon Platinum 8358 (10 нм, 32C/64T, 2,6 ‒ 3,4 ГГц, 48 Мбайт кеша, 250 Ватт TDP) серьёзно опережает AMD EPYC 7543 (7 нм, 32С/64T, 2,8 ‒ 3,7 ГГц, 256 Мбайт кеша, 225 Ватт TDP) именно в сфере HPC: в тестах NAMD преимущество составило 62%, пакеты LAMMPS и RELION показали превосходство на 57% и 68%, соответственно, а в тесте Binominal Options выигрыш составил 37%.

Кроме того, симуляции с использованием метода Монте-Карло, часто использующегося в финансовых приложениях, работают на Xeon Scalable третьего поколения более чем вдвое быстрее. Отлично выступил и Xeon Platinum 8380 (10 нм, 40C/80T, 2,3 ‒ 3,4 ГГц, 60 Мбайт кеша, 270 Ватт TDP): в 20 наиболее популярных ИИ-тестах он опередил EPYC 7763 (7 нм, 64С/128T, 2,45 ‒ 3,5 ГГц, 256 Мбайт кеша, 280 Ватт TDP) на 50%. Этот пример хорошо доказывает тот факт, что количество ядер и «сырая» вычислительная мощность не гарантируют победы, а наличие аппаратных и программных оптимизаций может быть решающим в ряде задач.

Вычислительные нагрузки в области моделирования и симуляции, такие, как моделирование поведения жидкостей или квантовая хромодинамика, задачи машинного обучения, базы данных класса in-memory весьма зависят от производительности подсистем памяти. И здесь Intel тоже есть, что сказать. Ранее опробовав технологию встроенной высокоскоростной памяти на платформе Xeon Phi™ 7200 (до 16 Гбайт 3D MCDRAM), компания собирается вернуться к этой идее на новом уровне: процессоры под кодовым названием Sapphire Rapids получат не только поддержку DDR5, но и набортную HBM2 (до 64 Гбайт).

В сочетании с поддержкой PCI Express 5.0 и новых инструкций ускорения матричных вычислений (Advanced Matrix Extensions) это делает Xeon (Sapphire Rapids) весьма привлекательной платформой именно для сегмента HPC. И будущей новинкой уже заинтересовались крупные заказчики: эти процессоры планируется использовать в суперкомпьютерах Aurora, Crossroads и SuperMUC-NG. Представители этих и ряда других научно-исследовательских организаций настроены весьма оптимистично в отношении платформы Sapphire Rapids.

В ряде машин компанию им составит ускорители Intel Xe Ponte Vecchio, который уже проходит процесс валидации в составе новых систем. Напомним, каждый узел вышеупомянутого суперкомпьютера Aurora должен получить по два процессора Sapphire Rapids и по шесть ускорителей Ponte Vecchio. Появление нового игрока на рынке откроет дополнительные возможности для производителей систем в HPC-сегменте.

Сами ускорители Ponte Vecchio уникальны: чиплет являет собой довольно замысловатую многокомпонентную структуру, состоящую из 47 элементов и соединённую воедино с помощью технологий Foveros 3D и EMIB. Неудивительно, ведь общее число транзисторов у этого монстра превышает 100 млрд, что позволяет Intel рассчитывать на уровень производительности более 1 Пфлопс. Доступен этот ускоритель будет в формате OCP Accelerator Module (OAM). Известно также, что он получит жидкостное охлаждение.

Наконец, третий важный компонент любой HPC-платформы: хранилище данных. В этой области Intel делает ставку на открытые решения, и на ISC 2021 компания представила коммерческий вариант объектного распределённого хранилища DAOS (Distributed Application Object Storage). Платформа DAOS является программно-определяемой, но это не указание на её невысокую производительность. Напротив, она изначально создавалась с прицелом на масштабируемость и высочайший уровень производительности именно с крупными объёмами данных.

В системах DAOS Intel использует только твердотельную память, отказавшись от гибридных схем с использованием традиционных механических накопителей и SSD, причём, поддерживается и Optane в обеих инкарнациях: как накопители, так и PMem-модули. Intel сделала DAOS доступной в качестве решения уровня L3 для своих партнёров. В их число входят такие гиганты, как HPE, Lenovo, Supermicro, Brightskies, Croit, Nettrix, Quanta, а также российская РСК, которая поддержала инициативу DAOS ещё в конце прошлого года.

Наконец, ещё один важный компонент HPC-систем — интерконнект. Intel, напомним, отказалась от Omni-Path, сосредоточившись на Ethernet. А на ISC 2021 компания объявила о платформе High Performance Networking (HPN), которая включает 100/200GbE-адаптеры серии E800/E810, коммутаторы c контроллерами Tofino™ и ПО Intel Ethernet Fabric. Этого достаточно для построения малых кластеров, причём, как обещает компания, производительность будет на уровне InfiniBand-решений, а стоимость будет ниже, чем у них.

В целом Intel придерживается целостного подхода. Если при построении HPC-системы на базе решений других производителей всё равно придётся воспользоваться аппаратными или программными составляющими «со стороны», то Intel готова предложить всё в комплексе, от процессоров и вычислительных ускорителей до сетевых адаптеров, коммутаторов и программного обеспечения. В рамках развития Intel модели oneAPI особенный интерес представляет последний пункт.

Постоянный URL: http://servernews.ru/1042961
15.06.2021 [17:19], Сергей Карасёв

Ускорители Intel Xe Ponte Vecchio в форм-факторе OAM будут использовать СЖО

В распоряжении интернет-источников оказалась новая порция информации об ускорителях Intel Ponte Vecchio, предназначенных для использования в системах высокопроизводительных вычислений (HPC). В частности, раскрыты подробности о системе охлаждения этих акселераторов.

Как мы уже сообщали, процессор Ponte Vecchio имеет «черепичный» дизайн с 47 элементами, а общее количество транзисторов превышает 100 млрд. Предусмотрено применение 3D-компоновки Foveros и соединений EMIB. Конструкцией Ponte Vecchio предусмотрено объединение кристаллов, изготавливающихся по 7-нм и 10-нм технологиям Intel Enhanced SuperFin (ESF), а также по 7-нм (или 5-нм) технологии TSMC.

Igor's Lab

Igor's Lab

Ускорители будут выполнены в форм-факторе Open Accelerator Module (OAM), о характеристиках которого можно узнать в нашем материале. Из-за особенностей архитектуры Ponte Vecchio будет иметь TDP в районе 600 Вт или более — спецификациями OAM предусмотрено энергопотребление до 700 Вт. Поэтому ускорители будут комплектоваться системой жидкостного охлаждения (СЖО).

Igor's Lab

Igor's Lab

На появившихся в интернете изображениях показана структура Ponte Vecchio вместе с кулером. Добавим, что ускорители Ponte Vecchio обеспечат производительность свыше одного петафлопса. Система жидкостного охлаждения позволит им стабильно работать при постоянных нагрузках. Впрочем, использование СЖО в HPC-системах уже давно стало нормой.

Постоянный URL: http://servernews.ru/1042052
06.05.2021 [18:22], Андрей Галадей

Суперкомпьютер SuperMUC-NG получит процессоры Intel Xeon Sapphire Rapids и ускорители Intel Xe Ponte Vecchio

Специалисты суперкомпьютерного центра им. Лейбница (LRZ) в Мюнхене (Германия) сообщили, что улучшат свою систему SuperMUC-NG для расширения возможностей искусственного интеллекта суперкомпьютера в рамках партнёрства с Intel и Lenovo. Сейчас данная система имеет производительность 19,5 Пфлопс и занимает 15 место в списке TOP500.

В настоящее время суперкомпьютер SuperMUC-NG включает в себя 6 336 «тонких» узлов на базе серверов Lenovo ThinkSysten SD650 с прямым жидкостным охлаждением, каждый с двумя 24-ядерными процессорами Intel Xeon Platinum 8174 (Skylake-SP) и 96 Гбайт памяти, 144 «толстых» узла c теми же процессорами и 768 Гбайт памяти, а также хранилище суммарной ёмкостью 70 Пбайт. Облачный сегмент SuperMUC-NG включает 82 40-ядерных узла с 192 Гбайт RAM, ещё 32 таких же узла, но с двумя ускорителями NVIDIA Tesla V100 и 768 Гбайт RAM, а также один «суперузел»: 192 ядра и 6 Тбайт RAM.

В рамках второго этапа развития SuperMUC-NG получит новые узлы Lenovo ThinkSystem SD650-I v3 на базе грядущих процессоров Intel Xeon Sapphire Rapids и ускорителей Intel Xe HPC (Ponte Vecchio), тоже с прямым жидкостным охлаждением «горячей» водой. А новое хранилище на базе Intel DAOS будет использовать узлы с Intel Xeon Ice Lake-SP, Intel Optane PMem 200 и Optane SSD. Основой для программной платформы станет oneAPI. Новая система будет использовать как для классических HPC-задач, так и для ИИ.

«Мы очень рады, что LRZ выбрала партнерство с Intel для вывода на рынок их системы SuperMUC на основе продуктового портфеля Intel XPU, передовых технологий упаковки и памяти, а также унифицированного программного стека oneAPI для обеспечения следующего поколения высокопроизводительных вычислений», — заявил Раджа Кодури (Raja Koduri), старший вице-президент, главный архитектор и генеральный менеджер по архитектуре, графике и программному обеспечению Intel.

Отметим, что обновлённый SuperMUC-NG — это вторая после Aurora система, которая будет одновременно использовать ускорители Ponte Vecchio и процессоры Sapphire Rapids. Запус первой, экзафлопсного суперкомпьютера Aurora в Аргоннской национальной лаборатории, ранее пришлось отложить из-за проблем Intel в освоении 7-нм техпроцесса.

Постоянный URL: http://servernews.ru/1039008
24.03.2021 [16:08], Сергей Карасёв

Ускоритель Intel Xe Ponte Vecchio получит более 100 млрд транзисторов

Исполнительный директор Intel Пэт Гелсингер (Pat Gelsinger) в рамках мероприятия «Intel Unleashed: Engineering the Future» рассказал о реализации проекта по разработке ускорителя Ponte Vecchio, предназначенного для применения в системах высокопроизводительных вычислений (HPC).

Отмечается, что немногим более чем за два года существования проекта специалистам Intel удалось добиться выдающихся результатов. В частности, уже создан опытный рабочий образец процессора. Господин Гелсингер в ходе выступления показал такое изделие. Процессор имеет «черепичный» дизайн с 47 элементами, что прекрасно видно на опубликованных изображениях.

При производстве используются как 3D-компоновка Foveros, так и соединения EMIB. Общее количество используемых транзисторов превышает 100 млрд. Сообщается также, что решение обеспечивает производительность свыше одного петафлопса. Но не уточняется, о какой точности идёт речь.

Для сравнения: у AMD MI100 пиковая FP64-производительность составляет 11,5 Тфлопс (и в два раза больше для FP32), а у NVIDIA A100 — 9,7 Тфлопс для FP64 и 19,5 Тфлопс для FP32. Для других форматов (bfloat16, FP16, INT4 или INT8) эти значения в разы больше у обоих ускорителей.

Графические процессоры Ponte Vecchio будут применяться в тандеме с процессорами Xeon с кодовым названием Sapphire Rapids. Решения Ponte Vecchio, в частности, войдут в состав суперкомпьютера Aurora для Аргоннской национальной лаборатории Министерства энергетики США. Завершить создание этой системы планируется к концу текущего года.

Постоянный URL: http://servernews.ru/1035655
03.12.2020 [13:49], Андрей Галадей

Выход Intel Xe HP не за горами: компания готовит Linux-драйверы Gen12HP

Некоторое время назад компания Intel анонсировала графический процессор Xe HP, предназначенный для конкуренции с игровыми и профессиональными ускорителями AMD и NVIDIA. В готовых решениях он появится только в 2021 году, но подготовка к этому идёт уже сейчас.

Сообщается, что компания готовится к развертыванию поддержки драйверов Linux с открытым исходным кодом под эти ускорители. Они предназначены не только для версии Gen12 (используется в Tiger Lake, Rocket Lake — Xe LP), но и для Gen12.5 или Gen12HP. Как ожидается, готовые драйверы появятся до конца января в составе Mesa 20.1. Они, скорее всего, будут поддерживать OpenGL/Vulkan и другие современных графически технологии. Всего в новом пакете добавлено более семи тысяч строк нового кода, а также различные изменения в драйверах Iris Gallium3D и ANV Vulkan.

На данный момент компания пока не особо распространяется на тему обновлений так что остаётся ждать новых данных. Напомним, что ранее в Geekbench протестировали видеокарту Intel Xe-HP NEO с 512 вычислительными блоками. Результаты пока не слишком впечатляют. Быть может, у финальной версии Xe HP с оптимизированными драйверами они будут лучше. Пока что в серверном сегменте доступен лишь ускоритель на базе четырёх GPU Intel Xe LP, который ориентирован на облачный гейминг.

Постоянный URL: http://servernews.ru/1026909
11.11.2020 [17:01], Игорь Осколков

H3C XG310, первый серверный GPU Intel, предназначен для облачного гейминга

Intel анонсировала дискретный графический ускоритель, ориентированный на серверное применение. Первая модель H3C XG310 выпущена в партнёрстве с китайским производителем и ориентирована на рынок облачных игр для Android. Среди первых партнёров, использующих новинку, значатся Gamestream, Tencent Games и Ubitus.

H3C XG310 включает сразу четыре GPU-чипа на базе архитектуры Xe-LP, ближайшего родственника дискретной графики Iris Xe Max, и 8 Гбайт памяти LPDDR4. Судя по всему, это и есть SG1, о котором стало известно в конце лета. Чуть укороченная однослотовая карта XG310 имеет полную высоту и интерфейс PCIe 3.0 x16, которые делится между отдельными GPU посредством набортного PCIe-коммутатора.

Две таких карты, как утверждается, способны обслуживать до 160 игроков одновременно (в зависимости от типа игры), с собственно рендерингом картинки и её кодированием на лету. Например, Tencent говорит о том, что им удаётся поддерживать 100 сессий в популярных играх King of Glory и Arena of Valor на сервере с двумя картами. А типовая конфигурация сервера может включать до четырёх ускорителей. Стоит отметить, что в данном случае приоритет отдан не столько качеству графики, сколько низкому уровню задержки.

Кроме того, новые ускорители можно использовать и просто для (де-)кодирования видеопотоков. Поддерживаются стандарты AVC, HEVC, MPEG2, VP9 и AV1. Программная составляющая включает Intel Media SDK, который вскоре вольётся в oneAPI VPL (Video Processing Library), а также готовые плагин для FFmpeg. Для 3D-графики предлагается использовать открытую библиотеку Mesa. Также Intel анонсировала новый проект Flipfast — стек, ориентированный на игры в среде Linux, который позволяет запускать в виртуальной машине графические приложения практически без потери производительности при работе с GPU.

В целом, Intel активно занимается развитием поддержки Linux, что пригодится в будущем при запуске «полноценных» GPU-ускорителей более высокого класса. В частности, компания переработала драйверы, унифицировав большую часть кода для Linux и Windows и подтянув производительность. Также Intel разрабатывает готовые наборы ПО для RHEL, SuSE и Ubuntu. Во многом новый программный стек опирается на oneAPI.

Постоянный URL: http://servernews.ru/1025140
21.08.2020 [20:34], Алексей Степин

Intel Xe готовит ускорители SG1 для обработки потокового видео силами четырёх GPU DG1

Популярность различных служб потокового видео чрезвычайно высока, и это означает, что со стороны серверов и ЦОД востребованность решений, способных в реальном времени транскодировать множество видеопотоков, так же высока. В портфолио Intel уже много лет есть серия особых ускорителей под общим названием Visual Compute Accelerator. До недавнего времени в них использовались процессоры Xeon со встроенной графикой Iris Pro, но с появлением Intel Xe VCA может получить новое дыхание.

Так был устроен Intel VCA2

Так был устроен Intel VCA2

Ускорители из серии VCA действительно уникальные решения: в стандартный двухслотовый конструктив платы расширения PCIe Intel умещала три процессора общего назначения Xeon E3-1200 v4, каждый с собственным модулем eDRAM объёмом 128 Мбайт и массивом DRAM объёмом 32 Гбайт. Такой ускоритель мог обрабатывать 14 потоков в формате 4K при 30 кадрах в секунду или 44 потока в более низком разрешении 1080p. Но не столь давно платы Intel VCA2 получили статус EOL — их жизненный цикл закончен.

Для коммутации VCA2 использвовала два чипа PEX. В SG1 придётся коммутировать PCIe для четырёх чипов

Для коммутации VCA2 использвовала два чипа PEX. В SG1 придётся коммутировать PCIe для четырёх чипов

Прямой замены VCA2 сейчас нет; по всей видимости, такая архитектура не оправдала себя в должной степени. Но, как известно, компания готовится выложить на стол новый козырь в виде графических процессоров Xe. Помимо монструозных Xe-HP, предназначенных для вычислительных задач, «синие» готовят и интегрированную Xe-LP, которая должна дебютировать в новых мобильных процессорах Tiger Lake уже 2 сентября.

Архитектура Xe-LP имеет и дискретный вариант: Discrete Graphics 1 (DG1). Прототип такой платы довольно компактен, он сопоставим по габаритам с графическими картами начального уровня AMD и NVIDIA. Судя по отсутствию дополнительных разъёмов питания, он должен укладываться в 75-ваттный пакет энергопотребления. Похоже, гипотетический ускоритель VCA3 будет называться SG1, поскольку Intel упомянула, что SG1 как раз и нацелен на применение в области ускорения обработки видео и потокового вещания. Это хорошо согласуется с «отставкой» VCA2 — ускорители на базе архитектуры Xe явно производительнее и процессорной части, и Iris Pro, тем более что отдельно последняя не выпускается.

Представитель Intel подтвердил Anandtech, что SG1 будет иметь четыре чипа DG1 на одной плате. Как и VCA2, гипотетический пока ещё VCA3/SG1 должен получить сетевую часть. Какой объём памяти будет сопровождать DG1 в этих платах, пока неизвестно, как и то, каким образом будут распределяться линии PCI Express. Уверенно можно сказать только то, что новый процессор сможет транскодировать видео в форматах AVC, HEVC, MPEG2 и VP9, а также декодировать формат AV1.

Постоянный URL: http://servernews.ru/1018823
27.07.2020 [18:43], Илья Коваль

Экзафлопс на перепутье: задержка Intel в освоении новых техпроцессов может повлиять на сроки запуска суперкомпьютера Aurora

Основной темой обсуждений в СМИ пятничного доклада Intel о состоянии дел во втором квартале стало признание проблем с освоением техпроцесса 7 нм и связанные с этим задержки выхода продуктов на его основе, которые могут составить от 6 до 12 месяцев. И одним из таких продуктов является ускоритель Ponte Vecchio, который должен стать ключевым компонентом суперкомпьютера Aurora.

Впрочем, у данной машины, создаваемой для Аргоннской национальной лаборатории (Argonne National Laboratory), непростая судьба. Изначально анонс суперкомпьютера Aurora состоялся в 2015 году. Прежний проект предполагал построением силами Intel и Cray машины производительностью 180 Пфлопс, которая должна была заработать в 2018 году. Основной для ней должны были стать 10-нм чипы Xeon Phi семейства Knights Hill (KNH), выход которых был запланирован на всё тот же 2018 год. Как мы теперь знаем, ни своевременного освоения 10 нм, ни ускорителей KNH компания сделать не смогла. Более того, в конце концов развитие Xeon Phi было остановлено, а финальные партии последнего поколения Knights Mill будут отгружены в конце июля. Та же судьба постигла анонсированный вместе с KNH интерконнект Omni-Path (OPA).

В конце 2017 года произошло сразу три важных для Aurora события. Во-первых, проект суперкомпьютера был полностью переработан — запуск был перенесён на 2021 год, а запланированная производительность поднялась до отметки в 1 Эфлопс. По задумке, Aurora должна была стать самым лучшим и производительным суперкомпьютером в США, а то и в мире. Вместо Xeon Phi, и это во-вторых, для него было запланировано использование ускорителей нового поколения, которые теперь известные как Intel Xe Ponte Vecchio. В-третьих, в Intel перешёл Раджа Кодури (Raja Koduri), который возглавил группу разработки дискретных GPU.

Старая презентация Aurora

Старая презентация Aurora

Очевидным выходом из сложившейся ситуации является обращение к сторонним фабрикам, которые уже освоили необходимые норма. В первую очередь речь идёт, конечно, о TSMC, которая обслуживает конкурирующие AMD и NVIDIA. Сообщается, что Intel разместила на TSMC заказ на 180 тыс. 6-нм (но не 5-нм, как ожидалось) пластин. Ранее Intel использовала TSMC в основном для производства относительно простых и недорогих чипсетов и SoC, а также FPGA. Для сравнения — объём заказов AMD составляет 200 тыс. пластин. Какие именно продукты и компоненты будут производиться на стороне, точно не говорится, хотя в ходе квартального доклада Intel упоминала о разнородных кристаллах в Ponte Vecchio, часть из которых действительно можно было бы отдать стороннему подрядчику.

Архитектура Ponte Vecchio действительно является модульной и предполагает подбор необходимых вычислительных блоков в зависимости от задачи и предназначения устройства. При этом до конца не ясно, предполагается ли многочиповая компоновка для таких блоков или же нет. В прошлогодней презентации Intel Xe HPC, которые и будут установлены в Aurora, явно говорилось только о подключении HBM2-памяти посредством EMIB, а также об упаковке Foveros для формирования Rambo Cache, кеша общей шины XE Memory Fabric, объединяющей CPU, GPU и память.

В комментарии изданию insideHPC аналитик Hyperion Research Стив Конвей (Steve Conway) отмечает, что «запуск Aurora может быть перенесён на конец 2021 года или на самое начало 2022. Это не слишком большая задержка, но всё-таки задержка. <…> Проблемы с техпроцессом касаются не только GPU, но и вообще всех 7-нм компонентов». Конвей говорит, что Intel, по-видимому, будет отдавать часть производства на аутсорс, но только в начальный период времени. Нельзя не отметить, что серверный сегмент важен для Intel.

Новая Aurora

Новая Aurora

В любом случае, эта ситуация может положительно сказаться на AMD. По словам аналитика, нынешние 7-нм AMD EPYC хороши с точки зрения пропускной способности памяти, а цена на эти процессоры зачастую меньше. Комбинация этих двух факторов способствует росту. Сейчас на базе решений AMD (CPU + GPU) разрабатываются два суперкомпьютера: El Capitan с производительностью более 2 Эфлопс, ввод в строй которого намечен на 2023 год, и Frontier мощностью 1,5 Эфплос, который должен быть запущен в следующем году. Как и в случае Aurora, подрядчиком в обоих проектах выступает Cray (теперь уже HPE).

Постоянный URL: http://servernews.ru/1016740
18.11.2019 [07:02], Игорь Осколков

SC19: подробности об архитектуре ускорителей Intel Xe HPC

Как и было обещано ранее, архитектура Xe (Exascale for everyone) будет универсальной, и на её основе можно будет создавать GPU любого уровня. Правда, речь, как оказалось, шла всё-таки больше о программной совместимости на уровне драйверов и интерфейсов для сохранения наследия, оставшегося от интегрированной графики. Ведь пользователей таких GPU миллионы и миллионы. 

А вот микроархитектур для разных задач будет несколько, и их соотношение в готовых продуктах тоже будет разным.

Ускоритель Intel X<sup>e</sup> HPC

Ускоритель Intel Xe HPC

Для ультрабуков и мобильных устройств всё так же останется интегрированная видеокарта класса Xe LP (Low Power) с упором на энергоэффективность. В картах среднего уровня Intel сделает акцент на графическую составляющую. Решения класса Xe HP для дата-центров уже не имеют существенных ограничений по питанию, поэтому получат более мощные вычислительные блоки.

Наконец, карты Xe HPC под кодовым названием Ponte Vecchio, которые и были представлены сегодня, получат тысячи исполнительных блоков и будут самыми мощными во всей серии. Ускорители Xe будут сочетать подходы SIMT и SIMD, характерные для GPU и CPU соответственно, и использовать векторные инструкции переменной длины. Предварительные тесты показывают, что такое сочетание может дать прирост в 1,5–2,5 раза на некоторых классах задач. Для упрощения разработки и портирования кода предлагается воспользоваться oneAPI, который также был анонсирован в рамках доклада Intel.

Кроме того, новые ускорители обещают эффективную работу и с разными типами данных. Для форматов INT8, Bfloat16 и FP32 будет отдельный движок Matrix Engine для параллельной обработки матриц. Вероятно, это аналог TensorCore. Проще говоря, всё это нужно для ИИ, машинного обучения и так далее. Но и классические для HPC вычисления двойной точности тоже не забыты. Обещано ускорение таких операций до 40 раз на каждый исполнительный блок.

Масштабирование касается не только типов вычислительных блоков и их числа, но и доступа к памяти, который в Xe тоже кардинально переделали. Сами блоки Xe и HBM2-память связаны посредством отдельной фабрики XEMF (XE Memory Fabric) с поддержкой когерентности. К ней же подключаются и CPU, и GPU, и другие ускорители. XEMF оснащена особым, сверхбыстрым и ёмким кешем Rambo Cache. Такой подход призван устранить дисбаланс, характерный для ряда современных ускорителей, которые могут попросту не получать вовремя данные для обработки.

Конкретный размер Rambo Cache пока не уточняется, но говорится, что его объёма хватит для наиболее крупных блоков данных, которые сейчас используются при вычислениях. Rambo Cache будет упакован с помощью Foveros, а для подключения HBM-памяти будет использоваться EMIB. Техпроцесс, как уже было сказано много-много раз, будет 7-нм.

Кроме того, ускорители Xe HPC получат те же технологии обеспечения надёжности и стабильности работы, что используются в Intel Xeon. Итого: к 2021 году за счёт аппаратных и программных инноваций компания обещает в 500 раз повысить производительность вычислительных узлов на базе технологий Intel.

Постоянный URL: http://servernews.ru/997874
Система Orphus