Материалы по тегу: mcm

14.01.2022 [22:48], Алексей Степин

Будущие ускорители NVIDIA могут получить MCM-компоновку с ИИ/HPC-движками и гигабайтными кешами

Монолитная компоновка для современных сложных чипов уже становится слишком неэффективной. Бороться с этим можно по-разному. Один из путей подразумевает интеграцию всё более сложных структур на уровне единой кремниевой подложки, а другой — использование мультичиповой (MCM) или, иначе говоря, чиплетной компоновки. К последнему варианту и склоняется NVIDIA, хотя причины несколько отличаются от тех, которыми руководствуются другие вендоры.

GPU и ускорители становятся сложнее гораздо быстрее CPU, и на текущий момент мощные вычислители для ЦОД подбираются к пределам возможностей основных контрактных производителей, таких как TSMC и Samsung. Но это только половина уравнения. Вторая заключается в том, что взрывная популярность систем и алгоритмов машинного интеллекта требует иных вычислительных возможностей, нежели более привычные HPC-задачи.

Дивергенция GPU: вычислительный (сверху) и машинного обучения. (Изображения: NVIDIA)

Дивергенция GPU: вычислительный (сверху) и машинного обучения. (Изображения: NVIDIA)

Как следствие, разработчикам приходится делать выбор, чему в большей мере отдать предпочтение в компоновке новых поколений ускорителей: FP32/64-движкам или блокам, оптимизированным для вычислений INT8, FP16 и прочих специфических форматов. И здесь использование MCM позволит скомпоновать конечный продукт более гибко и с учётом будущей сферы его применения.

Различиые варианты конфигурации в рамках NVIDIA COPA

Различиые варианты конфигурации в рамках NVIDIA COPA

Ещё в публикации NVIDIA от 2017 года было доказано, что компоновка с четырьмя чиплетами будет на 45,5% быстрее самого сложного на тот момент ускорителя. А в 2018-м компания рассказала о прототипе RC 18. В настоящее время известно, что технология, разрабатываемая NVIDIA, носит название Composable On Package GPU, но в отличие от прошлых исследований упор сделан на обкатке концепции различных составных ускорителей для сфер HPC и машинного обучения.

Симуляция гипотетического ускорителя GPU-N, созданного на основе 5-нм варианта дизайна GA100, показывает довольно скромные результаты в режиме FP64 (12 Тфлопс, ½ от FP32), но четыре таких чиплета дадут уже солидные 48 Тфлопс, сопоставимые с Intel Ponte Vecchio (45 Тфлопс) и AMD Aldebaran (47,9 Тфлопс). А вот упор на FP16 делает даже один чип опаснейшим соперником для Graphcore, Groq и Google TPU — 779 Тфлопс!

Варианты упаковки будущих МСМ-процессоров NVIDIA

Варианты упаковки будущих МСМ-процессоров NVIDIA

Но симуляции показывают также нехватку ПСП именно на ИИ-задачах, так что компания изучает возможность иной иерархии памяти, с 1-2 Гбайт L2-кеша в виде отдельных чиплетов в различных конфигурациях. Некоторые варианты предусматривают даже отдельный ёмкий кеш L3. Таким образом, будущие ускорители с чиплетной компоновкой обретут разные черты для HPC и ИИ.

В первом случае предпочтение будет отдано максимальной вычислительной производительности, а подсистема памяти останется классической. Как показывает симуляция, даже урезанная на 25% ПСП снижает производительность всего на 4%. Во втором же варианте, для ИИ-систем, упор будет сделан на чипы сверхъёмкого скоростного кеша и максимизацию совокупной пропускной способности памяти. Такая компоновка окажется дешевле, нежели применение двух одинаковых ускорителей.

Подробнее с исследованием NVIDIA можно ознакомиться в ACM Digital Library, но уже сейчас ясно, что в обозримом будущем конвергенция ускорителей перейдёт в дивергенцию, и каждая эволюционная ветвь, благодаря MCM, окажется эффективнее в своей задаче, нежели полностью унифицированный чип.

Постоянный URL: http://servernews.ru/1058052
09.04.2019 [11:35], Андрей Созинов

NVIDIA RC 18: прототип процессора для глубокого обучения из 36 отдельных кристаллов

Компания NVIDIA работает над созданием нового решения, предназначенного для работы с искусственным интеллектом, которое называется RC 18. Ключевой особенностью данного чипа является то, что он будет представлять собой «склейку» из нескольких кристаллов, то есть станет мультичиповым решением.

Инженеры NVIDIA Research создали прототип процессора, который состоит сразу из 36 модулей. Несмотря на столь большое количество кристаллов, площадь чипа довольно небольшая. Всё дело в том, что кристаллы весьма компактные, хоть и производятся по не самому «тонкому» 16-нм техпроцессу компанией TSMC. Напомним, что по таким же нормам производятся графические процессоры Pascal.

Каждый из 36 модулей состоит из 16 процессорных элементов (Processing Elements, PE), являющихся базовыми процессорными ядрами с архитектурой RISC-V Rocket. Кроме того, у модуля есть буфер памяти и восемь каналов GRS (Ground-Referenced Signaling) для операций ввода/вывода с общей пропускной способностью в 100 Гбайт/с, что весьма немало.

На данный момент RC 18 является скорее экспериментальной разработкой, нежели прототипом некоего готовящегося продукта. Этот многочиповый модуль (Multi-chip module, MCM) предназначен для ускорения глубокого обучения искусственного интеллекта и его главной особенностью является высокий уровень масштабируемости. То есть изменять производительность такого MCM-модуля куда проще, чем чипа с монолитным кристаллом, ведь можно просто добавлять или убирать кристаллы с процессорными элементами.

Чип RC 18 создан для ускорения процесса глубокого обучения, что само по себе не очень интересно для рядовых пользователей. Тем не менее, многие из технологий, которые делают возможным создание и работу данного многочипового модуля, могут найти применение в будущих графических процессорах NVIDIA. Компания ранее уже заявляла о том, что рассматривает варианты создания GPU из нескольких кристаллов. И RC 18 является одним из шагов на пути к этому.

«Этот чип (RC 18 — прим. ред.) обладает таким преимуществом, как способность продемонстрировать сразу множество технологий, — отмечает Билл Дэлли (Bill Dally), глава NVIDIA Research. — Одной из технологий является масштабируемая архитектура для глубокого обучения. Другой является очень эффективная технология интерконнекта на органической основе».

Некоторые из технологий, применённых в RC 18, однажды могут стать ключевыми при создании больших высокопроизводительных графических процессоров из нескольких кристаллов. Например, это может быть ячеистая топология, передача сигналов с малой задержкой с помощью GRS, объектно-ориентированный высокоуровневый синтез (Object-Oriented High-Level Synthesis, OOHLS) и технология GALS (Globally Asynchronous Locally Synchronous).

Заметим, что NVIDIA является не первой компанией, которая планирует создание графического процессора из нескольких кристаллов. Некоторое время назад компания AMD также говорила о том, что её шина Infinity Fabric, используемая в центральных процессорах, может найти применение в области GPU. Однако создание таких графических процессоров сопряжено с рядом трудностей, одна из которых заключается в том, чтобы заставить программное обеспечение воспринимать «склейку» как единый GPU. Иначе получится связка SLI или CrossFire, что для потребительских видеокарт означает не самую высокую эффективность. Но когда-то многочиповые модули могут стать вполне обычным явлением для настольных видеокарт.

Постоянный URL: http://servernews.ru/985537
25.08.2017 [13:59], Иван Грудцын

AMD: многочиповость EPYC экономит 41 % средств

Процессоры AMD с 14-нм архитектурой Zen пока радуют невысокими ценами на фоне конкурирующих решений Intel. Может показаться, что при определении стоимости CPU чипмейкер из Саннивейла прежде всего руководствуется необходимостью во что бы то ни стало отобрать у Intel как можно бóльшую долю рынка. Однако демпинг — не лучшая стратегия для компании, задолжавшей кредиторам порядка $2 млрд. Одним из ключевых факторов ценовой доступности старших процессоров Advanced Micro Devices является их низкая себестоимость, которая, в свою очередь, достигается за счёт модульной (MCM) конструкции. В ходе недавней конференции Hot Chips в г. Купертино (штат Калифорния, США) представителями AMD была озвучена величина экономии на разработку и производство модульных 32-ядерных CPU по сравнению с гипотетическими монолитными процессорами с тем же количеством ядер. Согласно AMD, окончательный вариант дизайна EPYC на 41 % дешевле проектирования и выпуска однокристального решения.

Как подчёркивается на вышеприведённом изображении, однокристальные EPYC могли бы быть на 10 % меньше четырёх чипов Zeppelin (суммарно), но выход годных CPU был бы в таком случае существенно ниже.

Нет сомнений, что производительность «теоретических» монолитных EPYC выше, однако если бы в Саннивейле отдали предпочтение одному крупному кристаллу вместо четырёх поменьше, то и серверы на базе таких процессоров обошлись бы заказчикам значительно дороже. Кроме того, стоит отметить, что использование восьмиядерных чипов Zeppelin в EPYC позволяет в случае необходимости нарастить производство Ryzen, ограничив при этом поставки серверных CPU.

Хотя процессоры EPYC предлагаются компанией AMD не первый день, их обзоров в Сети совсем немного. Большую работу проделали энтузиасты ServeTheHome, протестировав 2P-систему Supermicro на базе дуэта 32-ядерных EPYC 7601. По чистой производительности пара новичков уверенно опередила тандемы Intel Xeon E5-2699 v4 (Broadwell-EP, 22 ядра) и Intel Xeon Gold 6150 (Skylake-SP, 18 ядер). Однако учитывая, что такие крупные поставщики серверного ПО, как Microsoft и Oracle, выставляют счета в зависимости от количества ядер в серверах, стоимость владения высокопроизводительными системами AMD может нивелировать старания создателей EPYC.

Постоянный URL: http://servernews.ru/957550
Система Orphus