Материалы по тегу: isc
25.11.2023 [19:56], Сергей Карасёв
Китайский процессор Sunway SW26010 Pro с 384 ядрами обеспечивает быстродействие 13,8 ТфлопсНа фоне американских санкций Китай ведёт активную разработку собственных процессоров. Одним из таких изделий является чип Sunway SW26010-Pro для суперкомпьютеров и НРС-систем. Недавно, как сообщает ресурс Tom's Hardware, были раскрыты характеристики этого изделия. Процессор SW26010-Pro, первая информация о котором появилась в 2021 году, является значительно улучшенной версией модели SW26010. От прародителя Pro-вариант унаследовал базовую архитектуру. Решение SW26010-Pro использует 64-битную платформу RISC. В состав чипа входят шесть групп ядер (Core Group, CG) и блок обработки протоколов (Protocol Processing Unit, PPU). Каждый узел CG содержит 64 вычислительных элемента (Compute Processing Element, CPE) с 512-бит векторным механизмом, а также 256 Кбайт быстрого кеша данных и 16 Кбайт кеша для инструкций. Таким образом, общее количество ядер достигает 384 против 256 у обычной версии SW26010. Кроме того, в конструкцию SW26010-Pro входит один элемент обработки управления (Management Processing Element, MPE) в расчёте на узел CG: это суперскалярное ядро с внеочередным исполнением и векторным движком, 32 Кбайт кеша инструкций и 32 Кбайт кеша данных L1, 256 Кбайт кеша L2 и 128-бит интерфейсом памяти DDR4-3200. MPE и CPE используют протокол на основе директорий, который обеспечивает согласованный обмен данными. Это сокращает объём информации, которой обмениваются ядра, и гарантирует точное взаимодействие, что важно для приложений с нерегулярным доступом к совместно используемым данным. Процессор SW26010-Pro функционирует на частотах 2,25 ГГц для CPE и 2,10 ГГц для MPE против 1,45 ГГц (в обоих случаях) у предшественника. Заявленная производительность достигает 13,8 Тфлопс FP64 и 27,6 Тфлопс FP32. Для сравнения: у обычной модели SW26010 быстродействие FP64 равно 2,9 Тфлопс, а у процессора AMD EPYC 9654 Genoa — 5,4 Тфлопс. Каждый узел CG теперь поддерживает 16 Гбайт памяти DDR4 (против 8 Гбайт DDR3 у SW26010), а максимально допустимый объём ОЗУ достигает 96 Гбайт. При этом, как отмечается, у SW26010 Pro сохраняются ограничения в плане производительности кеша и подсистемы ОЗУ. Так, 256 Кбайт кеша в расчёте на CPE при отсутствии надлежащего кеша L2 недостаточно, а двухканальной подсистемы памяти DDR4-3200 (51,2 Гбайт/с) едва хватает на 64 ядра, каждое из которых имеет 512-бит векторный FPU и обеспечивает производительность до 16 Флопс/цикл (FP64).
15.09.2023 [19:27], Алексей Степин
Intel показала экспериментальный RISC-процессор для DARPA: 528 потоков на 8 ядер + интегрированная фотоникаМногопоточность давно никого не удивляет, ведь большинство современных процессоров поддерживают выполнение минимум двух потоков на ядро, а у IBM есть и ядра с восемью потоками. Но на конференции Hot Chips 2023 компания Intel продемонстрировала нечто принципиально новое в этом смысле — 8-ядерный RISC-процессор, способный одновременно выполнять до 528 потоков, да ещё и с интегрированным оптическим интерконнектом. Новинка во всех отношениях любопытная: 66 аппаратных потоков на ядро, довольно объёмный кеш первого уровня (192 Кбайт совокупно для инструкций и данных), 4 Мбайт сверхбыстрой SRAM, а также интегрированные фотонные модули, обеспечивающие оптический интерконнект между несколькими процессорами в системе. Поводом для разработки столь необычного процессора стало участие Intel в программе DARPA HIVE, подразумевающей создание эффективных решений для применения в крупномасштабных системах графовой аналитики петабайтного масштаба. По энергоэффективности в такого рода задачах новый чип продемонстрировал тысячекратное превосходство над традиционными архитектурами. Уникальный чип произведён с использованием 7-нм техпроцесса TSMC с 15 слоями металлизации, использует тайловую (чиплетную) компоновку и несёт на борту блоки с интегрированной кремниевой фотоникой Ayar Labs. Состоит новинка из 27,6 млрд транзисторов (1,2 млрд транзисторов на ядро) и имеет площадь 316 мм2. В демонстрируемой версии использована упаковка BGA c 3275 контактами. Архитектура процессорных ядер — RISC с фиксированной длиной команд. При этом сами ядра реализованы довольно необычно, поскольку каждое ядро содержит как многопоточные конвейеры (16 потоков на конвейер), так и быстрые однопоточные, с восьмикратно более высокой производительностью. Имеется кастомный контроллер DDR5, контроллер PCI Express 4.0 x8, а также 32 высокоскоростных AIB-порта. Последние как раз и реализуются за счёт чиплетов с интегрированной фотоникой. 32 оптических канала на процессор обеспечивают пропускную способность интерконнекта на уровне 1 Тбайт/с, а топология HyperX допускает масштабирование на уровне более 1 млн процессоров. При этом теплопакет одного чипа составляет всего 75 Вт. Внутренний межъядерный интерконнект использует меш-сеть с топологией 2D и 16 специальных маршрутизаторов, обеспечивающих высокую I/O-производительность за пределами кристалла. Эти маршрутизаторы работают на частоте 1 ГГц при напряжении 0,75В, имеют задержку всего 4 такта при ширине соединения 25 байт и пропускную способность 64 Гбайт/с на соединение. Помимо самого процессора, Intel разработала и OCP-шасси, несущее на борту 16 таких процессоров, 512 Гбайт DRAM и оптическую сеть с производительностью до 16 Тбайт/с в каждом направлении. Благодаря наличию 32 высокоскоростных оптических каналов, в пределах стойки возможно подключение по схеме каждый-с-каждым, не требующая применения дополнительных коммутаторов. Intel не только продемонстрировала работоспособность систем на базе новых процессоров, но и опубликовала результаты тестирования оптического интерконнекта между двумя демонстрационными системными платами. Задержка при этом не превышает 5 нс. Логически общение ядер в соседствующих процессорах ничем не отличается от внутрипроцессорного, хотя и имеет несколько более высокие задержки. При этом обеспечивается практически линейное масштабирование. Также известны электрические характеристики: в 75-Вт пакете больше половины приходится на фотонику, и лишь 21 % — на вычислительные ядра. Ещё 16 % потребляет контроллер памяти, остальное приходится на тактовые генераторы, маршрутизаторы и внутренний интерконнект. При разработке и создании этого уникального процессора Intel пришлось решить ряд технических проблем, в частности, обеспечить надёжное и точное подключение оптических волокон, в том числе в процессе сборки чипа. Для обеспечения приемлемого выхода годных чипов в новинке применен ряд специально разработанных для этого материалов. |
|