Процессоры Ampere Altra были анонсированы весной 2020 года. На OCP Virtual Summit 2020 GIGABYTE представила системную плату MP32-AR0 с разъёмом для процессоров Ampere, а осенью она опубликовала сведения о новой серии серверов R272-P30 (Mount Snow). Теперь же Ampere разослала зарубежным обозревателям двухсокетные платформы Mount Jade, и первые результаты тестирования новых CPU внушают оптимизм.
Чипы Ampere Altra имеют до 80 ядер с архитектурой ARM v8.2+ (с некоторыми улучшениями из наборов v8.3 и 8.4), связанных между собой mesh-шиной Arm CoreLink CMN-600. Поддерживает эти ядра развитая система кешей: 64+64 Кбайт L2, 1 Мбайт L2 и до 32 Мбайт общего L3. Подсистема памяти имеет 8 каналов DDR4-3200 (72-бит, 2DPC, до 4 Тбайт суммарно).

Для подключения периферии есть контроллер PCIe 4.0 на 128 линий, но в двухсокетном варианте по 32 линии с каждой стороны отводится на связь между CPU, что в сумме даёт 192 линии. Причём для связи применяется CCIX. Отдельно стоит отметить, что Ampere идёт по пути AMD — стоимость CPU зависит только от числа ядер и их частоты, а в остальном функциональность более дешёвых моделей не отличается от таковой в старших версиях CPU.

В отличие от традиционных Intel Xeon, AMD EPYC и уж тем более IBM POWER9/10, многопоточности в Altra нет. Однако разработчики называют это преимуществом: отказ от SMT позволил им снизить уровень энергопотребления — показатель, чрезвычайно важный для рынка высокоплотных серверных систем. Кроме того, одной из причин была названа повышенная безопасность.

Рекомендованные цены на процессоры Ampere Altra Quicksilver. Данные AnandTech
Образцы Mount Jade, разосланные зарубежным обозревателям, получили по два топовых 80-ядерных процессора Altra Q80-33, работающих на частоте 3,3 ГГц и имеющих теплопакет 250 Ватт, а также 512 Гбайт DDR4-3200. В отличие от однопроцессорного варианта, двухпроцессорный был разработан в сотрудничестве с Wiwynn, известным разработчиком и поставщиком OCP-платформ.
Процессорный разъём Ampere своего имени пока не имеет; по аналогии с решениями Intel его можно назвать LGA 4926. Это больше, чем у Xeon Scalable второго поколения, и даже больше, чем у Cooper Lake с его 4189 контактами. Механизм установки радиаторов, однако, больше напоминает AMD SP3: имеется привычная откидная рамка, она фиксируется пятью винтами. Сам процессор имеет внушительные габариты: 77 × 66,8 мм.

Сравнительные габариты серверных процессоров. Фото ServeTheHome
Любопытно, что эталонный дизайн Mount Jade использует радиаторы с довольно маленькой площадью контакта, порядка ¼ от площади крышки теплораспределителя на самом процессоре. Это позволяет примерно судить о реальной площади кристалла Altra Quicksilver. Он, напомним, монолитный и производится с использованием 7-нм норм. Впрочем, радиаторы снабжены испарительной камерой, так что должны работать достаточно эффективно и справляться с TDP 250 Ватт.
Соперниками для Ampere Altra Q80-33 естественным образом выступают AMD EPYC 7742 (64 ядра, SMT2, 225 Ватт, $6950) и Intel Xeon Platinum 8280 (28 ядер, SMT2, 205 Ватт, $10009). Решение Ampere, однако, заметно дешевле — оно оценено в $4050. Естественно, для крупных заказчиков цены варьируются, но всё-таки предложение Ampere выглядит весьма привлекательно с учётом характеристик.

Турборежим в понимании Ampere (слева) и в мире x86
Помимо этого, Ampere исповедует иной подход к «турборежиму»: если в мире x86 принята некая «минимальная базовая частота», которую процессор может превышать, то Altra Qicksilver практически всегда работает на максимальной заявленной для модели частоте, лишь изредка снижая её. А вот теплопакет новые процессоры пытаются поддерживать на как можно более низком уровне.
Нельзя сказать, что новые процессоры во всём выступили лидерами: в частности, AnandTech отметили довольно высокие задержки, как в пределах одного разъёма, так и межпроцессорные. Возможно, последнее вызвано необходимостью двойного преобразования между протоколами AMBA CHI и CCIX. Вообще межпроцессорная связь выглядит довольно слабым звеном Altra: у AMD ширина Infinity Fabric вдвое шире (64 линии PCIe 4.0 против 32), у Intel три интерфейса UPI хотя и обеспечивают меньшую пропускную способность, но не имеют «наценки» к латентности.

Популярный HPC-тест NAMD пока не имеет поддержки компиляторов, но даже так Ampere Altra проявляют себя неплохо
А вот в тестах на пропускную способность памяти Altra Q80-33 выступил явным лидером и явно показал преимущества своей более гибкой модели использования ресурсов DRAM. Аутсайдером здесь оказался Xeon, имеющий лишь шесть каналов против восьми более высокочастотных у AMD и Ampere.
Уже в однопоточных тестах SPECint2017 и SPECfp2017 новинка показала себя, как минимум, не хуже Xeon Platinum 8280, а в ряде случаев опередила и AMD EPYC 7742. В отдельных тестах 80 ядер ARM показали себя хуже 28 ядер Intel, особенно заметно это отставание в тестах на вычисления с плавающей запятой.

Однопоточная производительность: лидер всё ещё Xeon Scalable
Возможным виновником называют сравнительно слабую подсистему предвыборки (prefetch), тем более что в аналогичном тесте (507.cactuBSSN) другой процессор на базе ARM, AWS Graviton2, показал себя лучше. Кроме того, Xeon способен разгоняться до 4 ГГц при двух активных ядрах, что не могло не повлиять на результаты.

Многопоточная производительность в SPEC2017: первое место
В многопоточных тестах Xeon по понятной причине выступил аутсайдером, а вот Altra Q80-33 вышел в лидеры практически во всех тестах, за исключением вышеупомянутого 507.cactuBSSN. Это великолепный результат, ведь соперник в лице AMD EPYC 7742 может выполнять 128 потоков. По сути, в SPECint мы имеем нового абсолютного лидера в классе двухпроцессорных систем, да и в SPECfp новинка практически не уступает «красному» сопернику. Также стоит отметить, что один Altra Q80-33 явно быстрее Graviton2 (64 ядра).
В тестах Java повторить триумф не удалось. Сказалась незрелость программного обеспечения, а также отсутствие SMT. Возможно также, что тестовые сценарии привели к насыщению межъядерной mesh-сети и подсистем памяти Altra, однако в критических сценариях всё же главным недостатком нового процессора стало отсутствие мультитрединга.

JVM: ARM пока не лучший выбор
Недаром IBM, остающаяся одним из главных поставщиков java-решений, активно использует SMT4 и даже SMT8: в таких условиях ПО на базе JVM чувствует себя великолепно. В эту же сферу, вероятно, метила и Marvell со своими ThunderX3, судьба которых так и не определена. В целом, однако, платформа Altra всё же смогла занять промежуточное положение между «красными» и «синими».

Компиляция LLVM: версия Phoronix
В тестах на компиляцию новинка показала себя хорошо: у ряда обозревателей компиляция LLVM Suite оказалась примерно столь же быстрой, как и на системе с двумя EPYC 7742; впрочем, у Phoronix отмечена аномалия — Altra уступила платформе Xeon. Но даже в этом случае платформа ARM продемонстрировала лучшую энергоэффективность. В тестах на сжатие, в основном, наблюдается паритет между Altra и AMD, в тестах MariaDB, nginx, а также файл-серверных сценариях картина аналогичная.

Но энергопотребление при компиляции у Ampere Altra всё равно самое низкое
В целом, дебют платформы Ampere Altra можно считать многообещающим. Новые процессоры проявили себя великолепно: при более низком уровне энергопотребления они смогли продемонстрировать производительность примерно на уровне AMD EPYC 7742 или несколько ниже, и это в подавляющем большинстве тестов и при более низкой рекомендуемой цене. У новой платформы есть некоторые недостатки, в частности, не очень эффективная схема межпроцессорной связи и отсутствие поддержки SMT, но, к счастью, это не оказало фатального влияния на итоговую производительность.

Новые процессоры неплохо показывают себя в трассировке лучей
Референсный вариант сервера Wiwynn Mount Jade выглядит очень привлекательно. Платформа проявила себя достаточно зрело: она обладает лучшим в своём классе уровнем энергопотребления и способна предоставить в распоряжение пользователей 160 эффективных процессорных ядер, а также пул оперативной памяти объёмом вплоть до 8 Тбайт. Основной проблемой пока, как и в случае нашего теста ARM-платформы TaiShan, отсутствие оптимизаций ПО и развитой экосистемы, но это лишь вопрос времени.
Полностью новые обзоры процессора Ampere Altra и платформы Mount Jade можно прочесть на AnandTech, ServeTheHome и Phoronix. Напоследок отметим, что NVIDIA, находящаяся в процессе поглощения Arm, только выиграет от подобных платформ и уже портирует своё ПО на Arm. В частности, та же Mount Jade в связке с NVIDIA T4 и DPU NVIDIA Mellanox BlueField-2 используется для облачного гейминга. Кроме того, заявлено о партнёрстве с GIGABYTE, Inspur и Wiwynn.
Источники: