Материалы по тегу: cpu

12.07.2024 [09:09], Алексей Степин

144 ядра, чиплеты, SRAM и 3D-упаковка: Fujitsu поделилась подробностями о грядущих Arm-процессорах MONAKA

Опыт японской компании Fujitsu в разработке процессоров и суперкомпьютеров велик и многогранен. Долгое время основной архитектурой для решений Fujitsu была SPARC64, но времена меняются: в 2018 году компания анонсировала разработку собственного процессора на базе архитектуры Arm. Сегодня этот чип мы знаем под именем A64FX.

В 2020 году японский кластер Fugaku на основе 48-ядерных A64FX с интегрированными HBM-памятью и интерконнектом занял первое место в рейтинге TOP500 с результатом 537,2 Пфлопс. Однако эти процессоры, которые всё ещё достойно трудятся не только в Fugaku, но и в других суперкомпьютерах, трудно назвать действительно универсальным и доступным.

 Источник изображений: Fujitsu

Источник изображений: Fujitsu

Важность архитектурных нововведений и смену IT-ландшафта в Fujitsu прекрасно осознают. Поэтому компания объявила о разработке нового серверного процессора под кодовым именем MONAKA, для которого она намеревается вдвое увеличить показатели производительности и энергоэффективности, а также учесть растущую популярность задач класса ИИ. А совсем недавно Fujitsu впервые более детально рассказала о технических особенностях будущих CPU.

Во-первых, разработчики нового процессора хорошо осознают ограничения, накладываемые текущей транзисторной технологии. Похоже, из FinFET и её аналогов выжаты все или почти все соки и для прорывных решений нового поколения данная технология не подходит. В процессорах MONAKA будут использоваться транзисторы с затвором нового типа, так называемые GAA (Gate-all-Around). Похоже, речь идёт о технологии, которую разрабатывает и собирается внедрить в производство уже в следующем году Samsung в рамках 2-нм техпроцесса SF2.

Внедрение 2-нм GAA-транзисторов позволит снизить паразитную ёмкость, а значит, добиться больших тактовых частот при меньшем напряжении питания. При этом новая технология будет применена не только в процессорных ядрах, но и в сборках кеш-памяти, также спроектированных с использованием собственного инструментария Fujitsu.

Во-вторых, MONAKA изначально проектируется как модульный процессор. В центре разместится IO-кристалл, содержащий контроллеры DDR5 (12 каналов) и PCI Express 6.0/CXL 3.0. Окружать его будут сборки из 5-нм кристаллов кеш-памяти SRAM и расположенных поверх 2-нм кристаллах с процессорными ядрами. По вертикали соединение обеспечит технология TSV, а по горизонтали — кремниевая подложка-интерпозер. Фактически речь идёт о 3D-компоновке.

12-канальная подсистема памяти обеспечит отсутствие узких мест: у A64FX проблем с пропускной способностью благодаря использованию HBM2 не было, но объем самой памяти был ограничен 32 Гбайт. Зато у MONAKA проблем с расширением не будет — как с помощью классических модулей DIMM, так и посредством банков памяти CXL, благо, за основу сразу взята версия PCIe 6.0 с пропускной способностью 256 Гбайт/с в режиме x16. Сколько будет самих линий, пока не уточняется.

Новая платформа изначально проектируется двухсокетной, при этом в количестве ядер Fujitsu также не скромничает: процессоры MONAKA получат 144 ядра, а благодаря новому 2-нм техпроцессу они будут не такими уж горячими. Им хватит воздушного охлаждения, говорят создатели. Процессоры получат набор инструкций Armv9-A с векторными расширениями SVE2 и технологией доверенных вычислений Confidential Computing. Скорее всего, без кастомных инструкций не обойдётся и в этот раз.

Последнее особенно важно ввиду того, что MONAKA предназначены не только для рынка HPC, но и для использования в облачных средах. Подсистема конфиденциальных вычислений позволяет шифровать содержимое каждой виртуальной машины собственным ключом, так что доступа к внутренностям ВМ не будет даже у владельцев ЦОД. Впрочем, современные HPC-комплексы всё чаще используют именно облачный подход для доступа к ресурсам.

Несмотря на популярность GPU и других специализированных ускорителей, Fujitsu считает, что гетерогенная архитектура имеет существенные недостатки — она заметно дороже, особенно с учётом ценовой политики производителей, склонна к неполной утилизации ресурсов, а также не слишком экономична и зачастую требует специфических систем охлаждения. Компания полагает, что гомогенная архитектура MONAKA этих недостатков лишена и в сочетании с ПО Fujitsu может успешно обрабатывать ИИ-нагрузки.

В программной части Fujitsu активно полагается на решения с открытым кодом. Процессоры MONAKA будут отвечать стандартам Arm System Ready и получат полноценную поддержку Linux и сопутствующего инструментария, в частности, GCC, glibc, live-patch, papi и т.д. Разработка ведётся в тесном содружестве с Linaro, организацией, занимающейся консолидацией открытого ПО для Arm, а также с альянсом UXL. Для MONAKA компания подготовит, например, оптимизированную библиотеку OpenBLAS.

Также Fujitsu уделяет внимание экологии: напомним, одной из главных черт нового процессора будет его экономичность, что отвечает целям японской национальной программы NEDO, ставящей своей целью достижение 40 % снижения энергопотребления ЦОД к 2030 году.

Что касается начала поставок MONAKA, здесь всё идёт по плану: первые партии новых процессоров найдут своё место в серверах и вычислительных узлах уже в 2027 году. Это вполне согласуется с циклом разработки PCI Express, согласно которому появления решений PCIe 6.0 на рынке следует ожидать не ранее 2025 года.

Постоянный URL: http://servernews.ru/1107780
28.06.2024 [12:35], Сергей Карасёв

Loongson представила 64-ядерные серверные процессоры с чиплетной компоновкой

Китайская компания Loongson, по сообщению Tom's Hardware, начала пробный выпуск процессоров 3C6000, 3D6000 и 3E6000 для серверных систем. В настоящее время эти изделия проходят тестирование, а серийное производство запланировано на IV квартал 2024 года.

Чип 3C6000 содержит 16 ядер LA664 (32 потока инструкций) с микроархитектурой LoongArch, разработанной Loongson. Утверждается, что новинка обеспечивает вдвое более высокую производительность по сравнению с процессором 3C5000, функционирующим на частоте 2,2 ГГц. Для 3C6000 реализована поддержка четырёх каналов оперативной памяти DDR4-3200.

 Источник изображения: Loongson

Источник изображения: Loongson

Решения 3D6000 и 3E6000, в свою очередь, имеют чиплетную компоновку. Они объединяют соответственно два и четыре кристалла 3C6000, связанных посредством технологии Loongson Coherent Link. В результате, получаются CPU с 32 и 64 вычислительными ядрами с возможностью одновременной обработки 64 и 128 потоков инструкций.

Архитектура чиплетов считается будущим микропроцессоров. Причём Китай делает особую ставку на чиплетную компоновку на фоне жёстких санкций со стороны США, которые ограничивают доступ китайских компаний к передовым технологиям производства полупроводниковой продукции. Объединяя несколько кристаллов в составе одного CPU, разработчики из КНР получают возможность наращивать производительность чипов без применения наиболее «тонких» техпроцессов.

В Китае в условиях активного импортозамещения наложен запрет на использование процессоров Intel и AMD в компьютерах и серверах для государственного сектора. Благодаря этому спрос на отечественную продукцию растёт, а Loongson увеличивает рыночную долю.

Постоянный URL: http://servernews.ru/1107203
27.06.2024 [11:04], Сергей Карасёв

SiFive анонсировала новое семейство процессоров RISC-V для встраиваемых устройств

Компания SiFive, разработчик процессоров на архитектуре RISC-V, представила решения семейства Essential Gen4 для различных встраиваемых устройств. В серию вошли восемь модификаций базовых ядер RISC-V, которые могут применяться в таком оборудовании, как камеры наблюдения, решения FPGA, накопители на основе флеш-памяти, носимые гаджеты и пр.

В частности, анонсированы 64-бит решения U6 и U7 для процессоров приложений, 64-бит ядра реального времени S2, S6 и S7 для встраиваемых систем, а также 32-бит ядра реального времени E2, E6 и E7.

 Источник изображения: SiFive

Источник изображения: SiFive

Для новинок заявлено снижение энергопотребления в рабочем режиме до 40 % по сравнению с ядрами RISC-V предыдущего поколения. Говорится об улучшенном кеше L2 и расширенном кеше L1. Разработчикам предоставляются гибкие возможности в плане конфигурирования устройств: тип CPU, различные варианты интегрированной памяти, выбор периферийных компонентов и портов. Кроме того, упомянуты развитые средства управления питанием и обеспечения безопасности.

Ядра SiFive Essential Gen4 могут использоваться со встраиваемыми ОС Linux и FreeRTOS. Заявлена интеграция с IDE Eclipse. В целом, изделия четвёртого поколения обеспечивают более высокую производительность, повышенную энергоэффективность и более гибкие возможности в плане использования интерфейсов. При этом полные технические характеристики новинок компания не раскрывает.

Отмечается также, что на сегодняшний день по всему миру реализовано более 2 млрд чипов с ядрами SiFive RISC-V для встраиваемых устройств. Данный рынок продолжает активно развиваться, что говорит о росте популярности открытой архитектуры RISC-V.

Постоянный URL: http://servernews.ru/1107129
22.06.2024 [15:01], Сергей Карасёв

Samsung случайно упомянула о разработке RISC-V чипа для ИИ-задач

В ходе конференции ISC 2024 компания Samsung, по сообщению HPC Wire, намекнула на разработку некоего чипа на открытой архитектуре RISC-V. Предполагается, что это изделие будет использоваться при решении задач, связанных с ИИ и НРС.

На одном из продемонстрированных южнокорейским производителем слайдов упоминается изделие CPU/ИИ-ускоритель на базе RISC-V («RISC-V CPU/AI accelerator from Samsung»). О чём именно идёт речь, сказать трудно. Возможно, Samsung проектирует процессор RISC-V с нейромодулем для ускорения ИИ-операций. С другой стороны, это может быть самостоятельный чип, предназначенный для работы в связке с ИИ-ускорителем. Например, Google уже использует RISC-V процессоры SiFive вместе со своим TPU.

 Источник изображения: Samsung / HPC Wire

Источник изображения: Samsung / HPC Wire

Отмечается, что слайд был показан на сессии ISC 2024, посвящённой инициативе UXL Foundation (Unified Acceleration Foundation). Целью данного проекта является создание универсального открытого ПО, которое позволит разработчикам ИИ-решений отказаться от CUDA и использовать ускорители других производителей. В состав UXL входят Intel, Qualcomm, Samsung, Arm и Google.

На слайде также упоминается модель параллельного программирования в контексте вычислений в памяти. Данная концепция позволяет повысить производительность, в том числе при обучении ИИ-моделей. Ранее Samsung и AMD представили экспериментальный ИИ-суперкомпьютер, скрестив «вычислительную» память HBM-PIM и ускорители Instinct MI100. Кроме того, Samsung работает над похожей концепцией PNM (processing-near-memory), которая будет использоваться в модулях памяти CXL.

Samsung также работает над собственными ИИ-ускорителями Mach-1, которые уже заказала ведущая южнокорейская интернет-компания Naver. По заявлениям Samsung, изделие Mach-1 позволяет выполнять инференс больших языковых моделей (LLM) даже с маломощной памятью. Таким образом, есть вероятность, что новый RISC-V-процессор Samsung сможет работать в связке с ИИ-ускорителями компании для максимизации производительности.

Постоянный URL: http://servernews.ru/1106897
22.06.2024 [00:05], Алексей Степин

Альянс CHERI будет продвигать технологию надёжной защиты памяти от атак — первой её могут получить процессоры RISC-V

В современных процессорах немало возможностей для атак связано с особенностями работы современных подсистем памяти. Для противостояния подобным угрозам Capabilities Limited, Codasip, FreeBSD Foundation, lowRISC, SCI Semiconducto и Кембриджский университет объявили о создании альянса CHERI (Capability Hardware Enhanced RISC Instructions).

Целью новой организации должна стать помощь в стандартизации, популяризации и продвижении на рынок разработанных Кембриджским университетом совместно с исследовательским центром SRI International процессорных расширений, позволяющих аппаратно реализовывать механизмы защиты памяти, исключающие целый ряд потенциальных уязвимостей, например, переполнение буфера или некорректная работа с указателями.

 Источник: University of Cambridge

Источник: University of Cambridge

Сама технология имеет «модульный» характер. Она может применяться выборочно для защиты функций от конкретных атак и требует лишь весьма скромной адаптации кода. Согласно заявлению CHERI Alliance, огромный пул уже наработанного ПО на языках семейств С и C++ может быть легко доработан для серьёзного повышения уровня безопасности.

 Источник: University of Cambridge

Источник: University of Cambridge

Кроме того, данная технология позволяет реализовать высокопроизводительные и масштабируемые механизмы компартментализации (compartmentalization) и обеспечения минимально необходимых прав (least privilege). Такое «разделение на отсеки» должно защитить уже скомпрометированную систему и не позволить злоумышленнику развить атаку, даже если он воспользовался ранее неизвестной уязвимостью.

 Механика работы расширений CHERI с памятью. Источник: University of Cambridge

Механика работы расширений CHERI с памятью. Источник: University of Cambridge

Технологии, предлагаемые альянсом CHERI, хорошо проработаны — их развитие идёт с 2010 года, а актуальность массового внедрения подобных решений за прошедшее время успела лишь назреть. Однако для успеха данной инициативы потребуется широкое содействие со стороны индустрии как аппаратного обеспечения, так и программного.

 Блок-схема Arm Morello. Источник: Arm

Блок-схема Arm Morello. Источник: Arm

Участники альянса настроены оптимистично, однако в их число пока не входит ни один из крупных разработчиков CPU, в частности, Arm. В настоящее время главной архитектурой для приложения своих усилий они видят RISC-V, о чём свидетельствует документация на CHERI ISAv9. Впрочем, черновой вариант расширений имеется и для x86-64.

Сама Arm этого оптимизма не разделяет. Компания имеет за плечами пятилетний опыт разработки проекта Morello, основанному на идеях CHERI, но, по словам представителя Arm, процесс тестирования прототипов защищённых систем выявил ряд ограничений, пока препятствующий их широкому распространению на рынке. Тем не менее, работы над платформой Morello будут продолжены. При этом буквально на днях для Arm-процессоров была выявлена атака TikTag, направленная на обход механизма защиты памяти Memory Tagging Extensions (MTE).

Постоянный URL: http://servernews.ru/1106875
15.06.2024 [00:25], Алексей Степин

Intel поймала AMD на подтасовке результатов в ИИ-тестах EPYC против Xeon

На Computex 2024 AMD анонсировала новое поколение серверных процессоров EPYC Turin на базе архитектуры Zen 5. При этом компания продемонстрировала слайды, из которых следует, что новые решения серьёзно опережают процессоры Intel Xeon. Так, 128-ядерный Turin сравнивается с 64-ядерным Xeon Platinum 8592+ (Emerald Rapids). AMD говорит о 2,5–5,4-кратном превосходстве, однако Intel опровергает полученные результаты и достаточно подробно разбирает вопрос тестирования в своём блоге.

Конечно, превосходство AMD в чисто количественных показателях очевидно, но в сложных вычислительных задачах, к которым относятся HPC- и ИИ-сценарии, не меньшую, а то и большую роль может играть оптимизация ПО. Intel отмечает, что AMD не привела в своём анонсе конкретных сведений о версиях и настройках ПО, и, вероятнее всего, отказалась от различных расширений. Но, например, Intel Extension for PyTorch (IPEX) позволяет добиться более чем пятикратного прироста производительности по сравнению с «чистой» версией PyTorch.

Для системы с двумя Xeon Platinum 8592+ применение IPEX позволяет поднять производительность инференса в режиме INT4 с чат-ботом на базе Llama2-7B со 127 до 686 запросов в секунду при заданной задержке не более 50 мс. Для своей 256-ядерной платформы на базе Turin AMD говорит про 671 запрос — как видно, с оптимизацией результаты получаются вполне сопоставимыми.

 Источник: AMD

Источник: AMD

И потенциал для дальнейшего роста у Xeon есть: Intel сообщает, что при отключении функции Sub-NUMA Clustering результат может достигать 740 запросов. К сожалению, для других тестов компания диаграмм не опубликовала, хотя и там оптимизация позволяет добиться увеличения производительности в 1,2–2,3 раза. Этого уже не хватает, чтобы бороться с платформой Turin, которая, помимо превосходства в числе ядер, использует и более мощную 12-канальную подсистему памяти.

 Источник: Intel

Источник: Intel

Следует отметить, что Intel не сказала последнего слова: Xeon Platinum 8592+ уже не нов, а в ближайшем будущем AMD Turin придётся столкнуться с Xeon 6 с большим числом ядер. Пока эти чипы доступны лишь в исполнении с энергоэффективными ядрами, но уже в III квартале появятся и 128-ядерные Granite Rapids с производительными P-ядрами и 12-канальной памятью.

 Источник: Intel

Источник: Intel

Тем не менее, тема затронута достаточно фундаментальная: свои плюсы имеет как чисто количественный подход, которого придерживается AMD, так и подход Intel, позволяющий добиться высоких результатов при тщательной оптимизации под более комплексную архитектуру. Нельзя сказать, что результаты AMD являются мошенничеством, хотя случай и не первый — согласно тестам компании, ускоритель Instinct MI300X серьёзно опередил NVIDIA H100, но при этом AMD точно так же «забыла» про оптимизированный фреймворк TensorRT-LLM. Правда, в тот раз «честь мундира» отстоять удалось и с оптимизациями NVIDIA.

Постоянный URL: http://servernews.ru/1106533
04.06.2024 [14:15], Сергей Карасёв

Intel представила процессоры Xeon 6 с P- и E-ядрами: 144-ядерные 6700E уже доступны

Корпорация Intel представила процессоры Xeon 6, предназначенные для решения различных задач — от поддержания облачных приложений до нагрузок, связанных с ИИ и НРС. Процессоры Xeon 6 E-core стали доступны с сегодняшнего дня. Поставки Xeon 6 P-core будут организованы в III квартале текущего года.

Напомним, схему обозначения чипов Xeon компания Intel изменила в апреле нынешнего года, отказавшись от бренда Scalable в пользу более простой нумерации — в данном случае Xeon 6. В это семейство вошли изделия на основе исключительно энергоэффективных ядер E-core (Sierra Forest) и на базе производительных ядер P-core (Granite Rapids).

 Источник изображений: Intel

Источник изображений: Intel

Intel обещает увеличение производительности на Вт в 2,6 раза по сравнению с Cascade Lake-SP при выполнении задач, связанных с транскодированием мультимедийных материалов. Прирост производительности на уровне стойки достигает 4,2 раза благодаря высокой плотности размещения вычислительных ядер. Чипы ориентированы прежде всего на облачные приложения, сети доставки контента, сетевые микросервисы и потребительские цифровые сервисы.

Процессоры Xeon 6 разделены на серии 6700 и 6900. В обоих случаях обеспечивается поддержка CXL 2.0 (Type 1, Type 2 и Type 3). Для изделий 6700 Series заявлено 1,4-кратное увеличение пропускной способности памяти и 1,1-кратное повышение I/O-производительности по сравнению с Xeon Emerald Rapids. В свою очередь, решения 6900 Series обеспечивают увеличение пропускной способности между сокетами до 1,8 раза по сравнению с Xeon Emerald Rapids. Благодаря этому существенно повышается производительность при выполнении наиболее ресурсоёмких задач.

На сегодняшний день в семействе Xeon 6700 Sierra Forest представлены семь чипов в исполнении LGA 4710: это модели Xeon 6710E, Xeon 6731E, Xeon 6740E, Xeon 6746E, Xeon 6756E, Xeon 6766E и Xeon 6780E. Они насчитывают от 64 до 144 E-ядер без поддержки многопоточности, так что по количеству ядер и потоков они заведомо отстают от AMD EPYC Turin. Поддерживается оперативная память DDR5-5600/6400. Количество линий PCIe 5.0 / CXL 2.0 равно 88. Объём кеша L3 — 96 или 108 Мбайт. Показатель TDP варьируется от 205 до 330 Вт.

Постоянный URL: http://servernews.ru/1105900
03.06.2024 [23:30], Алексей Степин

Поплотнее и попроще: AMD EPYC Turin получат до 128 ядер Zen 5 и до 192 ядер Zen 5c

AMD продолжает прочно удерживать первенство по плотности упаковки ядер среди процессоров с архитектурой x86. Сегодня компания показала чипы EPYC Turin, которые увидят свет в двух вариантах — обычном, идущим на смену Genoa, и высокоплотном (Dense), который должен будет заменить Bergamo и конкурировать с Intel Xeon 6 (Sierra Forest) на рынке решений для гиперскейлеров и провайдеров облачных услуг.

В основу обоих серий лягут архитектуры Zen 5 и Zen 5c соответственно. В текущем поколении EPYC Genoa предлагают 96 ядер Zen 4, а Bergamo — 128 ядер Zen 4c. В поколении Turin количество подрастёт до 128 ядер, а Turin Dense достигнет отметки 192 ядра (384 потока). Компоновка этих процессоров будет различаться.

 Источник здесь и далее: ComputerBase.de

Источник здесь и далее: ComputerBase.de

Классические Turin получат компоновку из 17 чиплетов. Центральное место, как и прежде, займёт чиплет ввода-вывода (IOD), он по-прежнему будет выпускаться с использованием 6-нм техпроцесса. Не изменится даже процессорный разъём, это по-прежнему будет SP5, причём обещана совместимость с уже доступными платформами для Genoa.

Чиплеты CCD, расположенные в четыре ряда справа и слева от IOD, переведены на использование техпроцесса N4P, а общее количество 8-ядерных CCD составляет 16, что в пределе и даёт заявленные 128 ядер. По имеющимся сведениям, общий объём кеша достигнет 512 Мбайт.

 Turin Dense получит новые высокоплотные 16-ядерные чиплеты

Turin Dense получит новые высокоплотные 16-ядерные чиплеты

Процессоры Turin Dense будут состоять из 13 чиплетов, из них 12 получат по 16 ядер. Достигнуто это как оптимизацией архитектуры, так и применением 3-нм техпроцесса. Относительно компоновки Genoa CCD развёрнуты на 90°, что обеспечивает практически одинаковую длину интерконнекта до IOD. Возможно, это позволит немного сократить латентность. Объём кеша здесь меньше — до 384 Мбайт.

Поскольку в обоих вариантах используется если не старый, то как минимум совместимый IOD, то речь по-прежнему идёт о 12-канальной подсистеме памяти DDR5 и 128 линиях шины PCI Express. Возможно, немного подрастёт частота работы модулей DIMM.

Постоянный URL: http://servernews.ru/1105884
22.05.2024 [21:45], Руслан Авдеев

Google обогнала AMD на рынке процессоров для ЦОД и вот-вот догонит Intel

В прошлом месяце компания Google анонсировала долгожданный серверный CPU на архитектуре Arm. Впрочем, как сообщает The Register, она уже оказалась третьей на рынке процессоров для ЦОД (сюда входят не только CPU, но и GPU, TPU и иные ускорители). Согласно отчёту TechInsights, компания теперь уступает только NVIDIA и Intel и давно обогнала AMD.

 Источник изображения: Google

Источник изображения: Google

Как и другие крупные облачные операторы, IT-гигант выпускает собственные чипы TPU, шестое поколение которых было представлено на прошлой неделе. Хотя на сторону их не продают, компания заказывает огромные партии TPU для оснащения собственных ЦОД — только в прошлом году речь шла о 2 млн штук. Ключевым партнёром Google в создании кастомного «кремния» является Broadcom.

Поставки TPU нарастают с каждым поколением, следуя за ростом самой компании. После премьеры TPU v4 в 2021 году в связи с развитием больших языковых моделей (LLM) объём полупроводникового бизнеса Google значительно вырос. TPU применяются компанией для внутренних задач, а ускорители NVIDIA — для облака. В TechInsights считают, что на сегодняшний день у Google имеется крупнейшая в отрасли база установленных ИИ-ускорителей и самая масштабная ИИ-инфраструктура.

 Источник изображения: TechInsights

Источник изображения: TechInsights

В прошлом году на серверным рынке произошла «масштабная коррекция запасов» — гиперскейлеры увеличили срок службы оборудования, отложив замену серверов общего назначения и повысив капитальные затраты на ИИ-серверы и ускорители NVIDIA. Аналитики Omdia говорят о таких тенденциях на рынке что в прошлом, что в начале этого года. В TechInsights считают, что по итогам I квартала 2024 года Google сможет догнать или даже перегнать Intel по доле на этом рынке.

Конечно, Google — не единственная облачная компания, разрабатывающая собственные чипы. Microsoft работает над серверным CPU Azure Cobalt и ИИ-ускорителями Maia 100. AWS и вовсе годами использует собственные Arm-процессоры Graviton и ИИ-ускорители серий Trainium и Inferentia. В прошлогоднем докладе Bernstein Research сообщалось, что архитектуру Arm используют уже около 10 % серверов по всему миру, а более 50 % из них внедряется AWS. Softbank в начале 2023 года говорила о том, что Arm захватила 5 % облачного рынка.

 Источник изображения: TechInsights

Источник изображения: TechInsights

Впрочем, с появлением процессоров TPU V5e и TPU V5p решения Google будут использоваться всё шире из-за «взрывного роста» больших языковых моделей вроде Gemini. В 2024 году у Google появится Arm-процессор Axion. И его внедрение, по мнению TechInsights, будет происходить намного быстрее, чем Graviton, поскольку у Google уже имеется программная инфраструктура для такого чипа. Всё это необходимо компании, чтобы идти в ногу с AWS, Microsoft и, в меньшей степени, Alibaba. При этом в докладе упоминается, что рынок полупроводников для ЦОД быстро меняется — раньше на нём доминировала Intel с архитектурой x86. Теперь его структура определяется потребностями ИИ-систем.

Постоянный URL: http://servernews.ru/1105235
22.05.2024 [00:00], Алексей Степин

EPYC для самых маленьких: AMD представила серверные процессоры EPYC 4004 для сокета AM5

AMD продолжает активно расширять серию серверных процессоров EPYC, причём не только «вверх», но и «вниз». Первой ласточкой стал выпуск упрощённых моделей EPYC 8004 Siena с ядрами Zen4c для периферийных вычислений, а сегодня компания анонсировала ещё более доступные односокетные EPYC 4004, стоимость которых начинается со $149.

EPYC 4004 целиком построены на базе Ryzen 7000 и используют тот же разъём AM5. Этим анонсом AMD закрывает ещё одну нишу — серверные системы начального уровня, где Intel выступает с модельным рядом Xeon E. Позиционируются такие системы либо как компактные и энергоэффективности решения, например, для выделенных серверов с минимальной удельной стоимостью, либо как корпоративные платформы начального уровня для малого бизнеса.

 Источник изображений: AMD

Источник изображений: AMD

В таких системах ничто не мешает использовать Ryzen 7000, что и делают многие вендоры. Более того, многие уже выпустили обновления BIOS/UEFI, добавляющие таким системам поддержку EPYC 4004. Однако формально Ryzen никогда не были серверным продуктом и, например, лишены поддержки RDIMM. Речь по-прежнему идёт о двухканальной DDR5-5200 в небуферизированных модулях UDIMM. Максимальный объём ограничен 192 Гбайт, но у Xeon E-2400 он ещё меньше и составляет всего 128 Гбайт, да к тому же DDR5-4800. Процессоры предоставляют в распоряжение системы 28 линий PCI Express 5.0, что, больше, чем у Xeon E-2400, насчитывающего всего 16 таких линий.

По сути, AMD EPYC 4004 являются перемаркированными Ryzen 7000 с Zen4-ядрами, однако есть отличия: младшая 4-ядерная модель 4124P не имеет «потребительского» аналога. Максимальное количество ядер по-прежнему 16, причём в двух вариантах — 4584PX с 3D V-Cache (128 Мбайт L3-кеша) и обычном 4564P (64 Мбайт L3-кеша). В турборежиме оба флагмана могут разгоняться до 5,7 ГГц, но базовое значение у 4564P выше (4,5 ГГц), ценой повышенного со 120 до 170 Вт теплопакета. Внутри это по-прежнему чиплетные решения с 6-нм IO-блоком, одним-двумя кристаллами с восемью 5-нм ядрами и графикой RDNA2.

Вся «серверность» EPYC 4004 сводится к поддержке внешнего BMC-контроллера, возможности создания программных RAID-массивов в RAIDXpert2 for Server и совместимости с современными серверными ОС. Однако у новинок в сравнении с E-2400 есть бонус в виде поддержки AVX-512. Как показывают результаты тесто Phoronix, флагманские модели AMD EPYC 4004 в среднем почти вдвое опережают старший Xeon E-2488, а стоят при этом ненамного больше.

 Источник: Phoronix

Источник: Phoronix

У AMD на этот раз определённо получилось очень удачное решение, аналогов которому по сочетанию стоимости и производительности у конкурента просто нет. Определённую опасность для EPYC 4004 могли бы представлять процессоры Xeon D-2800, имеющие до 22 ядер и полноценную поддержку AVX-512, но это специфические решения для сетевых систем и серверов периферийных вычислений, имеющие существенно более высокую стоимость.

Постоянный URL: http://servernews.ru/1105170
Система Orphus