Материалы по тегу: cpu

27.06.2024 [11:04], Сергей Карасёв

SiFive анонсировала новое семейство процессоров RISC-V для встраиваемых устройств

Компания SiFive, разработчик процессоров на архитектуре RISC-V, представила решения семейства Essential Gen4 для различных встраиваемых устройств. В серию вошли восемь модификаций базовых ядер RISC-V, которые могут применяться в таком оборудовании, как камеры наблюдения, решения FPGA, накопители на основе флеш-памяти, носимые гаджеты и пр.

В частности, анонсированы 64-бит решения U6 и U7 для процессоров приложений, 64-бит ядра реального времени S2, S6 и S7 для встраиваемых систем, а также 32-бит ядра реального времени E2, E6 и E7.

 Источник изображения: SiFive

Источник изображения: SiFive

Для новинок заявлено снижение энергопотребления в рабочем режиме до 40 % по сравнению с ядрами RISC-V предыдущего поколения. Говорится об улучшенном кеше L2 и расширенном кеше L1. Разработчикам предоставляются гибкие возможности в плане конфигурирования устройств: тип CPU, различные варианты интегрированной памяти, выбор периферийных компонентов и портов. Кроме того, упомянуты развитые средства управления питанием и обеспечения безопасности.

Ядра SiFive Essential Gen4 могут использоваться со встраиваемыми ОС Linux и FreeRTOS. Заявлена интеграция с IDE Eclipse. В целом, изделия четвёртого поколения обеспечивают более высокую производительность, повышенную энергоэффективность и более гибкие возможности в плане использования интерфейсов. При этом полные технические характеристики новинок компания не раскрывает.

Отмечается также, что на сегодняшний день по всему миру реализовано более 2 млрд чипов с ядрами SiFive RISC-V для встраиваемых устройств. Данный рынок продолжает активно развиваться, что говорит о росте популярности открытой архитектуры RISC-V.

Постоянный URL: http://servernews.ru/1107129
22.06.2024 [15:01], Сергей Карасёв

Samsung случайно упомянула о разработке RISC-V чипа для ИИ-задач

В ходе конференции ISC 2024 компания Samsung, по сообщению HPC Wire, намекнула на разработку некоего чипа на открытой архитектуре RISC-V. Предполагается, что это изделие будет использоваться при решении задач, связанных с ИИ и НРС.

На одном из продемонстрированных южнокорейским производителем слайдов упоминается изделие CPU/ИИ-ускоритель на базе RISC-V («RISC-V CPU/AI accelerator from Samsung»). О чём именно идёт речь, сказать трудно. Возможно, Samsung проектирует процессор RISC-V с нейромодулем для ускорения ИИ-операций. С другой стороны, это может быть самостоятельный чип, предназначенный для работы в связке с ИИ-ускорителем. Например, Google уже использует RISC-V процессоры SiFive вместе со своим TPU.

 Источник изображения: Samsung / HPC Wire

Источник изображения: Samsung / HPC Wire

Отмечается, что слайд был показан на сессии ISC 2024, посвящённой инициативе UXL Foundation (Unified Acceleration Foundation). Целью данного проекта является создание универсального открытого ПО, которое позволит разработчикам ИИ-решений отказаться от CUDA и использовать ускорители других производителей. В состав UXL входят Intel, Qualcomm, Samsung, Arm и Google.

На слайде также упоминается модель параллельного программирования в контексте вычислений в памяти. Данная концепция позволяет повысить производительность, в том числе при обучении ИИ-моделей. Ранее Samsung и AMD представили экспериментальный ИИ-суперкомпьютер, скрестив «вычислительную» память HBM-PIM и ускорители Instinct MI100. Кроме того, Samsung работает над похожей концепцией PNM (processing-near-memory), которая будет использоваться в модулях памяти CXL.

Samsung также работает над собственными ИИ-ускорителями Mach-1, которые уже заказала ведущая южнокорейская интернет-компания Naver. По заявлениям Samsung, изделие Mach-1 позволяет выполнять инференс больших языковых моделей (LLM) даже с маломощной памятью. Таким образом, есть вероятность, что новый RISC-V-процессор Samsung сможет работать в связке с ИИ-ускорителями компании для максимизации производительности.

Постоянный URL: http://servernews.ru/1106897
22.06.2024 [00:05], Алексей Степин

Альянс CHERI будет продвигать технологию надёжной защиты памяти от атак — первой её могут получить процессоры RISC-V

В современных процессорах немало возможностей для атак связано с особенностями работы современных подсистем памяти. Для противостояния подобным угрозам Capabilities Limited, Codasip, FreeBSD Foundation, lowRISC, SCI Semiconducto и Кембриджский университет объявили о создании альянса CHERI (Capability Hardware Enhanced RISC Instructions).

Целью новой организации должна стать помощь в стандартизации, популяризации и продвижении на рынок разработанных Кембриджским университетом совместно с исследовательским центром SRI International процессорных расширений, позволяющих аппаратно реализовывать механизмы защиты памяти, исключающие целый ряд потенциальных уязвимостей, например, переполнение буфера или некорректная работа с указателями.

 Источник: University of Cambridge

Источник: University of Cambridge

Сама технология имеет «модульный» характер. Она может применяться выборочно для защиты функций от конкретных атак и требует лишь весьма скромной адаптации кода. Согласно заявлению CHERI Alliance, огромный пул уже наработанного ПО на языках семейств С и C++ может быть легко доработан для серьёзного повышения уровня безопасности.

 Источник: University of Cambridge

Источник: University of Cambridge

Кроме того, данная технология позволяет реализовать высокопроизводительные и масштабируемые механизмы компартментализации (compartmentalization) и обеспечения минимально необходимых прав (least privilege). Такое «разделение на отсеки» должно защитить уже скомпрометированную систему и не позволить злоумышленнику развить атаку, даже если он воспользовался ранее неизвестной уязвимостью.

 Механика работы расширений CHERI с памятью. Источник: University of Cambridge

Механика работы расширений CHERI с памятью. Источник: University of Cambridge

Технологии, предлагаемые альянсом CHERI, хорошо проработаны — их развитие идёт с 2010 года, а актуальность массового внедрения подобных решений за прошедшее время успела лишь назреть. Однако для успеха данной инициативы потребуется широкое содействие со стороны индустрии как аппаратного обеспечения, так и программного.

 Блок-схема Arm Morello. Источник: Arm

Блок-схема Arm Morello. Источник: Arm

Участники альянса настроены оптимистично, однако в их число пока не входит ни один из крупных разработчиков CPU, в частности, Arm. В настоящее время главной архитектурой для приложения своих усилий они видят RISC-V, о чём свидетельствует документация на CHERI ISAv9. Впрочем, черновой вариант расширений имеется и для x86-64.

Сама Arm этого оптимизма не разделяет. Компания имеет за плечами пятилетний опыт разработки проекта Morello, основанному на идеях CHERI, но, по словам представителя Arm, процесс тестирования прототипов защищённых систем выявил ряд ограничений, пока препятствующий их широкому распространению на рынке. Тем не менее, работы над платформой Morello будут продолжены. При этом буквально на днях для Arm-процессоров была выявлена атака TikTag, направленная на обход механизма защиты памяти Memory Tagging Extensions (MTE).

Постоянный URL: http://servernews.ru/1106875
15.06.2024 [00:25], Алексей Степин

Intel поймала AMD на подтасовке результатов в ИИ-тестах EPYC против Xeon

На Computex 2024 AMD анонсировала новое поколение серверных процессоров EPYC Turin на базе архитектуры Zen 5. При этом компания продемонстрировала слайды, из которых следует, что новые решения серьёзно опережают процессоры Intel Xeon. Так, 128-ядерный Turin сравнивается с 64-ядерным Xeon Platinum 8592+ (Emerald Rapids). AMD говорит о 2,5–5,4-кратном превосходстве, однако Intel опровергает полученные результаты и достаточно подробно разбирает вопрос тестирования в своём блоге.

Конечно, превосходство AMD в чисто количественных показателях очевидно, но в сложных вычислительных задачах, к которым относятся HPC- и ИИ-сценарии, не меньшую, а то и большую роль может играть оптимизация ПО. Intel отмечает, что AMD не привела в своём анонсе конкретных сведений о версиях и настройках ПО, и, вероятнее всего, отказалась от различных расширений. Но, например, Intel Extension for PyTorch (IPEX) позволяет добиться более чем пятикратного прироста производительности по сравнению с «чистой» версией PyTorch.

Для системы с двумя Xeon Platinum 8592+ применение IPEX позволяет поднять производительность инференса в режиме INT4 с чат-ботом на базе Llama2-7B со 127 до 686 запросов в секунду при заданной задержке не более 50 мс. Для своей 256-ядерной платформы на базе Turin AMD говорит про 671 запрос — как видно, с оптимизацией результаты получаются вполне сопоставимыми.

 Источник: AMD

Источник: AMD

И потенциал для дальнейшего роста у Xeon есть: Intel сообщает, что при отключении функции Sub-NUMA Clustering результат может достигать 740 запросов. К сожалению, для других тестов компания диаграмм не опубликовала, хотя и там оптимизация позволяет добиться увеличения производительности в 1,2–2,3 раза. Этого уже не хватает, чтобы бороться с платформой Turin, которая, помимо превосходства в числе ядер, использует и более мощную 12-канальную подсистему памяти.

 Источник: Intel

Источник: Intel

Следует отметить, что Intel не сказала последнего слова: Xeon Platinum 8592+ уже не нов, а в ближайшем будущем AMD Turin придётся столкнуться с Xeon 6 с большим числом ядер. Пока эти чипы доступны лишь в исполнении с энергоэффективными ядрами, но уже в III квартале появятся и 128-ядерные Granite Rapids с производительными P-ядрами и 12-канальной памятью.

 Источник: Intel

Источник: Intel

Тем не менее, тема затронута достаточно фундаментальная: свои плюсы имеет как чисто количественный подход, которого придерживается AMD, так и подход Intel, позволяющий добиться высоких результатов при тщательной оптимизации под более комплексную архитектуру. Нельзя сказать, что результаты AMD являются мошенничеством, хотя случай и не первый — согласно тестам компании, ускоритель Instinct MI300X серьёзно опередил NVIDIA H100, но при этом AMD точно так же «забыла» про оптимизированный фреймворк TensorRT-LLM. Правда, в тот раз «честь мундира» отстоять удалось и с оптимизациями NVIDIA.

Постоянный URL: http://servernews.ru/1106533
04.06.2024 [14:15], Сергей Карасёв

Intel представила процессоры Xeon 6 с P- и E-ядрами: 144-ядерные 6700E уже доступны

Корпорация Intel представила процессоры Xeon 6, предназначенные для решения различных задач — от поддержания облачных приложений до нагрузок, связанных с ИИ и НРС. Процессоры Xeon 6 E-core стали доступны с сегодняшнего дня. Поставки Xeon 6 P-core будут организованы в III квартале текущего года.

Напомним, схему обозначения чипов Xeon компания Intel изменила в апреле нынешнего года, отказавшись от бренда Scalable в пользу более простой нумерации — в данном случае Xeon 6. В это семейство вошли изделия на основе исключительно энергоэффективных ядер E-core (Sierra Forest) и на базе производительных ядер P-core (Granite Rapids).

 Источник изображений: Intel

Источник изображений: Intel

Intel обещает увеличение производительности на Вт в 2,6 раза по сравнению с Cascade Lake-SP при выполнении задач, связанных с транскодированием мультимедийных материалов. Прирост производительности на уровне стойки достигает 4,2 раза благодаря высокой плотности размещения вычислительных ядер. Чипы ориентированы прежде всего на облачные приложения, сети доставки контента, сетевые микросервисы и потребительские цифровые сервисы.

Процессоры Xeon 6 разделены на серии 6700 и 6900. В обоих случаях обеспечивается поддержка CXL 2.0 (Type 1, Type 2 и Type 3). Для изделий 6700 Series заявлено 1,4-кратное увеличение пропускной способности памяти и 1,1-кратное повышение I/O-производительности по сравнению с Xeon Emerald Rapids. В свою очередь, решения 6900 Series обеспечивают увеличение пропускной способности между сокетами до 1,8 раза по сравнению с Xeon Emerald Rapids. Благодаря этому существенно повышается производительность при выполнении наиболее ресурсоёмких задач.

На сегодняшний день в семействе Xeon 6700 Sierra Forest представлены семь чипов в исполнении LGA 4710: это модели Xeon 6710E, Xeon 6731E, Xeon 6740E, Xeon 6746E, Xeon 6756E, Xeon 6766E и Xeon 6780E. Они насчитывают от 64 до 144 E-ядер без поддержки многопоточности, так что по количеству ядер и потоков они заведомо отстают от AMD EPYC Turin. Поддерживается оперативная память DDR5-5600/6400. Количество линий PCIe 5.0 / CXL 2.0 равно 88. Объём кеша L3 — 96 или 108 Мбайт. Показатель TDP варьируется от 205 до 330 Вт.

Постоянный URL: http://servernews.ru/1105900
03.06.2024 [23:30], Алексей Степин

Поплотнее и попроще: AMD EPYC Turin получат до 128 ядер Zen 5 и до 192 ядер Zen 5c

AMD продолжает прочно удерживать первенство по плотности упаковки ядер среди процессоров с архитектурой x86. Сегодня компания показала чипы EPYC Turin, которые увидят свет в двух вариантах — обычном, идущим на смену Genoa, и высокоплотном (Dense), который должен будет заменить Bergamo и конкурировать с Intel Xeon 6 (Sierra Forest) на рынке решений для гиперскейлеров и провайдеров облачных услуг.

В основу обоих серий лягут архитектуры Zen 5 и Zen 5c соответственно. В текущем поколении EPYC Genoa предлагают 96 ядер Zen 4, а Bergamo — 128 ядер Zen 4c. В поколении Turin количество подрастёт до 128 ядер, а Turin Dense достигнет отметки 192 ядра (384 потока). Компоновка этих процессоров будет различаться.

 Источник здесь и далее: ComputerBase.de

Источник здесь и далее: ComputerBase.de

Классические Turin получат компоновку из 17 чиплетов. Центральное место, как и прежде, займёт чиплет ввода-вывода (IOD), он по-прежнему будет выпускаться с использованием 6-нм техпроцесса. Не изменится даже процессорный разъём, это по-прежнему будет SP5, причём обещана совместимость с уже доступными платформами для Genoa.

Чиплеты CCD, расположенные в четыре ряда справа и слева от IOD, переведены на использование техпроцесса N4P, а общее количество 8-ядерных CCD составляет 16, что в пределе и даёт заявленные 128 ядер. По имеющимся сведениям, общий объём кеша достигнет 512 Мбайт.

 Turin Dense получит новые высокоплотные 16-ядерные чиплеты

Turin Dense получит новые высокоплотные 16-ядерные чиплеты

Процессоры Turin Dense будут состоять из 13 чиплетов, из них 12 получат по 16 ядер. Достигнуто это как оптимизацией архитектуры, так и применением 3-нм техпроцесса. Относительно компоновки Genoa CCD развёрнуты на 90°, что обеспечивает практически одинаковую длину интерконнекта до IOD. Возможно, это позволит немного сократить латентность. Объём кеша здесь меньше — до 384 Мбайт.

Поскольку в обоих вариантах используется если не старый, то как минимум совместимый IOD, то речь по-прежнему идёт о 12-канальной подсистеме памяти DDR5 и 128 линиях шины PCI Express. Возможно, немного подрастёт частота работы модулей DIMM.

Постоянный URL: http://servernews.ru/1105884
22.05.2024 [21:45], Руслан Авдеев

Google обогнала AMD на рынке процессоров для ЦОД и вот-вот догонит Intel

В прошлом месяце компания Google анонсировала долгожданный серверный CPU на архитектуре Arm. Впрочем, как сообщает The Register, она уже оказалась третьей на рынке процессоров для ЦОД (сюда входят не только CPU, но и GPU, TPU и иные ускорители). Согласно отчёту TechInsights, компания теперь уступает только NVIDIA и Intel и давно обогнала AMD.

 Источник изображения: Google

Источник изображения: Google

Как и другие крупные облачные операторы, IT-гигант выпускает собственные чипы TPU, шестое поколение которых было представлено на прошлой неделе. Хотя на сторону их не продают, компания заказывает огромные партии TPU для оснащения собственных ЦОД — только в прошлом году речь шла о 2 млн штук. Ключевым партнёром Google в создании кастомного «кремния» является Broadcom.

Поставки TPU нарастают с каждым поколением, следуя за ростом самой компании. После премьеры TPU v4 в 2021 году в связи с развитием больших языковых моделей (LLM) объём полупроводникового бизнеса Google значительно вырос. TPU применяются компанией для внутренних задач, а ускорители NVIDIA — для облака. В TechInsights считают, что на сегодняшний день у Google имеется крупнейшая в отрасли база установленных ИИ-ускорителей и самая масштабная ИИ-инфраструктура.

 Источник изображения: TechInsights

Источник изображения: TechInsights

В прошлом году на серверным рынке произошла «масштабная коррекция запасов» — гиперскейлеры увеличили срок службы оборудования, отложив замену серверов общего назначения и повысив капитальные затраты на ИИ-серверы и ускорители NVIDIA. Аналитики Omdia говорят о таких тенденциях на рынке что в прошлом, что в начале этого года. В TechInsights считают, что по итогам I квартала 2024 года Google сможет догнать или даже перегнать Intel по доле на этом рынке.

Конечно, Google — не единственная облачная компания, разрабатывающая собственные чипы. Microsoft работает над серверным CPU Azure Cobalt и ИИ-ускорителями Maia 100. AWS и вовсе годами использует собственные Arm-процессоры Graviton и ИИ-ускорители серий Trainium и Inferentia. В прошлогоднем докладе Bernstein Research сообщалось, что архитектуру Arm используют уже около 10 % серверов по всему миру, а более 50 % из них внедряется AWS. Softbank в начале 2023 года говорила о том, что Arm захватила 5 % облачного рынка.

 Источник изображения: TechInsights

Источник изображения: TechInsights

Впрочем, с появлением процессоров TPU V5e и TPU V5p решения Google будут использоваться всё шире из-за «взрывного роста» больших языковых моделей вроде Gemini. В 2024 году у Google появится Arm-процессор Axion. И его внедрение, по мнению TechInsights, будет происходить намного быстрее, чем Graviton, поскольку у Google уже имеется программная инфраструктура для такого чипа. Всё это необходимо компании, чтобы идти в ногу с AWS, Microsoft и, в меньшей степени, Alibaba. При этом в докладе упоминается, что рынок полупроводников для ЦОД быстро меняется — раньше на нём доминировала Intel с архитектурой x86. Теперь его структура определяется потребностями ИИ-систем.

Постоянный URL: http://servernews.ru/1105235
22.05.2024 [00:00], Алексей Степин

EPYC для самых маленьких: AMD представила серверные процессоры EPYC 4004 для сокета AM5

AMD продолжает активно расширять серию серверных процессоров EPYC, причём не только «вверх», но и «вниз». Первой ласточкой стал выпуск упрощённых моделей EPYC 8004 Siena с ядрами Zen4c для периферийных вычислений, а сегодня компания анонсировала ещё более доступные односокетные EPYC 4004, стоимость которых начинается со $149.

EPYC 4004 целиком построены на базе Ryzen 7000 и используют тот же разъём AM5. Этим анонсом AMD закрывает ещё одну нишу — серверные системы начального уровня, где Intel выступает с модельным рядом Xeon E. Позиционируются такие системы либо как компактные и энергоэффективности решения, например, для выделенных серверов с минимальной удельной стоимостью, либо как корпоративные платформы начального уровня для малого бизнеса.

 Источник изображений: AMD

Источник изображений: AMD

В таких системах ничто не мешает использовать Ryzen 7000, что и делают многие вендоры. Более того, многие уже выпустили обновления BIOS/UEFI, добавляющие таким системам поддержку EPYC 4004. Однако формально Ryzen никогда не были серверным продуктом и, например, лишены поддержки RDIMM. Речь по-прежнему идёт о двухканальной DDR5-5200 в небуферизированных модулях UDIMM. Максимальный объём ограничен 192 Гбайт, но у Xeon E-2400 он ещё меньше и составляет всего 128 Гбайт, да к тому же DDR5-4800. Процессоры предоставляют в распоряжение системы 28 линий PCI Express 5.0, что, больше, чем у Xeon E-2400, насчитывающего всего 16 таких линий.

По сути, AMD EPYC 4004 являются перемаркированными Ryzen 7000 с Zen4-ядрами, однако есть отличия: младшая 4-ядерная модель 4124P не имеет «потребительского» аналога. Максимальное количество ядер по-прежнему 16, причём в двух вариантах — 4584PX с 3D V-Cache (128 Мбайт L3-кеша) и обычном 4564P (64 Мбайт L3-кеша). В турборежиме оба флагмана могут разгоняться до 5,7 ГГц, но базовое значение у 4564P выше (4,5 ГГц), ценой повышенного со 120 до 170 Вт теплопакета. Внутри это по-прежнему чиплетные решения с 6-нм IO-блоком, одним-двумя кристаллами с восемью 5-нм ядрами и графикой RDNA2.

Вся «серверность» EPYC 4004 сводится к поддержке внешнего BMC-контроллера, возможности создания программных RAID-массивов в RAIDXpert2 for Server и совместимости с современными серверными ОС. Однако у новинок в сравнении с E-2400 есть бонус в виде поддержки AVX-512. Как показывают результаты тесто Phoronix, флагманские модели AMD EPYC 4004 в среднем почти вдвое опережают старший Xeon E-2488, а стоят при этом ненамного больше.

 Источник: Phoronix

Источник: Phoronix

У AMD на этот раз определённо получилось очень удачное решение, аналогов которому по сочетанию стоимости и производительности у конкурента просто нет. Определённую опасность для EPYC 4004 могли бы представлять процессоры Xeon D-2800, имеющие до 22 ядер и полноценную поддержку AVX-512, но это специфические решения для сетевых систем и серверов периферийных вычислений, имеющие существенно более высокую стоимость.

Постоянный URL: http://servernews.ru/1105170
18.05.2024 [20:00], Алексей Степин

256 ядер и 12 каналов DDR5: Ampere обновила серверные Arm-процессоры AmpereOne и перевела их на 3-нм техпроцесс

Весной прошлого года компания Ampere Computing анонсировала наследников серии процессоров Altra и Altra Max — чипы AmpereOne с более высокими показателями производительности, энергоэффективности и масштабируемости. На момент анонса AmpereOne получили до 192 ядер, восемь каналов DDR5 и 128 линий PCIe 5.0.

Кроме того, эти чипы могут работать и в двухсокетных платформах. Позднее AmpereOne стали доступны у нескольких облачных провайдеров, а главным бенефециаром их появления стала Oracle, когда-то инвестировавшая в Ampere Computing значительные средства. Компания перевела все свои облачные сервисы на процессоры Ampere и даже портировала на них свою флагманскую СУБД. В общем, повторила путь AWS и Alibaba Cloud с процессорами Graviton и Yitian соответственно.

Но если последние являются облачным эксклюзивом, то чипы Ampere хоть и ориентированы в первую очередь на гиперскейлеров, более-менее доступны и небольшим компаниям. Поэтому в процессорной гонке останавливаться нельзя, так что на днях Ampere объявила об обновлении модельного ряда AmpereOne, запланированного к выпуску в 2025 году. Новые модели будут использовать продвинутый техпроцесс TSMC N3.

 Источник здесь и далее: Ampere Computing via ServeTheHome

Источник здесь и далее: Ampere Computing via ServeTheHome

Согласно опубликованным планам, семейство AmpereOne какое-то время будет существовать в двух ипостасях: изначальном варианте 2023 года с 8-канальным контроллером памяти и 192 ядрами в пределе, производящемся с использованием 5-нм техпроцесса, и новом 3-нм, уже готовом к массовому производству. Ожидается, что 192-ядерный вариант с 12 каналами DDR5 станет доступен в конце этого года.

 Фирменные технологии Ampere серии Flex позволят гибко управлять характеристиками платформы

Фирменные технологии Ampere серии Flex позволят гибко управлять характеристиками платформы

3-нм вариант AmpereOne получит до 256 ядер и 12 каналов DDR5, однако отличать его будет не только это. К примеру, в нём дебютируют технологии FlexSpeed и FlexSKU, позволяющие на лету, без перезагрузок или выключения системы оперировать различными параметрами процессора — тактовой частотой, теплопакетом и даже количеством активных ядер. При этом FlexSpeed обеспечит детерминированный прирост производительности в отличие от x86-64, говорит компания.

Ampere утверждает, что новые AmpereOne превзойдут в удельной производительности на Вт AMD EPYC Bergamo и обеспечат более высокую производительность в пересчёте на стойку, нежели AMD EPYC Genoa. Особенное внимание компания уделяет энергоэффективности AmpereOne, которая заключается не только в экономии электроэнергии, но и драгоценного места в ЦОД. Проще говоря, компания упирает на повышение плотности размещения вычислительных мощностей.

Заодно Ampere в который раз говорит, что в инференс-сценариях её процессоры сопоставимы с некоторыми ускорителями, в частности, NVIDIA A10, но при этом существенно дешевле и экономичнее. В пересчёте на токены при производительности порядка 80 токенов в секунду платформа Ampere обходится на 28% дешевле и в то же время потребляет меньше энергии на целых 67%!

Более того, Ampere заключила союз с Qualcomm для выпуска серверной платформы, сочетающей AmpereOne в качестве процессоров общего назначения и ИИ-ускорителей Qualcomm Cloud AI 100 Ultra. Если сами процессоры успешно работают с LLM сравнительно небольшой сложности (до 7 млрд параметров), то новая платформа позволит запускать и сети с 70 млрд параметров. Кроме того, есть и готовое решение с VPU Quadra T1U.

Увидит ли свет в будущем гибридный процессор Ampere Computing с UCIe-чиплетами, будет зависеть от решений, принятых группой AI Platform Alliance, возглавленной Ampere Computing ещё осенью прошлого года. Но это вполне реальный сценарий: блоки ускорения специфических для ИИ-задач вычислений активно внедряются не только в серверных решениях, подобных Intel Xeon Sapphire/Emerald Rapids — сопроцессоры NPU уже дебютировали в потребительских и промышленных CPU Intel и AMD.

При этом Ampere Computing, вероятно, придётся несколько поменять политику дальнейшего развития, поскольку основными конкурентами для неё являются не только 128-ядерные AMD EPYC Bergamo и готовящиеся 144- и 288-ядерные Intel Xeon Sierrra Forest, но и Arm-процессоры Google Axion и Microsoft Cobalt 100, которые изначально создавались гиперскейлерами под свои нужды, а потому наверняка лучше оптимизированы под их задачи и, вероятнее всего, к тому же дешевле, чем продукты Ampere.

Постоянный URL: http://servernews.ru/1105029
16.05.2024 [01:05], Игорь Осколков

И для ИИ, и для HPC: первые европейские серверные Arm-процессоры SiPearl Rhea1 получат HBM-память

Компания SiPearl уточнила спецификации разрабатываемых ею серверных Arm-процессоров Rhea1, которые будут использоваться, в частности, в составе первого европейского экзафлопсного суперкомпьютера JUPITER, хотя основными чипами в этой системе будут всё же гибридные ускорители NVIDIA GH200. Заодно SiPearl снова сдвинула сроки выхода Rhea1 — изначально первые образцы планировалось представить ещё в 2022 году, а теперь компания говорит уже о 2025-м.

При этом существенно дизайн процессоров не поменялся. Они получат 80 ядер Arm Neoverse V1 (Zeus), представленных ещё весной 2020 года. Каждому ядру полагается два SIMD-блока SVE-256, которые поддерживают, в частности, работу с BF16. Объём LLC составляет 160 Мбайт. В качестве внутренней шины используется Neoverse CMN-700. Для связи с внешним миром имеются 104 линии PCIe 5.0: шесть x16 + две x4. О поддержке многочиповых конфигураций прямо ничего не говорится.

 Источник изображения: SiPearl

Источник изображения: SiPearl

Очень похоже на то, что SiPearl от референсов Arm особо и не отдалялась, поскольку Rhea1 хоть и получит четыре стека памяти HBM, но это будет HBM2e от Samsung. При этом для DDR5 отведено всего четыре канала с поддержкой 2DPC, а сам процессор ожидаемо может быть поделён на четыре NUMA-домена. И в такой конфигурации к общей эффективности работы с памятью могут быть вопросы. Именно наличие HBM позволяет говорить SiPearl о возможности обслуживать и HPC-, и ИИ-нагрузки (инференс).

 Источник изображения: SiPearl

Источник изображения: SiPearl

На примере Intel Xeon Max (Sapphire Rapids c 64 Гбайт HBM2e) видно, что наличие сверхбыстрой памяти на борту даёт прирост производительности в означенных задачах, хотя и не всегда. Однако это другая архитектура, другой набор инструкций (AMX), другая же подсистема памяти и вообще пока что единичный случай. С Fujitsu A64FX сравнения тоже не выйдет — это кастомный, дорогой и сложный процессор, который, впрочем, доказал эффективность и в HPC-, и даже в ИИ-нагрузках (с оговорками). В MONAKA, следующем поколении процессоров, Fujitsu вернётся к более традиционному дизайну.

 Источник изображения: EPI

Источник изображения: EPI

Пожалуй, единственный похожий на Rhea1 чип — это индийский 5-нм C-DAC AUM, который тоже базируется на Neoverse V1, но предлагает уже 96 ядер (48+48, два чиплета), восемь каналов DDR5 и до 96 Гбайт HBM3 в четырёх стеках, а также поддержку двухсокетных конфигураций. AWS Graviton3E, который тоже ориентирован на HPC/ИИ-нагрузки, вообще обходится 64 ядрами Zeus и восемью каналами DDR5. Наконец, NVIDIA Grace и Grace Hopper в процессорной части тоже как-то обходятся интегрированной LPDRR5x, да и ядра у них уже Neoverse V2 (Demeter), и своя шина для масштабирования имеется.

 Источник изображения: EPI

Источник изображения: EPI

В любом случае в 2025 году Rhea1 будет выглядеть несколько устаревшим чипом. Но в этом же году SiPearl собирается представить более современные чипы Rhea2 и обещает, что их разработка будет не столь долгой как Rhea1. Компанию им должны составить европейские ускорители EPAC, тоже подзадержавшиеся. А пока Европа будет обходиться преимущественно американскими HPC-технологиями, от которых стремится рано или поздно избавиться.

Постоянный URL: http://servernews.ru/1104880
Система Orphus