Материалы по тегу: cpu

27.01.2023 [11:57], Алексей Степин

PEZY Computing всё-таки выпустила процессор PEZY-SC3 — 4096 кастомных ядер и 19,7 Тфлопс FP64

Японская компания PEZY Computing, являющаяся разработчиком процессоров с любопытными архитектурными решениями, ещё в 2017 году столкнулась с обвинениями в мошенничестве. Однако, похоже ей удалось преодолеть трудности. В Twitter появился ряд любопытных цифр, описывающих процессор PEZY-SC3, в том числе данные о техпроцессе, производительности нового чипа в Linpack, а также об энергоэффективности новинки.

 PEZY-SC3. Источник здесь и далее: Twitter

PEZY-SC3. Источник здесь и далее: Twitter

Напомним, в отличие от широко распространённого принципа SIMD (одна инструкция, множество данных), чипы PEZY-SC используют MIMD (много инструкций, множество данных), предусматривающую независимую асинхронную работу множества сравнительно несложных ядер; уже в первом поколении PEZY-SC их было 1024. Благодаря MIMD чип удалось сделать достаточно простым, сэкономив транзисторный бюджет на блоках типа планировщика внеочередного исполнения инструкций.

Третье поколение, как и планировалось ранее, использует техпроцесс TSMC класса 7 нм и состоит из 4096 кастомных RISC-подобных ядер, что делает процессор PEZY-SC3 похожим на GPU. Для управления этим вычислительным массивом в составе чипа имеется два шестиядерных кластера с архитектурой MIPS64. Площадь кристалла новинки равна 786 мм2, максимальное тепловыделение — 470 Вт.

Структура кристалла и архитектура PEZY-SC3. Полноразмерное изображение доступно по клику

PEZY-SC3 реализует многоуровневую архитектуру памяти, предусматривающую одновременное использование HBM2 и DDR4. Есть четыре стека HBM2 c пропускной способностью 307,2 Гбайт/с каждый, что совокупно дает 1,23 Тбайт/с — больше, чем у Intel Xeon Max (приблизительно 1 Тбайт/с). Ещё 50 Гбайт/с обеспечивает классическая память DDR4.

Производительность PEZY-SC3 составляет 19,7 Тфлопс в режиме FP64, для FP32 и FP16 заявлено 39,3 и 76,8 Тфлопс соответственно, что существенно превосходит показатели NVIDIA A100. Специфических блоков тензорных вычислений японский процессор не имеет, но отличается большей универсальностью, нежели решение NVIDIA.

 Старые планы PEZY. По ряду параметров PEZY-SC3 с ранее опубликованными данными не совпадает

Старые планы PEZY. По ряду параметров PEZY-SC3 с ранее опубликованными данными не совпадает: в частности, ядер у него в два раза меньше

Чип PEZY-SC3 неплохо проявил себя с точки зрения энергоэффективности, показав в тесте Linpack эффективность 24,6 Гфлопс/Вт, что позволило занять ему 12 место в рейтинге Green500. Выше на момент публикации результатов в ноябре 2021 года в список вошли только системы с ускорителями NVIDIA A100.

Благодаря своей универсальности, PEZY-SC3 хорошо подходит для сложных научных вычислений, да и потенциал энергоэффективности до конца не исчерпан и может быть повышен при дальнейшей оптимизации ПО с учётом особенностей архитектуры MIMD.

Постоянный URL: http://servernews.ru/1080916
20.01.2023 [15:28], Алексей Степин

NVIDIA Grace Superchip получит 144 Arm-ядра, 960 Гбайт набортной памяти LPDDR5x и 128 линий PCIe 5.0, а TDP составит 500 Вт

Grace можно назвать одним из самых амбициозных проектов NVIDIA. О намерении ворваться на рынок мощных серверных процессоров компания объявила ещё на GTC 2022, но до недавних пор о чипах Grace были доступны лишь общие сведения. Однако ситуация меняется. NVIDIA явно располагает рабочим «кремнием», и на днях опубликовала пару деталей о Grace Superchip. Ожидается, что официальный анонс новинки состоится в марте этого года на GTC 2023.

Эта сборка включает в себя два 72-ядерных кристалла Grace, использующих ядра Arm Neoverse V2. Данное ядро использует набор инструкций Armv9, а также имеет четыре 128-битных блока векторных расширений SVE2, блоки для работы с матрицами и поддержку BF16/INT8. Объём кеша L1 составляет по 64 Кбайт для инструкций и данных, L2 — 1 Мбайт на ядро, а общий объём L3 на сборку достигает 234 Мбайт.

 Блок-схема сборки Grace Superchip. Источник изображений здесь и далее: NVIDIA

Блок-схема сборки Grace Superchip. Источник изображений здесь и далее: NVIDIA

Между собой кристаллы соединены шиной NVLink C2C с пропускной способность 900 Гбайт/с, и работают они как единый 144-ядерный процессор. Но это ещё не всё: каждый из кристаллов соединен со своим банком памяти LPDDR5x ECC шиной с пропускной способностью 500 Гбайт/с (т.е. суммарно на чип получается 1 Тбайт/с). Совокупный объём памяти может достигать 960 Гбайт.

 Сравнение производительности и энергоэффективности Grace Superchip с двумя AMD EPYC 7763 (Milan)

Сравнение производительности и энергоэффективности Grace Superchip с двумя AMD EPYC 7763 (Milan)

Сборка Grace Superchip общается с внешним миром посредством восьми комплексов PCIe 5.0 x16 (всего 128 линий, поддерживается бифуркация). Чип при теплопакете 500 Вт (вместе с набортной памятью) способен развивать 7,1 Тфлопс на вычислениях двойной точности. С учетом интегрированной памяти это делает Grace Superchip интересной альтернативой AMD Genoa.

Программная экосистема платформы NVIDIA Grace. По клику открывается полноразмерная версия.

Помимо данных о производительности в режиме FP64 компания уже опубликовала результаты тестов новинки в HPC-нагрузках, где сравнила своё детище с двухсокетной системой на базе AMD EPYC 7763. Выигрыш в производительности составляет от 1,5x до 2,5x, но что не менее важно — Grace Superchip намного эффективнее энергетически, здесь преимущество может достигать 3,5x. В условиях высокоплотных ЦОД или HPC-кластеров это может стать решающим.

Постоянный URL: http://servernews.ru/1080622
17.01.2023 [15:33], Сергей Карасёв

Intel Xeon на китайский лад: Montage представила защищённые процессоры Jintide четвёртого поколения на базе Sapphire Rapids

Китайская компания Montage Technology анонсировала процессор Jintide четвёртого поколения, рассчитанный на облачные платформы, корпоративные нагрузки, ИИ-приложения и системы НРС. В основу решения положен новейший чип Intel Xeon Sapphire Rapids, о котором можно подробно узнать в нашем материале. Ключевые отличия Jintide от стандартных Xeon заключаются в расширенных функциях безопасности.

В новинках используются технологии PrC и DSC, которые обеспечивают различные уровни аппаратной защиты. Кроме того, такие чипы лучше адаптированы под потребности китайских поставщиков серверного оборудования. Решения Jintide совместимы с экосистемой x86, обладают хорошей масштабируемостью, гибкостью и удобством использования. Jintide — это комплексная платформа Montage, работающая в тандеме с фирменными гибридными модулями оперативной памяти HSDIMM, которые также обеспечивают защиту на аппаратном уровне.

 Источник изображения: Montage Technology

Источник изображения: Montage Technology

Конфигурация Jintide четвёртого поколения включает до 48 вычислительных ядер и до 105 Мбайт кеша. Максимальная частота в турбо-режиме составляет 4,2 ГГц. Поддерживается работа с памятью. Заявлена поддержка инструкций AMX (Advanced Matrix Extensions), памяти DDR5-4800 и 80 линий PCIe 5.0/CXL 1.1. Ранее Montage также представила CXL-экспандеры DDR4/DDR5. По запросу могут быть активированы дополнительные функции: Dynamic Load Balancer (DLB), Intel Data Streaming Accelerator (DSA), Intel In-Memory Analytics Accelerator (IAA), Intel In-Memory Analytics Accelerator и Intel QuickAssist (QAT).

Постоянный URL: http://servernews.ru/1080382
11.01.2023 [03:00], Игорь Осколков

Асимметричный ответ: Intel официально представила процессоры Xeon Sapphire Rapids

Intel официально представила серверные процессоры Xeon семейства Sapphire Rapids (SPR), выход которых изрядно задержался, а также ускорители ранее известные как Ponte Vecchio и теперь объединённые вместе с HBM-версиями SPR в отдельную HPC-серию Max. В этом поколении Intel не смогла догнать AMD EPYC Genoa по числу ядер, числу каналов памяти и линий PCIe, но заготовила ассиметричный, хотя и очень странно реализованный ответ.

Всего представлено 52 модели с числом P-ядер от 8 до 60 и с TDP от 125 до 350 Вт. По числу ядер это существенный апгрейд по сравнению с Ice Lake-SP (до 40 ядер), да и IPC вырос у Golden Cove на 15 % в сравнении с Sunny Cove. Но это существенный проигрыш в сравнении с Genoa (до 96 ядер), особенно если учитывать их максимальный TDP в 360 Вт (cTDP до 400 Вт). Правда, у Sapphire Rapids есть ещё и экономичный режим работы, в котором энергопотребление снижается на 20 %, а производительность для некоторых нагрузок — всего на 5 %.

 Изображения: Intel

Изображения: Intel

Sapphire Rapids предлагают 8 каналов памяти DDR5-4800 (1DPC) и DDR5-4400 (2DPC). 2DPC у Genoa пока что нет. Кроме того, контроллеры поддерживают и модули Optane PMem 300 (Crow Pass), но с учётом того, что производство 3D XPoint прекращено, достаться они могут не всем (впрочем, не всем они и нужны). Ну а маленькая серия Max также включает 64 Гбайт набортной HBM2e-памяти (1,2 Тбайт/с). Остались и отличия в максимальном объёме SGX-анклавов в зависимости от модели CPU.

Однако по числу ядер на узел всё равно лидирует Intel. Если AMD поддерживает только 2S-конфигурации, то Intel снова предлагает и 4S, и 8S (а с момента выхода Cooper Lake-SP прошло немало времени) — на процессор доступно до 4 линий UPI 2.0 (16 ГТ/с в сравнении с 11,2 ГТ/с у Ice Lake-SP). В 2S-платформах Sapphire Rapids также формально обгоняет Genoa по числу линий PCIe 5.0, которых тут по 80 шт. на сокет. Формально потому, что в случае Genoa при желании всё же можно получить 160 линий, пожертвовав скоростью шины между CPU, но в односокетном варианте EPYC в любом случае интереснее Xeon.

Без нюансов тут не обошлось. Так, при бифуркации до 8 x2 скорость падает до PCIe 4.0. Зато каждый root-комплекс поддерживает CXL 1.1, тогда как у Genoa CXL есть только у половины! Впрочем, поддержка всё равно ограничена 4x CXL-устройствами на CPU. Что ещё более странно, официально заявлена поддержка только устройств Type 1 и Type 2, но не Type 3, хотя последние весьма пригодились бы в ряде конфигураций, где требуется больше относительно недорогой, пусть и несколько более медленной, RAM.

Сохранилось традиционное разделение на серии Platinum (8000), Gold (6000/5000), Silver (4000) и Bronze (3000), к которым теперь добавилась серия Max (9400). Список суффиксов, означающих оптимизацию под те или иные задачи и наличие каких-то особенностей, стал чуть шире: Y (SST-PP 2.0), Q (рассчитаны на работу с СЖО), U (односокетные общего назначения), T (увеличенный жизненный цикл), H (in-memory СУБД, аналитика, виртуализация), N (сетевые решения, в том числе для 5G), облачные P/V/M (IaaS/Paa/медиа), S (СХД и HCI).

Но некоторые модели также имеют в названии «+». И вот тут начинается самое интересное! Все процессоры получили «традиционную» (в сравнении с Genoa) реализацию AVX-512, включая DL Boost, а также целый новый набор ИИ-инструкций AMX (до 10 раз быстрее обучение и инференс в сравнении с Ice Lake-SP). Есть и всяческие Speed Select, DDIO, TDX, CET и т.д. Но Sapphire Rapids также получили четыре отдельных ускорителя:

  • Quick Assist Technology (QAT) для задач криптографии и компрессии;
  • Data Streaming Accelerator (DSA) для ускорения перемещения данных между ядрами, кешами, накопителями и сетью;
  • Dynamic Load Balancer (DLB) — аппаратный планировщик для ускорения обработки сетевого трафика;
  • In-Memory Analytics Accelerator (IAA) для ускорения in-memory СУБД, аналитики, обработки Big Data.

Intel заявляет, что средний прирост производительности Sapphire Rapids в сравнении с Ice Lake-SP составил 1,53 раза. А вот для ряда нагрузок, которые могут задействовать новые ускорители прирост производительности на Вт составляет уже до 2,9 раз! То есть Intel продолжает придерживаться стратегии создания максимально универсальных CPU для различных нагрузок. И действительно, спорить с гибкостью Sapphire Rapids трудно. Но какой ценой это достигается? Т.е. буквально: во сколько это обойдётся заказчику? Ответа пока нет.

Дело в том, что в зависимости от модели отличается число доступных и число активированных ускорителей. Фактически в новом поколении используется два вида кристаллов: XCC, «сшитые» из четырёх отдельных тайлов, и монолитные MCC (до 32 ядер, причём 32-ядерных моделей в серии большинство). У каждого тайла в XCC есть по одному блоку QAT, DSA, DLB и IAA, т.е. суммарно на CPU приходится до четырёх ускорителей каждого типа. В случае MCC может быть по два QAT и DLB и по одному DSA и IAA на процессор. Например, у тех моделей, что помечены «+», активно по одному блоку каждого типа, а минимум один DSA активен есть вообще у всех CPU.

За не активированные по умолчанию ускорители придётся заплатить в рамках программы Intel On Demand (SDSi), причём есть опции как с единовременным платежом за постоянную активацию, так и с оплатой по факту использования (это удобно в случае облаков и платформ по типу HPE Greenlake). Исключением являются H-модели, куда входит и самый дорогой ($17000) 60-ядерный процессор 8490H с полностью разблокированными ускорителями и поддержкой 8S-конфигураций, а также процессоры Max, которым доступно только четыре DSA-блока и 2S-платформы, например, 56-ядерный 9480 ($12980).

С одной стороны, желание Intel предоставить больше гибкости заказчикам, а заодно чуть увеличить выход годных к продаже процессоров, понятно. С другой — не очень-то и похоже, что CPU без «лишних» ускорителей отдаются с какой-то существенной скидкой. При этом транзисторный бюджет на них всё равно расходуется. Кроме того, есть ещё момент востребованности этих ускорителей и готовности ПО. У Intel есть и опыт ресурсы для помощи разработчикам, но процесс адаптации в любом случае не мгновенен.

Впрочем, у Intel по сравнению с AMD есть и ещё одно важное преимущество — в среднем более высокая доступность процессоров для большинства заказчиков. Так что с Sapphire Rapids может повториться та же история, что с Ice Lake-SP, когда вендоры здесь и сейчас готовы были предложить Intel-платформы.

В целом же, в новом семействе наиболее любопытны Xeon Max, которые, по словам Intel, по сравнению с прошлым поколением в 3,7 раз производительнее в задачах, завязанных на пропускную способность памяти (а это целый пласт HPC-нагрузок), и которые не так уж дороги. Правда, и здесь без приключений не обошлось — несчастный суперкомпьютер Aurora ожидает утомительный апгрейд его 10 тыс. узлов c простых Xeon Sapphire Rapids на Xeon Max — по полчаса на каждый узел.

Постоянный URL: http://servernews.ru/1080081
28.12.2022 [18:19], Сергей Карасёв

Китайский процессор Loongson 3D5000 содержит 32 ядра в чиплетной компоновке

Китай, находящийся под гнётом американских санкций, продолжает разрабатывать собственные альтернативы аппаратным решениям AMD, Intel и NVIDIA. Очередным таким продуктом, как сообщает ресурс Tom's Hardware, стал процессор Loongson 3D5000. Изделие имеет чиплетную компоновку в упаковке LGA 4129 (75,4 × 58,5 × 6,5 мм) и включает два чипа 3C5000, каждый из которых содержит 16 ядер на микроархитектуре LoongArch, 64 Мбайт кеш-памяти и четыре канала DDR4-3200 ECC.

Таким образом, процессор Loongson 3D5000 насчитывает 32 вычислительных ядра LA464 (архитектура LoongArch). В одном сервере могут быть объединены до четырёх таких чипов, что даст в сумме 128 ядер. Изделие рассчитано на разъём. Процессор может быть сконфигурирован для работы на частоте 2,0 ГГц или 2,2 ГГц: в первом случае показатель TDP достигает 130 Вт, во втором — 170 Вт. При этом у одного чипа 3C500 заявленный уровень TDP составляет 150 Вт при частоте 2,2 ГГц.

 Источник изображения: inance.sina.com.cn

Источник изображения: inance.sina.com.cn

Производством Loongson 3D5000 займётся китайская Semiconductor Manufacturing International Corporation (SMIC). Уже раскрываются показатели быстродействия изделия: в тесте SPEC CPU2006 оно показывает результат в 400 баллов и более 800 баллов в двухсокетной конфигурации. Таким образом, система с четырьмя чипами должна выдать до 1600 баллов. Пробные поставки процессора будут организованы в первой половине 2023 года.

Постоянный URL: http://servernews.ru/1079533
16.12.2022 [23:14], Алексей Степин

IBM анонсировала 24-ядерный процессор POWER10

Чипы IBM POWER отстают от общей тенденции в процессоростроении, нацеленной на увеличение количества ядер: 128 ядер на разъём давно не предел для Arm и даже x86-64 вплотную подобралась к этой цифре с 96-ядерными AMD EPYC Genoa. На их фоне 15-ядерные POWER10 даже с SMT8 смотрятся бледновато, а в системах начального уровня и вовсе используются 4- или 8-ядерные CPU. С недавних пор компания даже стала предлагать их по подписке. Но, как отмечает The Register, вскоре ситуация чуть изменится.

Для того, чтобы упрочнить позицию своей архитектуры, IBM объявила о планах по выпуску 24-ядерного процессора POWER10, который, в первую очередь, будет нацелен на пользователей СУБД Oracle. В таких случаях обычно остро встаёт вопрос лицензирования, однако IBM отметила, что лицензия Oracle Database SE2 предусматривает увеличение количества ядер без повышения стоимости при условии, что количество разъёмов в системе остаётся неизменным. Данный тип лицензии поддерживает не более 2 сокетов и предполагает некоторые ограничения.

 Источник: IBM

Источник: IBM

Самым дешёвым решением IBM POWER, способным работать с ПО Oracle, является S1014 (модель 9105-41B). Это однопроцессорный сервер начального уровня, владельцы которого могут серьёзно выиграть от перехода с 8-ядерного процессора на 24-ядерный. Разумеется, речь идёт только об экономии на лицензиях ПО — насколько 24-ядерная версия POWER10 будет дороже своих 8-ядерных собратьев, пока неизвестно. Но техническая информация о данной системе на сайте IBM уже обновлена.

Отметим, что компании, чьи доходы строятся на лицензировании ПО, знают о росте количества ядер на процессорный разъём и могут менять условия лицензий. В частности, с появлением односокетных 64-ядерных систем на базе AMD EPYC стоимость лицензий VMware стала рассчитываться исходя из количества ядер, а не физических процессоров. На этом фоне ход IBM выглядит достаточно щедрым.

UPD: IT Jungle указывает на важный нюанс — Oracle Database SE2 оценивается в $17500/сокет, причём в случае модульного дизайна CPU (DCM) каждый модуль считается отдельным процессорным разъёмом, тогда как Enterprise Edition обойдётся уже в $47500/ядро. Однако SE2 позволяет использовать только 16 потоков, что даёт всего 2 ядра с SMT8. Так что 24 ядра теоретически позволят запустить несколько экземпляров SE2.

Постоянный URL: http://servernews.ru/1079022
15.12.2022 [23:29], Алексей Степин

MIPS представила eVocore P8700, своё первое высокопроизводительное ядро RISC-V

Процессоры с архитектурой MIPS всё ещё используются в ряде приложений, но активно вытесняются отовсюду архитектурами Arm, а в последнее время и RISC-V. Сама MIPS Technologies после многочисленных проблем более развивать и поддерживать MIPS-решения не намерена (но получать лицензионные отчисления за имеющиеся решения всё ещё готова). Компания официально переключилась на RISC-V и на днях анонсировали eVocore P8700, своё первое ядро на базе данной архитектуры.

 Изображение: MIPS

Изображение: MIPS

Новый дизайн предусматривает наличие от 1 до 8 вычислительных ядер с внеочередным исполнением, объединённых в комплексы размером от 1 до 64 кластеров (512 ядер). Также любопытно, что поддерживается и SMT2, что не очень характерно, к примеру, для высокопроизводительных процессоров на базе архитектуры Arm. Это в максимальной кластерной конфигурации дает поддержку одновременного исполнения 1024 потоков.

 Источник: MIPS

Источник: MIPS

Основой нового ядра является 16-стадийный конвейер шириной 8 инструкций, позволяющий достигать высоких тактовых частот. Используется 48-битная физическая адресация памяти, в качестве системной шины задействована 256-бит ACE/AXI-4; опционально в процессоре на базе P8700 могут присутствовать дополнительные 128-бит шины AXI-4 для периферии и обеспечения когерентности в мультикластерных конфгурациях.

 Устройство ядра eVocore P8700. Источник: TechInsights

Устройство ядра eVocore P8700. Источник: TechInsights

Новинка характеризуется сочетанием высокой производительности с энергоэффективностью; благодаря этому разработчики нацеливают её, главным образом, на рынок транспортных средств — для применения в системах помощи водителю (ADAS) и в системах автопилотов. Также eVocore P8700 может найти применение и в составе классических процессоров для серверов, СХД и даже HPC-систем.

 Изображение: MIPS

Изображение: MIPS

Новое ядро соответствует стандартам ASIL-D и содержит встроенные средства диагностики, для чего в составе предусмотрена специальная шина мониторинга, позволяющая системе быстро восстанавливать работоспособность после сбоя, что крайне важно для применения на транспорте.

Процессор EyeQ Ultra. Источник: Mobileye

По словам MIPS, новое ядро обладает наивысшей однопоточной производительностью в своём классе. С этим утверждением, вероятно, сможет поспорить Ventana Micro Systems, также анонсировавшая производительное ядро RISC-V для процессора Veyron V1. Однако новинка MIPS уже лицензирована крупным разработчиком автопилотов и ADAS Mobileye для использования в чипах EyeQ.

Следует также отметить, что в арсенале MIPS имеются и другие реализации RISC-V, в частности, ядро eVocore I8500, которое не поддерживает внеочередного исполнения инструкций, зато реализует SMT4, что даёт 2048 потоков в 512-ядерном кластере. Кроме того, оба ядра доступны в рамках программы Intel Pathfinder.

Постоянный URL: http://servernews.ru/1078946
13.12.2022 [21:52], Алексей Степин

Ventana анонсировала первый по-настоящему серверный RISC-V процессор Veyron V1: 192 ядра с частотой 3,6 ГГц

Архитектура RISC-V достаточно молода и обычно ассоциируется с экономичными чипами на платах, подобных Raspberry Pi. Однако технически она позволяет создавать и мощные процессоры, способные поспорить с лучшими решениями на базе архитектур Arm и x86. На саммите RISC-V компания Ventana Micro Systems анонсировала целое семейство высокопроизводительных процессоров, первенцем в котором стал чип Veyron V1, который, по словам разработчиков, сможет потягаться в однопоточной производительности с самыми современными CPU класса High-End.

Veyron V1 должен стать самым быстрым процессором с архитектурой RISC-V. Источник: Twitter@risc_v

Новинка нацелена на рынок гиперскейлеров, причём благодаря чиплетному дизайну новый процессор изначально разрабатывался как кастомизируемый под задачи заказчика. Veyron V1 будет предлагаться в виде своеобразного набора-конструктора, включающего в себя один или несколько вычислительных чиплетов Veyron, I/O-хаба и интерконнекта, позволяющего связать все компоненты воедино. Это, по словам разработчиков, должно серьёзно ускорить и удешевить процесс внедрения новой процессорной платформы, снизив расходы на разработку чипов на 75 %, а время создания — до не более чем двух лет.

Платформа Veyron V1 универсальна и покрывает широкий спектр задач. Источник здесь и далее: StorageReview

Вычислительный чиплет Veyron V1 использует продвинутые 64-битные ядра RISC-V и располагает 2 Мбайт кеша L2, а также многопоточным контроллером памяти. Предусмотрены конфигурации чиплета с 6, 8, 12 или 16 ядрами с частотой в районе 3 ГГц, что сопоставимо с решениями Google и AWS. Использоваться процессор может не только в ЦОД, но и в различных встраиваемых системах, базовых станциях 5G или даже клиентских рабочих станциях.

Чиплетная архитектура ускорит цикл разработки и внедрения, а также упростит задачу подключения кастомных ускорителей

Архитектурно дизайн Veyron V1 использует агрессивный конвейер шириной восемь инструкций и с внеочередным исполнением. Чип способен работать на частоте до 3,6 ГГц благодаря использованию 5 нм техпроцесса TSMC. I/O-хаб может производиться с использованием более дешёвых 12 или даже 16-нм техпроцессов. Для соединения компонентов процессора разработан специальный низколатентный интерконнект D2D.

Платформа разработки Veyron V1 и её технические характеристики

Каждый чиплет включает в себя до 16 ядер, предусмотрена возможность масштабирования процессора до 192 ядер в 12 чиплетах. Общий объём разделяемого кеша L3 составляет 48 Мбайт. Заявлен высокий уровень защищённости архитектуры от атак по сторонним каналам. Разработчики заявляют о беспрецедентно низком энергопотреблении: 128 ядер V1 уложатся в 280 Вт; AMD EPYC 7763 потребляет столько же при вдвое меньшем числе ядер.

Ventana поддержит новую платформу на всех уровнях разработки системного и прикладного ПО

Анонс Ventana нельзя назвать «бумажным» — компания говорит о доступности комплектов разработчика, причём сразу в двух типах шасси: в настольном и в серверном корпусе высотой 2U. Конфигурация включает в себя 16-ядерную версию V1, 128 гбайт памяти DDR5, подключенной с помощью интерфейса CXL (PCIe 5.0) x16, два свободных слота расширения PCIe 5.0 x16, загрузочный накопитель NVMe M.2 и 8 NVMe SFF SSD формата 2,5" для хранения данных. Для удалённого управления предусмотрен 1GbE-порт.

Большая часть критически важного программного обеспечения уже портирована на архитектуру RISC-V

Компания не забыла и о поддержке со стороны программного обеспечения: платформы разработчика Ventana Veyron V1 будут сопровождаться полноценным SDK с основным ПО, уже портированным на новую архитектуру. В список входят компиляторы GCC и LLVM, отладчик OpenOCD/GDB, исходные коды и бинарные файлы загрузчиков U-Boot и Tianocore UEFI EDK2.1. Поддерживается ряд дистрибутивов Linux, а также другое системное и прикладное ПО. Ожидается, что новые системы будут доступны в начале следующего года.

Постоянный URL: http://servernews.ru/1078822
29.11.2022 [17:12], Алексей Степин

AWS представила Arm-процессор Graviton3E, оптимизированный для задач ИИ и HPC

Один из крупнейших облачных провайдеров, компания Amazon Web Services объявила о доступности новых инстансов EC2 на базе процессора Graviton3E. Новый чип — наследник анонсированного в конце 2021 года Graviton3, 5-нм 64-ядерного процессора на дизайне Arm Neoverse V1 (Zeus) с поддержкой DDR5 и PCI Express 5.0.

Graviton3 использует набор команд Armv8.4 c расширениями Neon (4×128 бит) и SVE (2×256 бит) и поддерживает работу с популярными в сфере машинного обучения форматами данных INT8 и BF16. В сравнении c Graviton2 процессор быстрее на 25-60 % при сохранении аналогичного уровня тепловыделения. Дизайн серверов AWS предусматривает наличие трёх процессоров на узел высотой 1U.

 Изображения: AWS

Изображения: AWS

Новый процессор Graviton3E представляет собой дальнейшее развитие Graviton3. Чип оптимизирован с учётом потребностей рынка высокопроизводительных вычислений и основное внимание в его архитектуре уделено повышению производительности на операциях с плавающей запятой и вычислениях с использованием векторной математики.

AWS, к сожалению, пока не раскрывает деталей относительно архитектуры Graviton3E, но прирост производительности на векторных операциях относительно обычного Graviton3 может достигать 35 %. Помимо классического теста HPL новый процессор хорошо проявляет себя в тестах, имитирующих медико-биологические и финансовые задачи.

Сценарии нагрузок, характерные для HPC, как правило, активно оперируют перемещением крупных объемов данных. Чтобы оптимизировать этот процесс, в новых инстансах AWS использует сеть на базе Elastic Fabric с новыми адаптерами Elastic Network Adapter (ENA). Такая сеть оперирует т. н. Scalable Reliable Datagram (SRD) вместо всем привычных TCP-пакетов. SRD позволяет организовать повторную отправку пакетов за микросекунды вместо миллисекунд в классическом Ethernet.

Сердцем же новых инстансов AWS стало пятое поколение аппаратных гипервизоров Nitro 5. В сравнении с предыдущим поколением, Nitro 5 обладает вдвое более высокой вычислительной производительностью, на 50 % повышенной пропускной способностью памяти, а также позволяет обрабатывать на 60 % больше сетевых пакетов при сниженной на 30 % латентности.

 Здесь и далее источник изображений: AWS

Здесь и далее источник изображений: AWS

Инстансы Hpc7g с процессорами Graviton3E получат внутреннюю сеть с пропускной способностью 200 Гбит/с и станут доступны в различных конфигурациях вплоть до 64 vCPU и 128 ГиБ памяти. Аналогичные параметры имеют инстансы C7gn, предназначенные для задач с интенсивным сетевым трафиком: виртуальных маршрутизаторов, сетевых экранов, балансировщиков нагрузки и т.п.

Также компания анонсировала инстансы R7iz, в которых используются процессоры Intel Xeon Scalable четвёртого поколения (Sapphire Rapids) с постоянной частотой всех ядер 3,9 ГГц. Они могут иметь конфигурацию до 128 vCPU с 1 ТиБ памяти.

Постоянный URL: http://servernews.ru/1078086
26.11.2022 [15:00], Сергей Карасёв

Ядерный проект «Прорыв» получит серверы на предсерийных чипах «Эльбрус-16С»

ЦОД российского проекта «Прорыв», в реализации которого участвуют более 30 организаций государственной корпорации «Росатом», обзаведётся серверами на отечественных процессорах «Эльбрус-16С». Они пока так и не поступили в серийное производство.

О чипах «Эльбрус-16С» можно узнать в нашем материале. Они содержат 16 вычислительных ядер с архитектурой «Эльбрус» шестого поколения. Тактовая частота достигает 2,0 ГГц. Возможна работа с оперативной памятью DDR4-3200 с ECC. Реализована аппаратная поддержка защищённых вычислений и виртуализации.

 Источник изображения: imaxai.ru

Источник изображения: imaxai.ru

Как сообщается на портале госзакупок, заказчиком новых серверов является Акционерное общество «Прорыв». Речь идёт о поставке специализированного импортонезависимого оборудования для обеспечения модернизации ЦОД ПН «Прорыв». Тендер объявлен 27 октября 2022 года, а приём заявок завершился 7 ноября. Единственным участником и победителем конкурса стало Общество с ограниченной ответственностью «Эльбрус-2000». Сумма контракта составила 15 720 207 руб. Договором предусмотрена поставка серверов 2U-2Э16-SC разработки МЦСТ, а также лицензий на операционную систему «Альт Сервер 10» («Базальт СПО»).

Известно, что модель 2U-2Э16-SC — двухпроцессорный сервер, предназначенный для использования в гиперконвергентных инфраструктурах. Допускается работа с ускорителями вычислений, а также со средствами хранения данных с применением высокоскоростных контроллеров ввода-вывода. Серийное производство чипов «Эльбрус-16С» планировалось начать в нынешнем году, но из-за сложившейся геополитической обстановки сделать это пока не удалось. Вероятно, заказанные серверы базируются на предсерийных образцах процессора.

Что касается проекта «Прорыв», то он предусматривает создание новой технологической платформы атомной отрасли на базе замкнутого ядерного топливного цикла с использованием реакторов на быстрых нейтронах. Технология позволит исключить тяжёлые аварии на АЭС, вырабатывать электроэнергию без накопления облучённого ядерного топлива и многократно повторно использовать отработавшее ядерное топливо.

Постоянный URL: http://servernews.ru/1077973
Система Orphus