Материалы по тегу: cpu

19.10.2021 [19:39], Алексей Степин

Alibaba Cloud представила серверный 128-ядерный Armv9-процессор Yitian 710

Эпоха неоспоримого господства x86-64 в серверах, похоже, постепенно всё же подходит к концу. Ampere, AWS, Fujitsu, HiSilicon, Phytium и другие производители Arm-процессоров дают бой x86-64 и выигрывает его, пусть и не во всех областях. Эффективность серверных Arm-решений уже неоспорима, количество ядер уже перевалило за сотню, а теперь ещё один крупный провайдер облачных услуг, китайская компания Alibaba Cloud, анонсировала свой вариант высокопроизводительного CPU на базе Arm.

Первые попытки Arm проникнуть на рынок серверов или рабочих станций были робкими и неуверенными, но за последние несколько лет ситуация сильно изменилась: уверенно показывают себя такие интересные чипы, как Ampere Altra, недавно доросшие уже до 128 ядер, Amazon активно предлагает инстансы на базе Graviton2, а Huawei даже открывает первый в России ЦОД на базе своих чипов Kunpeng 920.

Более того, мощные многоядерные Arm-процессоры обрастают собственной инфраструктурой: появляются собственные процессорные разъёмы, системные платы, не уступающие x86-моделям, и даже варианты в виде рабочих станций для разработчиков программного обеспечения, без которого любая платформа мертва.

Тем интереснее выглядит анонс Alibaba Cloud. Компания сообщила о выпуске нового процессора, который послужит основой для её облачных. И по ряду характеристик можно видеть, что это весьма передовые решения. Новинка носит название Yitian 710, она имеет собственный процессорный сокет и инфраструктуру сопутствующей «обвязки» (есть и референс-дизайн сервера, Panjiu). Впрочем, интереснее то, что эти процессоры — как и Altra Max — могут иметь до 128 ядер.

Но если текущее поколение Ampere Altra базируется на наборе инструкций Armv8.2 с некоторыми заимствованиями из v8.3 и v8.4, то китайский гигант использует более новый вариант, Armv9. Эта версия архитектуры была анонсирована только весной этого года, она, как минимум, на треть быстрее v8, поддерживает аппаратную ускорение работы контейнеров и виртуальных машин, а также наделена востребованными нынче векторными инструкциями со средствами ускорения машинного обучения (SVE2).

5-нм процессоры Yitian 710 поставляются с июля этого года. Они содержат примерно 60 млрд транзисторов и могут иметь тактовую частоту до 3,2 ГГц, а также включают восьмиканальный DDR5-контроллер и 96 линий PCIe 5.0. Так что это один из самых передовых на сегодня серверных процессоров не только в плане чистой производительности. Сама Alibaba называет свое детище универсальным, одинаково хорошо подходящим для нагрузок общего назначения, развёртывания СХД и ИИ-нагрузок, но, разумеется, приоритет отдаётся задачам, характерным для облачных сред.

Alibaba Cloud: Yitian 710 превосходит всех ARM-соперников и в своём классе является лучшим

Alibaba Cloud: Yitian 710 превосходит всех ARM-соперников и в своём классе является лучшим

Ввиду санкционных трений решение Alibaba Cloud разработать собственный мощный процессор выглядит вполне обоснованно, как и принятое ранее решение о создании собственной ИИ-платформы Hanguang 800. И это не единственные разработки Alibaba Cloud. Компания собирается сделать открытым дизайн не только четырёх чипов XuanTie (RISC-V), но и некоторых будущих ядер. Открыт будет и сопутствующий набор ПО, так что Alibaba Cloud всерьёз намеревается вырастить вокруг своего «кремния» развитую инфраструктуру аппаратного и программного обеспечения.

Постоянный URL: http://servernews.ru/1051640
19.10.2021 [17:16], Андрей Галадей

Google разрабатывает проект SiliFuzz для массового выявления скрытых дефектов CPU

Google прилагает много усилий, чтобы заранее обнаруживать дефекты программного обеспечения в ключевых проектах с открытым исходным кодом. Но теперь, как сообщается, там разрабатывают систему SiliFuzz, которая будет выявлять дефекты в центральных процессорах.

Принцип работы SiliFuzz заключается в анализе работы процессора путём запуска заранее подготовленных тестовых данных, собранных с помощью эмуляторов и дизассемблеров. Это одна из разновидностей фаззинга — процессор нагружают «случайными» вычислениями, результат которых проверяется на выходе. Если расхождения есть, процессор считается дефектным.

Система рассчитана на выявление в первую очередь электрических дефектов чипов, которые могли возникнуть при производстве, установке, во время работы и т.д. Особое внимание уделяется именно им, а не логическим ошибкам в самих CPU. При этом сами тесты не используют какие-либо низкоуровневые механизмы отладки, что позволяет задействовать их на «боевых» системах.

Собственно говоря, задача разработчиков — создать систему, которая могла бы регулярно тестировать каждое ядро в каждом сервере Google, минимально влияя на его производительность. В текущем виде SiliFuzz выбирает момент, когда нагрузка на конкретную машину не так велика, и последовательно тестирует группы из четырёх потоков (2 ядра с SMT) в течение не более чем двух минут. Пока разработчики ориентируются на процессоры x86-64, которые массово используются самой Google.

Основная цель проекта — автоматизация выявления скрытых дефектов, которые приводят к неверным вычислениям и которые гораздо опаснее обычных сбоев и падений, поскольку единственное небольшие отклонения в работе чипа приводит к накоплению массива ошибок. Так, например, выяснилось, что некоторые CPU иногда возвращали неверные результаты вызова F2XM1 (x2-1), а другие — периодически давали отличающиеся от правильных расчёты FCOS. В последнем случае разница составляет менее 0,0000003%, но и этого может быть достаточно для проблем.

Как отмечается, около 45% дефектов, найденных с помощью SiliFuzz, не отслеживаются иными инструментами. В будущем разработчики планируют масштабировать SiliFuzz, повысить скорость работы программы, а также в целом повысить качество работы.

Постоянный URL: http://servernews.ru/1051625
05.10.2021 [15:38], Сергей Карасёв

Представлен прототип российского сетевого процессора «Мальстрем-1Т» для ЦОД

Компания MALT System сообщила о разработке процессора «Мальстрем-1Т» — первого отечественного сетевого чипа, спроектированного для центров обработки данных (ЦОД). Изделие предназначено для комплексной обработки трафика в составе современных платформ.

Прототип выполнен на базе FPGA Xilinx Kintex-7. Решение поддерживает скорость передачи данных до 1 Гбит/с на порт на четырёх линейных портах. Процессор выполнен в соответствии со стандартом OpenFlow 1.3 (за исключением некоторых функций). На базе изделия уже продемонстрирована обработка трафика на полной скорости.

Здесь и ниже изображения MALT System

Здесь и ниже изображения MALT System

«Основная задача настоящего прототипа — продемонстрировать возможность создания в кремнии по технологическим нормам 28/16/12 нм специализированного сетевого процессора с производительностью терабитного уровня и уточнить его характеристики», — отмечает разработчик. Кроме того, прототип позволяет уже сейчас заниматься разработкой программного стека.

В дальнейшем компания MALT System намерена создать семейство коммутаторов с программным управлением. В частности, планируется разработка устройства на новом процессоре в форм-факторе 1U. На лицевой панели этого коммутатора расположатся 48 портов 10GbE/SFP+ и четыре порта 100GbE/QSFP28.

Постоянный URL: http://servernews.ru/1050590
30.09.2021 [16:15], Сергей Карасёв

128-ядерный Arm-процессор Ampere Altra Max оказался на треть дешевле флагманских Xeon и EPYC

Ресурс Phoronix раскрыл стоимость многоядерных процессоров Ampere Altra Max, предназначенных для использования в высокопроизводительных серверах. Наблюдатели отмечают, что эти изделия, насчитывающие до 128 вычислительных ядер, предлагаются по цене ниже флагманских серверных чипов Intel Xeon и AMD EPYC.

Arm-процессоры Ampere Altra Max M128-30 с частотой 3,0 ГГц изготавливаются по 7-нм технологии и предлагают 128 линий PCIe 4.0 и восемь каналов оперативной памяти DDR4-3200. Тесты Phoronix показывают, что в целом ряде задач чипы Ampere Altra Max M128-30 могут вполне конкурировать со старшими моделями Intel Xeon Ice Lake и AMD EPYC Milan.

Источник: Phoronix

Источник: Phoronix

Итак, сообщается, что цена Ampere Altra Max M128-30 составляет $5800. Для сравнения: чип Intel Xeon Platinum 8380 сейчас предлагается за $8099, тогда как AMD EPYC 7763 стоит $8600. Процессор Ampere Altra Q80-30 с 80 вычислительными ядрами можно приобрести по цене $3950, а самая младшая 32-ядерная модель Ampere Altra Q32-17 стоит всего $800. Правда, надо учитывать, что всё это рекомендованные цены, а у AMD с Intel намного больше возможностей по их снижению для конечных заказчиков.

Постоянный URL: http://servernews.ru/1050287
22.09.2021 [21:16], Алексей Степин

Выпущена тестовая партия европейских высокопроизводительных RISC-V процессоров EPI EPAC1.0

Наличие собственных высокопроизводительных процессоров и сопровождающей их технической инфраструктуры — в современном мире вопрос стратегического значения для любой силы, претендующей на первые роли. Консорциум European Processor Initiative (EPI), в течение долгого времени работавший над созданием мощных процессоров для нужд Евросоюза, наконец-то, получил первые весомые плоды.

О проекте EPI мы неоднократно рассказывали читателям в 2019 и 2020 годах. В частности, в 2020 году к консорциуму по разработке мощных европейских процессоров для систем экза-класса присоединилась SiPearl. Но сегодня достигнута первая серьёзная веха: EPI, насчитывающий на данный момент 28 членов из 10 европейских стран, наконец-то получил первую партию тестовых образцов процессоров EPAC1.0.

По предварительным данным, первичные тесты новых чипов прошли успешно. Процессоры EPAC имеют гибридную архитектуру: в качестве базовых вычислительных ядер общего назначения в них используются ядра Avispado с архитектурой RISC-V, разработанные компанией SemiDynamics. Они объединены в микро-тайлы по четыре ядра и дополнены блоком векторных вычислений (VPU), созданным совместно Барселонским Суперкомпьютерным Центром (Испания) и Университетом Загреба (Хорватия).

Строение кристалла EPAC1.0

Строение кристалла EPAC1.0

Каждый такой тайл содержит блоки Home Node (интерконнект) с кешем L2, обеспечивающие когерентную работу подсистем памяти. Имеется в составе EPAC1.0 и описанный нами ранее тензорно-стенсильный ускоритель STX, к созданию которого приложил руку небезызвестный Институт Фраунгофера (Fraunhofer IIS). Дополняет картину блок вычислений с изменяемой точностью (VRP), за его создание отвечала французская лаборатория CEA-LIST. Все ускорители в составе нового процессора связаны высокоскоростной сетью, использующей SerDes-блоки от EXTOLL.

Первые 143 экземпляра EPAC произведены на мощностях GlobalFoundries с использованием 22-нм техпроцесса FDX22 и имеют площадь ядра 27 мм2. Используется упаковка FCBGA 22x22. Тактовая частота невысока, она составляет всего 1 ГГц. Отчасти это следствие использования не самого тонкого техпроцесса, а отчасти обусловлено тестовым статусом первых процессоров.

Но новорожденный CPU жизнеспособен: он успешно запустил первые написанные для него программы, в числе прочего, ответив традиционным «42» на главный вопрос жизни и вселенной. Ожидается, что следующее поколение EPAC будет производиться с использованием 12-нм техпроцесса и получит чиплетную компоновку.

Постоянный URL: http://servernews.ru/1049663
08.09.2021 [19:00], Алексей Степин

Intel представила процессоры Xeon E-2300: Rocket Lake-E для серверов и рабочих станций начального уровня

В современном мире нагрузки на процессор год от года становятся всё сложнее и объёмнее, и не только крупные ЦОД нуждаются в архитектурных новшествах и новых наборах инструкций — малому бизнесу также требуются чипы нового поколения. Корпорация Intel ответила на это выпуском новых процессоров Xeon серии E-2300 и соответствующей платформы для них. Новинки стали быстрее и получили долгожданную поддержку PCI Express 4.0.

Платформа Xeon E-2x00 не обновлялась достаточно давно: процессоры серии E-2200 были представлены ещё в 2019 году. На тот момент это был действительно прорыв в сегменте чипов Intel начального уровня — они впервые получили до 8 ядер Coffee Lake-S, а поддерживаемый объём памяти вырос с 64 до 128 Гбайт. Однако на сегодня таких возможностей уже может оказаться недостаточно: у E-2200 нет AVX-512 с VNNI, шина PCIe ограничена версией 3.0, а графическое ядро HD Graphics P630 и по меркам 2019 года быстрым назвать было нельзя.

10 новых процессоров Xeon E-2300, анонсированных Intel сегодня, должны заполнить пустующую нишу младших бизнес-решений. Нововведений в новой платформе не так уж мало, как может показаться на первый взгляд, ведь максимальное количество процессорных ядер у Xeon E-2300 по-прежнему восемь. Однако их максимальная частота выросла до 5,1 ГГц. Изменился процессорный разъём, теперь это LGA1200.

Ядра 11-го поколения Rocket Lake-E (Cypress Cove) по-прежнему используют 14-нм техпроцесс, но оптимизированная микроархитектура позволила Xeon E-2300 быть быстрее соответствующих моделей предыдущего поколения на 17%, и это без учёта качественных нововведений — теперь у них есть AVX-512 с поддержкой инструкций VNNI, ускоряющих работу нейросетей.

Нововведения касаются и вопросов информационной безопасности, в которой малый бизнес нуждается не меньше крупного. Как и «большие» Xeon на базе Ice Lake-SP, процессоры Xeon E-2300 получили «взрослую» поддержку защищённых анклавов SGX объёмом до 512 Мбайт, что существенно выше максимально доступных для прошлого поколения Xeon E 64 Мбайт. Максимальный объём памяти остался прежним, но скорость подросла — до 128 Гбайт DDR4-3200 ECC UDIMM в двух каналах (2DPC).

Весьма важно также появление нового графического ядра с архитектурой Xe-LP. Конечно, высокой 3D-производительности от него ждать не стоит, но даже в этом оно на шаг впереди устаревшей архитектуры. К этому стоит добавить поддержку HDMI 2.0b и DP 1.4a, аппаратное декодирование 12-бит HEVC и VP9 и 10-бит AV1, а также кодирование в 8-бит AVC и 10-бит HEVC и VP9.

Поддержка PCIe 4.0 пришла и на платформу Xeon E — новые процессоры могут предложить 20 линий PCIe 4.0, причём с поддержкой бифуркации. Ещё 24 линии PCIe 3.0 включает чипсет серии C250. В нём же имеется поддержка 8 портов SATA-3 и USB 3.2 Gen 2x2 — до трёх портов со скоростью 20 Гбит/с. Сетевая часть может быть реализована как на базе недорогих чипов i210, так и более производительных i225 (2,5 Гбит/с) или x550 (10 Гбит/с).

В новой серии, как уже было сказано, представлено 10 процессоров, стоимостью от $182 до $539 и теплопакетами от 65 до 95 Вт. Лишь две младшие модели в списке не имеют поддержки Hyper-Threading. Все Xeon E-2300 располагают встроенным движком Manageability Engine 15 и поддержкой Intel Server Platform Services 6, облегчающей развёртывание и удалённое управление. Свои решения на базе новой платформы представят все ведущие производители серверного оборудования.

Постоянный URL: http://servernews.ru/1048355
01.09.2021 [23:58], Андрей Галадей

Ветераны индустрии основали стартап Ventana для создания чиплетных серверных процессоров RISC-V

Стартап Ventana Micro Systems, похоже, намерен перевернуть рынок серверов. Компания заявила о разработке высокопроизводительных процессоров на архитектуре RISC-V для центров обработки данных. Первые образцы фирменных CPU будут переданы клиентам во второй половине следующего года, а поставки начнутся в первой половине 2023 года. При этом процессоры получат чиплетную компоновку — различные модули и кристаллы на общей подложке.

Основные процессорные ядра разработает сама Ventana, а вот остальные чиплеты будут создаваться под нужды определённых заказчиков. CPU-блоки будут иметь до 16 ядер, которые, как обещается, окажутся быстрее любых других реализаций RV64. Использование RISC-V позволит разрабатывать сверхмощные решения в рекордные сроки и без значительного бюджета. Ядра будут «выпекаться» на TSMC по 5-нм нормам, но для остальных блоков могут использовать другие техпроцессы и фабрики.

Ventana будет следить за процессом их создания и упаковывать до полудюжины блоков в одну SoC. Для соединения ядер, кеша и других компонентов будет использоваться фирменная кеш-когерентная шина, которая обеспечит задержку порядка 8 нс и скорость передачи данных 16 Гбит/с на одну линию. Основными заказчиками, как ожидается, станут гиперскейлеры и крупные IT-игроки, которым часто требуется специализированное «железо» для ЦОД, 5G и т.д.

Сегодня Ventana объявила о привлечении $38 млн в рамках раунда B. Общий же объём инвестиций составил $53 млн. Компания была основана в 2018 году. Однако это не совсем обычный стартап — и сами основатели, и команда являются настоящими ветеранами индустрии. Все они имеют многолетний опыт работы в Arm, AMD, Intel, Samsung, Xilinx и целом ряде других крупных компаний в области микроэлектроники. Часть из них уже имела собственные стартапы, которые были поглощены IT-гигантами.

Постоянный URL: http://servernews.ru/1048096
01.09.2021 [20:25], Алексей Степин

На прототипе уникального серверного процессора Tachyum Prodigy успешно запущен Linux

Компания Tachyum, нацелившаяся ни много ни мало на соперничество с AMD, Ampere и Intel в сегменте серверных процессоров, добилась очевидного прогресса в разработке проекта Prodigy. Пока этот процессор существует лишь в виде реализации на ПЛИС, но даже в такой виде он уже способен запустить Linux.

Проект Prodigy выглядит, напомним, весьма амбициозно: речь идёт о создании полноценного «большого» процессора для ЦОД и серверов, причём процессора 128-ядерного. Разработка продвигается небыстро, поскольку речь идёт о чрезвычайно сложном CPU. Лишь два месяца назад компания отчиталась о поставке I/O-плат для аппаратных эмуляторов Prodigy, однако сейчас достигнута серьёзная веха.

Системная плата комплекса эмуляции Tachyum Prodigy

Системная плата комплекса эмуляции Tachyum Prodigy

Следует отметить, что речи пока не идёт о «настоящем» кремнии Prodigy, а лишь об FPGA-реализации этой архитектуры. Такой аппаратный эмулятор Tachyum протестировала ещё в начале прошлого года. Системная плата эмулятора несёт четыре мощных программируемых матрицы, способных имитировать работу восьми ядер Prodigy. Она дополнена платами ввода/вывода, а вся система предназначается для установки в стандартную 19" стойку.

Основные особенности новой архитектуры

Основные возможности нового процессора

Даже наличие ПЛИС-прототипа не гарантирует успешную работу на нём высокоуровневого кода, ведь в ранних реализациях архитектуры неизбежных ошибки и недоработки. Надо сказать, что загрузчик UEFI для Prodigy существовал и ранее, и вместе с его анонсом была объявлена поддержка со стороны ядра Linux, но лишь к сегодняшнему дню комплексы эмуляции Tachyum Prodigу, можно сказать, достигли нужной степени зрелости.

Архитектура Prodigy изначально разрабатывается, как универсальная

Архитектура Prodigy изначально разрабатывается, как универсальная

Тестовая система смогла успешно загрузить Linux и простую пользовательскую программу, после чего выполнить отключение. По сути, перед нами доказательство того, что базовые функции Prodigy работают стабильно: процессор отрабатывает прерывания и исключения, переключает режимы и имеет корректные тайминги. А значит, Tachyum и её партнёры, наконец-то, могут перейти к разработке системного и, в меньшей степени, пользовательского ПО для новой платформы.

Сам процессор Prodigy сможет работать не только с «родным» кодом, но и запускать код для x86, ARM и RISC-V, что облегчит выход на рынок. Разработчики утверждают, что их детище сможет обеспечить рекордное соотношение цены к производительности, будучи на порядок более экономичным, нежели традиционные серверные процессоры. В настоящее время тестовая система уже доступна заказчикам. Появление первых референсных системных плат с настоящими процессорами Prodigy намечено на первый квартал 2022 года.

Постоянный URL: http://servernews.ru/1048103
24.08.2021 [04:11], Алексей Степин

IBM представила процессоры Telum: 8 ядер, 5+ ГГц, L2-кеш 256 Мбайт и ИИ-ускоритель

Финансовые организации, системы бронирования и прочие операторы бизнес-критичных задач любят «большие машины» IBM за надёжность. Недаром литера z в названии систем означает Zero Downtime — нулевое время простоя. На конференции Hot Chips 33 компания представила новое поколение z-процессоров, впервые в истории получившее собственное имя Telum (дротик в переводе с латыни). «Оружейное» название выбрано неспроста: в новой архитектуре IBM внедрила и новые, ранее не использовавшиеся в System z решения, предназначенные, в частности, для борьбы с фродом.

Пластина с кристаллами IBM Telum

Пластина с кристаллами IBM Telum

Одни из ключевых заказчиков IBM — крупные финансовые корпорации и банки — давно ждали встроенных ИИ-средств, поскольку их системы должны обрабатывать тысячи и тысячи транзакций в секунду, и делать это максимально надёжно. Одной из целей при разработке Telum было внедрение инференс-вычислений, происходящих в реальном времени прямо в процессе обработки транзакции и без отсылки каких-либо данных за пределы системы.

Поэтому инференс-ускоритель в Telum соединён напрямую с подсистемой кешей и использует все механизмы защиты процессора и памяти z/Architecture. И сам он тоже несёт ряд характерных для z подходов. Так, управляет работой акселератора отдельная «прошивка» (firmware), которую можно менять для оптимизации задач конкретного клиента. Она выполняется на одном из ядер и собственно ускорителе, который общается с данным ядром, и отвечает за обращения к памяти и кешу, безопасность и целостность данных и управление собственно вычислениями.

Акселератор включает два вида движков. Первый имеет 128 SIMD-блоков для MAC-операций с FP16-данными и нужен для перемножения и свёртки матриц. У второго всего 32 SIMD-блока, но он может работать с FP16/FP32-данными и оптимизирован для функций активации сети и других, более комплексных задач. Дополняет их блок сверхбыстрой памяти (scratchpad) и «умный» IO-движок, ответственный за перемещение и подготовку данных, который умеет переформатировать их на лету.

Scratchpad подключён к блоку, который подкачивает данные из L2-кеша и отправляет обратно результаты вычислений. IBM отдельно подчёркивает, что наличие выделенного ИИ-ускорителя позволяет параллельно использовать и обычные SIMD-блоки в ядрах, явно намекая на AVX-512 VNNI. Впрочем, в Sapphire Rapids теперь тоже есть отдельный AMX-блок в ядре, который однако скромнее по функциональности.

Доступ к ускорителю возможен из пространства пользователя, в том числе в виртуализированном окружении. Для работы с новым ускорителем компания предлагает IBM Deep Learning Compiler, который поможет оптимизировать импортируемые ONNX-модели. Также есть готовая поддержка TensorFlow, IBM Snap ML и целого ряда популярных средств разработки. На процессор приходится один ИИ-ускоритель производительностью более 6 Тфлопс FP16.

На тестовой RNN-модели для защиты от фрода чип может выполнять 116 тыс. инференс-операций с задержкой в пределах 1,1 мс, а для системы из 32 процессоров этот показатель составляет уже 3,6 млн инференс-операций, а латентность при этом возрастает всего лишь до 1,2 мс. Помимо ИИ-акселератора также имеется общий для всех ядер ускоритель (де-)компрессии (gzip) + у каждого ядра есть ещё и движок для CSMP. Ну и ускорители для сортировки и шифрования тоже никуда не делись.

За надёжность отвечают сотни различных механизмов проверки и перепроверки работоспособности. Так, например, регистры и кеш дублируются, позволяя в случае сбоя ядра сделать его полную перезагрузку и продолжить выполнение задач ровно с того места, где оно прервалось. А для оперативной памяти, которая в обязательном порядке шифруется, используется режим Redundant Array of Memory (RAIM), своего рода RAID-массив, где одна кеш-линия «размазывается» сразу между восемью модулями.

Telum, унаследовав многое от своего предшественника z15, всё же кардинально отличается от него. Процессор содержит восемь ядер с поддержкой «умного» глубокого внеочередного исполнения и SMT2, работающих на частоте более 5 ГГц. Каждому ядру полагается 32 Мбайт L2-кеша, так что на его фоне другие современные CPU выглядят блекло. Но не всё так просто.

IBM Telum

IBM Telum

Между собой кеши общаются посредством двунаправленной кольцевой шины с пропускной способностью более 320 Гбайт/с, формируя таким образом виртуальный L3-кеш объёмом 256 Мбайт и со средней задержкой в 12 нс. Каждый чип Telum может содержать один (SCM) или два (DCM) процессора. А в одном узле может быть до четырёх чипов, то есть до восьми CPU, объединённых по схеме каждый-с-каждым с той же скоростью 320 Гбайт/с.

Таким образом, в рамках узла формируется виртуальный L4-кеш объёмом уже 2 Гбайт. Плоская топология кешей, по данным IBM, обеспечивает новым процессорам меньшую латентность в сравнении с z15. Масштабирование возможно до 32 процессоров, но отдельные узлы связаны несколькими подключениями со скоростью «всего» 45 Гбайт/с в каждую сторону.

В целом, IBM говорит о 40% прироста производительности в сравнении с z15 в пересчёте на сокет. Telum содержит 22 млрд транзисторов и имеет TDP на уровне 400 Вт в нормальном режиме работы. Процессор будет производиться на мощностях Samsung с использованием 7-нм техпроцесса EUV. Он станет основной для мейнфреймов IBM z16 и LinuxNOW. Программной платформой всё так же будут как традиционная z/OS, так и Linux.

Постоянный URL: http://servernews.ru/1047371
24.08.2021 [01:45], Игорь Осколков

Intel Xeon Sapphire Rapids получат UMA-режим, динамический балансировщик нагрузки DLB и поддержку CXL на всех линиях PCIe

На мероприятии Architecture Day Intel, наконец, поделилась некоторыми подробностями о будущих серверных процессорах Xeon Sapphire Rapids, которые станут доступны в первой половине 2022 года. Правда, презентация оставила больше вопросов, чем ответов. Но на HotChips 33 представители компании дали некоторые пояснения и чуть более подробно рассказали о части нововведений.

Например, компания назвала типичный уровень задержек между отдельными тайлами, соединёнными между собой десятью EMIB-мостиками — в среднем от 4 до 8 нс (но не более 10 нс) за один переход по мостику. Причём этот показатель может чуть плавать в зависимости от обращения к соседу слева/справа или снизу/сверху (подключений по диагонали нет). Поскольку все ресурсы для всех тайлов и ядер/потоков общие, наихудшая ситуация наступает тогда, когда запрос и ответ к памяти соседнего тайла пойдут в обход по всем тайлам. То есть на пути туда-обратно запрос совершит четыре перехода по мостикам.

Избавиться от такой ситуации можно как формированием NUMA-кластеров, так и новым UMA-режимом (квадрант в терминологии Intel), в котором  системный агент каждого тайла «привязывается» к контроллеру памяти на том же самом тайле. Это требует симметричного размещения памяти на всех контроллерах, зато снижает задержки (как при использовании NUMA), сохраняя при этом «цельность» процессора при взгляде со стороны, то есть не требует модификации ПО. Вероятно, именно этот режим работы будет рекомендовано использовать по умолчанию.

Число линий PCIe так и не было названо, однако было сказано, что все они будут поддерживать CXL (блоками по x16) — у AMD EPYC Genoa, если верить утечкам, это не так. Режим работы будет автоматически выбираться в зависимости от типа устройства при загрузке. Интересно, что ускорители Ponte Vecchio, вероятно, будут поддерживать только PCIe-режим. Это, правда, не помешает реализовать обещанную когда-то поддержку общей когерентной памяти в связке CPU-GPU.

Кроме того, текущая реализация CXL не поддерживает режим Type 3, который, в частности, позволяет наращивать объём доступной CPU памяти путём подключения внешних блоков DRAM/SCM. Дополнительно отмечено, что HBM-память, тоже подключаемая посредством EMIB, будет иметь собственные контроллеры, так что все 8 каналов DRAM никуда не денутся. Любопытно, что SKU с малым числом ядер будут иметь то же число каналов памяти, линий PCIe/UPI и т.д., но при этом могут оказаться вовсе не состоящими из тайлов.

Помимо прочего, докладчик поделился некоторыми сведениями о новых или расширенных возможностях Sapphire Rapids. В частности, они получат поддержку Virtual Shared Memory, позволяющую ПО, использующему CPU и ускорители (интегрированные или дискретные), иметь для удобства работы единое адресное пространство с поддержкой целостности и когерентности памяти. В том числе для виртуальных машин. Для них же (и для контейнеров) пригодится технология Intel Scalable IO Virtualization (S-IOV), расширяющая возможности SR-IOV.

Про акселераторы DSA и QAT уже говорилось в прошлый раз. Сейчас же было немного рассказано про DLB (Dynamic Load Balancer), динамический балансировщик нагрузки, который распределяет её между ядрами, принимая решения 400 млн раз в секунду, и ускоряет операции, связанные с этим процессом. Он отслеживает потребление ресурсов и позволяет задать приоритеты для различных нагрузок. Для работы со всеми этими ускорителями и нужен новый набор инструкций AiA (Accelerator Interfacing Architecture), который позволяет управлять ими из режима пользователя.

Постоянный URL: http://servernews.ru/1047385
Система Orphus