Материалы по тегу: skylake-sp
13.09.2022 [20:18], Алексей Степин
Защита от уязвимости Retbleed приводит к катастрофическим потерям производительности Linux в ESXi на старых процессорах Intel
intel
linux
retbleed
skylake-sp
software
vmware
xeon
виртуализация
информационная безопасность
уязвимости
Как известно, в июле этого года был обнаружен новый способ потенциальной атаки, связанный с механизмами спекулятивного исполнения кода в современных процессорах, включая Intel Kaby Lake/Coffee Lake и AMD Zen 1/1+/2. Эта уязвимость получила название Retbleed. Варианты за номерами CVE-2022-29900 и CVE-2022-29901 отличаются от Spectre-v2 тем, что позволяют выполнять произвольный код при обработке инструкции «ret» и организации неверного предсказания перехода, отсюда и название Retbleed. Источник: lore.kernel.org Уязвимость касается процессоров Intel с шестого по восьмое поколение и процессоров AMD на базе архитектур Zen 1/1+/2. В более современных CPU уже есть необходимые механизмы защиты. Хотя компании-производители и опубликовали рекомендации по защите от новой уязвимости, уже тогда отмечалось, что использование этих методов может снизить производительность на 12–28%. Даже такая цифра весьма неприятна в условиях борьбы за каждый процент производительности в современных ЦОД. Но инженеры VMware обнаружили, что парой десятков процентов дело не ограничивается. Как показало проведённое ими тестирование ядра Linux 5.19 в среде ESXi, при включении опции защиты вычислительная производительность могла упасть на 70%, производительность сетевой подсистемы — на 30%. Проблема затрагивала даже работу с накопителями, которая замедлилась примерно на 13%. Следует отметить, что проблема связана не с гипервизором VMware как таковым, а с работой ядра Linux в нём. Демонстрация работы Retbleed В частности, был отмечен серьёзный рост задержки при создании потоков, это время выросло с 16 до 27 мс, возросло и время, требуемое на запуск и остановку виртуальных машин, а пропускная способность виртуализированной сети упала с 11,9 Гбит/с до 8,56 Гбит/с. В настоящее время Intel работает над менее затратными способами защиты от Retbleed. Для тестирования использовался сервер с четырьмя процессорами Intel Xeon Skylake-SP (112 потоков, 2 Тбайт RAM) и основной ОС Ubuntu 20.04. Для проверки также были проведены тесты с полным отключением защиты (spectre_v2=off), которые показали, что в этом случае производительность Linux 5.19 мало чем отличалась от Linux 5.18.
02.10.2019 [10:14], Андрей Галадей
Процессоры Intel Xeon Skylake-SP теперь поддерживают CorebootКорпорация Intel в сотрудничестве с Facebook* объявила о выпуске пакета поддержки встроенного ПО (FSP), позволяющего системам на базе CPU Xeon Skylake-SP загружаться с Coreboot вместо проприетарного BIOS. ![]() Пока что это работает с материнской платой Tioga Pass 2U OCP от Facebook*. Также поддержку Coreboot получит платформа Intel следующего поколения с 1/2/8 сокетами. Она находится на этапе проектирования и будет работать с новым пакетом FSP. Судя по имеющейся информации, пока что поддержка Xeon Scalable FSP, по-видимому, ограничивается процессорами Skylake, а вот Cascade Lake текущего поколения оказались «не у дел». И хотя в новом варианте прошивки нет ничего, что не в состоянии предложить BIOS и UEFI, однако сам факт появления открытой альтернативы радует. ![]() В целом, современные платформы x86_64 начинают работать с Coreboot всё активнее. Остаётся надеяться, что AMD сможет своевременно вывести на рынок свою открытую версию прошивки AGESA. * Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».
17.07.2018 [15:54], Андрей Созинов
EK Water Blocks выпустила водоблок EK-Annihilator EX/EP Square для процессоров Intel LGA 3647На данный момент процессорный разъём Intel LGA 3647 встречается только в серверах и рабочих станциях, так как в данном конструктиве изготавливаются лишь процессоры Xeon Skylake-SP. Однако данный процессорный разъём, как и некоторые другие разъёмы Intel, доступен в двух версиях, именуемых Square ILM и Narrow ILM. Они отличаются между собой расположением отверстий для крепления систем охлаждения. ![]() ![]() Ранее в этом году компания EK Water Blocks представила довольно необычный водоблок EK-Annihilator EX/EP, предназначенный как раз для охлаждения процессоров Intel в исполнении LGA 3647. Однако изначально была выпущена только версия под крепление Narrow, а теперь словенский производитель выпускает версию под Square. Между собой они, собственно, и отличаются лишь формой крепёжной рамки, тогда как их остальные части абсолютно идентичны. ![]() Водоблоки EK-Annihilator EX/EP, по утверждению производителя, были разработаны с нуля. Основание новинки выполнено из никелированной меди и полностью покрывает крышку процессора. Верхняя же часть водоблока изготовлена из чёрного пластика (полиформальдегида), и на ней имеется сразу шесть отверстий с резьбой G1/4 для подключения фитингов и трубок. По два отверстия на торцах, и ещё пара сверху. Это даёт свободу при подключении водоблока, и позволяет уместить его в любом серверном корпусе, даже высотой 1U. Крепёжная рамка изготовлена из алюминия. ![]() Водоблок EK-Annihilator EX/EP Square уже доступен в фирменном интернет-магазине EK Water Blocks по цене 140 евро. Столько же стоит и версия EK-Annihilator EX/EP Narrow.
16.11.2017 [19:00], Иван Грудцын
Планы Intel по развитию семейства CPU Xeon на ближайшие три годаВ условиях обострения конкуренции с AMD и намечающегося противостояния с ARM в сегменте Windows-ноутбуков компания Intel приняла решение оптимизировать ассортимент полупроводниковой продукции. Одним из крупных проектов, которые пошли «под нож» оказался Knights Hill — развитие семейства процессоров Xeon Phi на базе кристаллов архитектуры MIC третьего поколения. В прошлом году ведущий разработчик архитектуры Xeon Phi Авинаш Содани (Avinash Sodani) покинул ряды Intel ради Cavium, к тому же встал ребром вопрос дальнейшего финансирования направления в условиях прессинга со стороны NVIDIA. Лебединой песней Larrabee станут процессоры Xeon Phi/Knights Mill, созданные для решения задач глубинного обучения. Их выход планировался в рамках выставки-конференции SC17, но в итоге Intel ограничилась демонстрацией прототипов. Тем не менее релиз Knights Mill всё же прогнозируется до конца текущего года. ![]() Гораздо лучше чувствует себя процессорное семейство Intel Xeon Scalable (Skylake-SP, 14 нм). Сборщикам серверных систем и корпоративным заказчикам предоставлен широкий выбор «платиновых», «золотых», «серебряных» и «бронзовых» CPU Xeon с количеством ядер от 4 до 28 и шестиканальным контроллером оперативной памяти. В следующем году ожидается «косметическое» обновление ассортимента серверных процессоров Intel: чипы Xeon Scalable Performance (Cascade Lake) будут выпускаться по улучшенному 14-нм техпроцессу и, вполне возможно, окажутся совместимы с нынешними платами LGA3647. Ощутимых изменений следует ждать в 2019–20 гг., с дебютом преемников Xeon Scalable Performance — Ice Lake Scalable Xeon (ISX-SP). Последние будут изготавливаться по улучшенной 10-нм технологической норме, и, согласно ресурсу Heise, получат до 36 вычислительных (x86) ядер, восьмиканальный контроллер оперативной памяти и до 32 Гбайт буферной памяти HBM2 с пропускной способностью 650 Гбайт/с. Приведённое немецким источником значение ПСП микросхем HBM2 выглядит довольно странно, ведь уже сегодня существуют полупроводниковые продукты с 900-1200 Гбайт/с High Bandwidth Memory второго поколения. ![]() У Kaby Lake-G буферный чип HBM2 связан не с центральным, а графическим процессором Ответвлением ISX-SP станут процессоры Ice Lake Xeon/Knights Cove (ISX-H), которые будут выполнены в виде многочипового модуля (MCM) из двух кристаллов и в итоге займут место Xeon Phi. Старшие представители данного семейства получат в сумме 38 или 44 ядра. Предполагается, что по соотношению производительности и энергопотребления они покажут лучшие результаты в бенчмарке утилиты Linpack, чем обычные ISX-SP. Наконец, на 2021 год запланирован выпуск процессоров Intel Ice Age (для широкого спектра задач) и Knights Run (для HPC-сегмента). Никаких подробностей о них пока не поступало.
15.11.2017 [12:30], Иван Грудцын
SC17: материнские платы ASUS для серверов и рабочих станций
asus
c422
c621
hardware
lga2066
lga3647
sc17
skylake-sp
ws series
xeon scalable
xeon w
z11pa
рабочая станция
Ассортимент компании ASUSTeK Computer богат материнскими платами не только для настольных ПК, но и более производительных систем — рабочих станций и серверов. В рамках выставки-конференции SC17 в городе Денвер (штат Колорадо, США) на стенде ASUS был продемонстрирован ряд новых матплат для процессоров Intel Xeon в конструктиве LGA2066 и LGA3647. ![]() ![]() Модель ASUS Z11PA-D8 на чипсете C621 предназначена для сборки 2P-серверов и рабочих станций на базе процессоров семейства Skylake-SP — Xeon Platinum (4–28 ядер), Xeon Gold (4–22 ядра), Xeon Silver (4–12 ядер) и Xeon Bronze (6–8 ядер). Устройство выполнено в форм-факторе SSI CEB — его габариты составляют 305 × 267 мм. Плату Z11PA-D8 можно размещать во многих просторных корпусах форматов Full-Tower и Mid-Tower, а в качестве источника питания использовать ATX-совместимый БП с большим запасом прочности. На текстолите распаяны восемь слотов для оперативной памяти DIMM DDR4, поровну распределённые между гнёздами LGA3647 (процессоры Xeon Scalable содержат шестиканальный контроллер RAM, но места на плате немного). Кроме того, наличествуют два разъёма M.2 для SSD длиной до 110 мм, такое же количество PCI Express 3.0 x16, единичные PCI-E 3.0 x8 (или PCI-E 3.0 x8@x4) и PCI-E 3.0 x1. Посредством кабелей Mini-SAS HD к Z11PA-D8 можно подключить до шестнадцати SATA-накопителей. Сетевых контроллеров Gigabit Ethernet целых четыре, также имеются гигабитный интерфейс IPMI и контроллер удалённого управления ресурсами ASUS ASMB9-iKVM (ASPEED AST2500). Соседняя плата на стенде — ASUS Z11PA-U12 — является упрощённой версией представленной ранее модели Z11PA-U12/10G-2S. Как нетрудно догадаться, новинка обходится без «10G» — двух 10-гигабитных контроллеров проводной сети, но всё равно предлагает широкие возможности в рамках своего форм-фактора (ATX, 305 × 244 мм). Устройство позиционируется ASUSTeK Computer как «идеальная платформа для разработки приложений в областях глубинного обучения и образования». Компанию разъёму LGA3647 для процессоров Intel Xeon Scalable составляют двенадцать слотов для оперативной памяти DDR4-2400/2666 (до 384 Гбайт RAM при использовании модулей RDIMM, до 768 Гбайт LRDIMM и до 1,5 Тбайт 3DS LRDIMM), два PCI Express 3.0 x16, единичные PCI-E 3.0 x8 и PCI-E 3.0 x8@x4. Кроме того, на плате присутствуют один разъём M.2 для SSD-накопителей длиной до 80 мм и два слота OCuLINK для минимизации задержек и ускоренного обмена данными с NVMe SSD, а также поддерживается подключение тринадцати SATA-накопителей (большинство — через кабели Mini-SAS HD). Для обмена данными и управления ресурсами сервера предусмотрены независимые друг от друга сетевые контроллеры и порты. Две из трёх микросхем Gigabit Ethernet носят маркировку Intel I210-AT. О материнских платах WS X299 Sage (форм-фактор SSI CEB, 305 × 267 мм) и WS C621E Sage (SSI EEB, 305 × 330 мм) мы рассказывали в предыдущих заметках. Модель на базе чипсета Intel X299 выделяется своими системами питания и охлаждения, наличием двух разъёмов U.2 для скоростных накопителей, а также поддержкой графических конфигураций NVIDIA 4-Way SLI и AMD 4-Way CrossFire. В свою очередь, матплата на чипсете C621 позволяет одновременно использовать в составе сервера или рабочей станции два процессора Intel Xeon Scalable (LGA3647) с тепловым пакетом до 205 Вт, как минимум четыре графических адаптера на ядрах NVIDIA или AMD, до 768 Гбайт оперативной памяти RDIMM/LRDIMM DDR4-2400/2666 и максимум пятнадцать накопителей с разъёмами подключения SATA 6 Гбит/с (10 шт.), U.2 (4 шт.) и M.2 (1 шт.). Показанный на SC17 прототип модели ASUS WS C422 PRO SE для рабочих станций начального уровня (в рамках платформы) базируется на сочетании гнезда LGA2066 для процессоров Xeon W и чипсета C422. Плата во многом напоминает настольную, однако аналога в семействе ASUS X299 у неё на данный момент нет. Устройство позволяет установить процессор Xeon с количеством ядер от 4 до 18 шт., восемь модулей оперативной памяти DIMM DDR4 с четырёхканальным доступом, три-четыре графических ускорителя NVIDIA или AMD, карту расширения PCI Express x4 (слот PCI-E 3.0 посередине), по крайней мере два M.2 SSD (разъёмы в нижней части PCB, накрыты радиаторами) и не менее шести SATA-накопителей. Обращает на себя внимание большое количество разъёмов питания (единичные ATX и PCI-E Power 6-pin, два EPS12V) и портов USB версий 2.0, 3.0 и 3.1. Радиаторы цепей питания гнезда Intel LGA2066 соединены тепловой трубкой. ![]() Опираясь на данные ресурса Geizhals, специализирующегося на отслеживании цен в западноевропейских магазинах, приведём расценки на некоторые из вышеописанных продуктов. Все предложения пока доступны только по предварительному заказу и в ограниченном количестве точек продаж:
29.08.2017 [20:15], Иван Грудцын
Intel представила семейство процессоров Xeon W для рабочих станцийАссортимент компании Intel пополнился новым семейством процессоров Xeon. Модели Xeon W являются преемниками Xeon E5-1600 v4 (Broadwell-EP) и предназначены для рабочих станций с одним CPU. Новинки во многом родственны настольным HEDT-процессорам Skylake-X: они выполнены в конструктиве LGA2066, содержат до 18 физических ядер, от 8,25 до 24,75 Мбайт разделяемой кеш-памяти третьего уровня и четырёхканальный контроллер DDR4. Использование разных разъёмов для Xeon W и Xeon Platinum/Gold (LGA3647) означает, что покупатели плат X299 не смогут впоследствии обзавестись более мощными 20–28-ядерными процессорами без апгрейда материнских плат. Как ты то ни было, у Xeon W имеется ряд преимуществ над настольными Core i7/i9: каждая из новинок поддерживает до 512 Гбайт оперативной памяти RDIMM/LRDIMM DDR4-2666 с функцией контроля ошибок (ECC), включает в себя 48 линий PCI Express и характеризуется меньшим тепловыделением, чем настольные аналоги — от 120 до 140 Вт. Чего нет у Xeon W, так это поддержки технологии динамического разгона Turbo Boost Max 3.0. Модели Xeon W ассоциированы с чипсетом Intel C422, в целом напоминающим X299 (24 линии PCI-E 3.0, десять портов USB 3.0, восемь SATA 6 Гбит/с), но при этом обеспечивающим ещё и поддержку Intel vPro и RAS. В серию вошли восемь процессоров, причём характеристики и цены двух старших CPU известны не полностью, что свидетельствует об их более позднем появлении на рынке (согласно Intel — четвёртый квартал). C Xeon W дебютируют четырёхъядерные аналоги Skylake-X, вместо которых для десктопов предлагаются Kaby Lake-X. Также стоит отметить, что среди новых процессоров для рабочих станций не нашлось места для 12-ядерного собрата Core i9-7920X. Частота старшей 18-ядерной модели Xeon W-2195 составляет 2,3–4,3 ГГц, что несколько ниже, чем у Core i9-7980XE (2,6/4,3 ГГц). В то же время CPU с меньшим количеством ядер — Xeon W-2135 и Xeon W-2145 — немного «шустрее» настольных аналогов. Рекомендованные цены на 6–10-ядерные Xeon W приблизительно вдвое выше, чем на соответствующие модели Core i7/i9 LGA2066. В свою очередь, четырёхъядерные процессоры не так уж и дороги на фоне Kaby Lake-X. Точную дату релиза Xeon W в Intel не сообщили, но, судя по состоявшемуся анонсу первой материнской платы Gigabyte на чипсете C422, продаж 4–10-ядерных CPU придётся ждать недолго.
13.07.2017 [13:20], Илья Гавриченков
AMD EPYC превосходит Xeon-SP в тестах, Intel отвечает грязным маркетингомЭто холодное лето оказалось жаркой порой для рынка серверных решений: на нём впервые за последние несколько лет зарождается реальная конкуренция. Благодаря архитектуре Zen и процессорам EPYC на этот рынок готова вернуться компания AMD. Причём, судя по всему, у компании есть все шансы поколебать гегемонию Intel даже несмотря на то, что микропроцессорный гигант обновил свои серверные платформы и представил новое семейство процессоров Xeon-SP, внедрив в них новую архитектуру Skylake-SP. И это, кажется, действительно заставляет Intel беспокоиться. По крайней мере, на борьбу с EPYC компания решила бросить всю мощь своей маркетинговой машины, которая в качестве первого результата своей работы выдала достаточно спорную презентацию, рассказывающую о преимуществах Xeon-SP над EPYC. В этой презентации процессоры AMD EPYC пренебрежительно описываются как склейка («glued-together») десктопных ядер, в то время как Xeon-SP называются процессорами со специальной серверной архитектурой. Совершенно очевидно, что такие выпады в адрес AMD могут повлечь за собой ожесточённую перепалку между компаниями, но правда заключается в том, что EPYC действительно собираются из нескольких полупроводниковых кристаллов Zeppelin, однако конечное устройство, в котором используется несколько шин Infinity Fabric, гораздо сложнее и технически совершеннее, нежели простая склейка. Более того, применённый AMD подход неплохо работает и даёт AMD определённые преимущества, в частности, позволяет снизить себестоимость EPYC. В числе претензий к продукту конкурента маркетинг Intel выдвигает и тезис о том, что для EPYC пока нет должной экосистемы и даже утверждает, что «для новых серверных процессоров AMD потребуется оптимизация программного обеспечения, как и для Ryzen». Однако этот аргумент тоже кажется притянутым за уши: сравнение серверных процессоров с отсылкой к производительности десктопных продуктов в играх может показаться имеющим какой-то смысл разве только для людей, далёких от IT-отрасли. На самом же деле даже после анонса Xeon-SP процессоры AMD EPYC продолжают казаться вполне конкурентоспособной новинкой. Например, один процессор EPYC может иметь до 32 ядер с поддержкой SMT, в то время как старшие представители в линейке Xeon-SP обладают лишь 28 ядрами с Hyper-Threading. При этом в процессорах Xeon-SP появилась поддержка AVX-512, которой нет в вариантах AMD, к тому же они обладают новой структурой кеш-памяти, предполагающей расширение L2-кеша до 1 Мбайт на ядро. Однако в пользу EPYC говорит цена. Старший 32-ядерный процессор EPYC 7601 стоит $4200, в то время как старший 28-ядерный Xeon Platinum 8180 оценён Intel в $10 тыс. Первое сравнение EPYC и Xeon-SP в реальных тестах провёл сайт Anadtech. Специалисты сайта сравнили производительность двух систем: двухпроцессорного сервера на базе Epyc 7601 (32 ядра, 2,2-3,2 ГГц, 180 Вт TDP, $4200) и сервера на базе двух процессоров Xeon 8176 (28 ядер, 2,1-3,8 ГГц, 165 Вт TDP, $8719). В первую очередь системы продемонстрировали совершенно различную работу с кешем и памятью, обусловленную их принципиально различным строением. Каждое ядро Skylake-SP располагает 1 Мбайт L2-кешем с латентностью 13 тактов (в Broadwell-EP кеш второго уровня имел размер 256 Кбайт и латентность 11 тактов). Общий на процессор L3-кеш формируется из расчёта 1,375 Мбайт на ядро, обладает неинклюзивным (виктимным) принципом работы и имеет среднюю латентность 77 тактов (против 44 тактов ранее). В процессорах EPYC L2-кеш меньше — всего 512 Кбайт на ядро, но зато его латентность — 12 тактов. Что же касается L3-кеша, то он не общий, как у Intel, а рассредоточен по четырёхъядерным комплексам CCX, которых в каждом кристалле Zeppelin размещено по две штуки. Сам кеш тоже имеет эксклюзивный (виктимный) принцип работы, однако его латентность сильно зависит от того, где расположены запрашиваемые данные — в одном CCX с генерирующим запрос ядром, в соседнем на кристалле, или вообще в другом кристалле. В лучшем случае латентность составляет 35 циклов, в худшем — может быть выше на порядок. Иными словами, несмотря на то, что AMD говорит о L3-кеше как о едином массиве ёмкостью 64 Мбайт, правильно говорить, что он в EPYC имеет формулу 8 x 8 Мбайт. Подобным образом обстоит дело и с памятью: каждый кристалл в EPYC имеет собственный двухканальный контроллер, поэтому скорость работы с памятью может сильно различаться в зависимости от того, где в системе находятся данные. Это накладывает результаты на результаты теста Stream, в котором измеряется пропускная способность памяти. ![]() Пропускная способность по данным Stream В зависимости от того, какие процессорные ядра выполняют этот тест, пропускная способность Epyc 7601 может быть более чем в два раза лучше, чем у Xeon-SP, но может быть и вдвое хуже. При этом любопытно, что Skylake-SP стал с точки зрения пропускной способности памяти хуже Broadwell-EP. Негативный вклад вносит новая ячеистая структура соединения ядер, пришедшая на смену кольцевым шинам. Зато Xeon-SP почти всегда выигрывает у EPYC с точки зрения латентности. ![]() Сравнительные тесты производительности в исследовании Anandtech были проведены в SPEC2006 в однопоточном и многопоточном режиме, при работе с базами данных и обслуживании транзакций, в Java, в расчётах Big Data, и при работе с вещественными числами. ![]() SPECInt 2006 в многопоточном режиме ![]() Java ![]() MySQL Percona Server 5.7.0 ![]() Big Data ![]() Производительность FPU ![]() Проиводительность FPU Неожиданно производительность FPU у процессора AMD оказалась значительно лучше, чем у Xeon-SP. Тому может быть несколько причин, но скорее всего определяющее влияние оказывает то, как турбо-режим работает при исполнении AVX-инструкций. В частности, процессоры Intel используют заметно более низкие частоты при работе с AVX-командами. Например, Xeon 8176 при нагрузке на все 28 ядер способен работать на частоте 2,8 ГГц, однако при активации AVX 2.0 его максимальная частота в тех же условиях ограничивается величиной 2,4 ГГц. Если же говорить об исполнении AVX-512, то в этом случае предельная частота составит лишь 1,9 ГГц при нагрузке на все ядра. ![]() Intel указывает, что её процессоры используют 256-битные и 512-битные исполнительные устройства, в то время как у AMD обработка AVX-инструкций происходит на 128-битных устройствах. Но вполне возможно, что в конечном итоге реализация AMD оптимальнее, поскольку частотам EPYC работа с векторными инструкциями не наносит никакого урона. Да, при этом у EPYC нет поддержки AVX-512, но и приложений, опирающихся на такие инструкции, пока тоже практически нет. В конечном итоге система на AMD EPYC проигрывает системе на Xeon-SP при работе с базами данных, но превосходит её в тестах Java и является чрезвычайно конкурентоспособной в тестах Big Data, особенно если принять во внимание ситуацию с ценами. Что касается энергопотребления, то оно сильно зависит от нагрузки. Xeon Platinum 8176 очень прожорлив в режиме холостого хода, но зато демонстрирует неплохую эффективность при работе с MySQL. Зато при рендеринге в POV-RAY система на EPYC оказывается не только значительно экономичнее, но и к тому же заметно быстрее, чем сервер с процессорами Xeon-SP. ![]() Таким образом, реальность такова, что AMD EPYC нельзя назвать ни худшим, ни лучшим выбором для любого сервера. Однако если учитывать его конкурентную среднюю производительность, низкие цены, а также подавляющее превосходство в отдельных сферах, серверный процессор AMD вне всяких сомнений сможет стать причиной головной боли для Intel. И в первую очередь EPYC привлечёт внимание тех предприятий, которые захотят оптимизировать цену своих дата-центров. Но в то же время Intel всё ещё может предложить более высокую абсолютную производительность благодаря тому, что у компании есть масштабируемая платформа, поддерживающая многопроцессорные конфигурации. И да, для того, чтобы донести преимущество своих значительно более дорогостоящих серверных решений до конечных пользователей, Intel действительно придётся задействовать маркетинговый отдел. Но тот топорный маркетинг, к которому компания прибегла сейчас, вызывает серьёзные вопросы.
11.07.2017 [23:15], Иван Грудцын
Intel Xeon Skylake-SP: новое семейство мощных процессоров для платформы LGA3647Сегодня вечером компания Intel провела большую презентацию серверных процессоров Xeon Scalable для платформы Purley (LGA3647), открыв новую главу в истории ресурсоёмких вычислений. Свет увидели четыре обширных семейства 14-нм CPU Skylake-SP — Xeon Platinum, Xeon Gold, Xeon Silver и Xeon Bronze, включающие в совокупности 58 процессоров (цифра не окончательная). Предлагаемые Intel чипы содержат от 4 до 28 физических ядер Skylake, большой объём кеш-памяти второго уровня (1 Мбайт на ядро) и относительно небольшой объём — третьего. ![]() ![]() В новых серверных процессорах применена иная схема взаимодействия ядер в кристалле, чем обычно. Она разработана с учётом возросшего количества x86-ядер и значительных изменений в иерархии кеш-памяти. Контроллер оперативной памяти у Skylake-SP шестиканальный, с поддержкой до 1,5 Тбайт RAM стандарта DDR4 с эффективной частотой до 2666 МГц. Кроме того, предусмотрена интеграция 48 линий PCI Express 3.0. Роль концентраторов системной логики возложена на чипсеты серии C620 с кодовым названием Lewisburg. В числе их достоинств — поддержка нескольких Ethernet-соединений с пропускной способностью до 10 Гбит/с и функций Intel QuickAssist Technology (QAT). Прежде чем перейти к краткому описанию «драгоценных» Xeon Scalable, отметим, что большое внимание следует уделять их суффиксам: F означает интеграцию в тело CPU контроллера Intel Omni-Path, M — поддержку максимального в рамках семейства объёма оперативной памяти (1,5 Тбайт на каждый процессор), T — соответствие техническим требованиям NEBS (работа в неблагоприятных условиях окружающей среды) и увеличенный гарантийный срок (до 10 лет). Intel Xeon Platinum 81xx — наиболее мощные представители семейства Skylake Scalable Processor с лучшим набором характеристик, поддержкой материнских плат 8P+ (восемь и более CPU-разъёмов на плате) и памяти DDR4-2666. Возглавляет серию «платиновых» Skylake-SP дуэт 28-ядерных Xeon Platinum 8180/8180M — оба с частотой от 2,5 до 3,8 ГГц, 38,5 Мбайт разделяемого кеша третьего уровня и тепловым пакетом 205 Вт. Уже известно, что модели без суффикса M присвоен ценник $10 009. Xeon Gold 61xx не столь продвинуты, как Platinum. Ядер у них максимум 22, поддержка RAM ограничена модулями DDR4-2400, а в одном серверном узле не может быть больше четырёх процессоров. Производительность CPU Xeon Silver 61xx (4–12 ядер) и Xeon Bronze 31xx (6–8 ядер) наверняка сравнима с таковой у HEDT-процессоров Skylake-X. Возможности «серебряных» и «бронзовых» чипов выдающимися не назовёшь, но и стоят они относительно не дорого — от $473–483 (Xeon Silver 4112) до $1002–1012 (Xeon Silver 4116). В заключение приведём кадры, снятые нашим корреспондентом непосредственно на презентации в Нью-Йорке. ![]() Пластина с кристаллами Skylake-SP ![]() Сцена, на которой выступали докладчики ![]() AVX-512, Quick Assist и Mesh обеспечили прирост производительности относительно предшествующих CPU ![]() Защита данных, как обычно, в числе приоритетов ![]() Бенчмарки демонстрируют значительный прирост быстродействия ![]() ![]() Партнёры Intel готовы обеспечить скорейший вывод Skylake-SP на рынок ![]() Поскольку в рамках небольшого материала рассмотреть все особенности дебютных процессоров Intel Xeon Scalable не представляется возможным, настоятельно рекомендуем читателям, заинтересовавшимся темой, ознакомиться с обзором «Знакомство с Intel Xeon Skylake-SP: сmeshaть, но не взбалтывать».
16.06.2017 [15:00], Алексей Степин
В новых процессорах Intel используется mesh-схема соединенийОдин из ведущих разработчиков Intel, Ахилеш Кумар (Akhilesh Kumar), ответственный за разработку серверных процессоров Skylake-SP, опубликовал в блоге пост, посвящённый анонсу новой архитектуры внутрипроцессорных соединений, которая придёт на смену предыдущей, реализованной в чипах Core i7 класса HEDT, а также в процессорах Xeon v3 и v4 (Haswell/Broadwell-EP). Новая технология носит название Intel Scalable Processor Platform и главной её целью является конкуренция с технологией AMD Infinity Fabric. Последняя, как известно, служит для связи между модулями в процессорах Ryzen, Threadripper и EPYC. Чтобы понять, почему Intel решила сменить структуру внутрипроцессорных соединений, надо понять, в чём заключается узкое место предыдущей структуры. Здесь надо отметить, что Intel всегда использовала монолитные кристаллы даже в многоядерных процессорах, тогда как AMD в Threadripper и EPYC решила прибегнуть к компоновке типа MCM (Multi-Chip Module) с несколькими кристаллами в едином корпусе. Каждый подход имеет свои достоинства и недостатки, о чём ниже. ![]() Схема внутрипроцессорных соединений в Broadwell-EP. Серым цветом выделены межкольцевые коммутаторы Если в обычных потребительских процессорах проблема пропускной способности внутренних шин стоит не так остро, то в многоядерных решениях она начинает играть существенную роль, ведь для эффективной многопоточной обработки данных все ядра должны быть вовремя «накормлены», иначе они просто будут простаивать впустую в ожидании поступления новой порции данных. До появления Scalable Processor Platform компания Intel использовала три разновидности кристаллов: LCC (Low Core Count, до 10 ядер), MCC (Medium Core Count, до 14 ядер) и HCC (High Core Count, от 16 ядер); это справедливо для Broadwell-EP, в случае с Haswell-EP числа несколько иные, но это не столь важно. На приведённой выше диаграмме хорошо видно, что для соединения отдельных кластеров ядер используются двунаправленные кольцевые шины. В случае с LCC такая шина всего одна, в MCC вторая шина не образует полное кольцо, и, наконец, в HCC работают два полноценных двунаправленных кольца. Друг с другом кольца соединяются посредством буферизированных коммутаторов (серые прямоугольники), что порождает дополнительную задержку в 5 тактов при необходимости передать данные из одного кольца в другое. ![]() В новых решениях Intel используется одноранговая сеть... По мере наращивания количества ядер задержки растут, шины и коммутаторы должны работать на более высокой частоте, чтобы это компенсировать, а это, в свою очередь, приводит к повышению потребляемой процессором мощности и росту уровня тепловыделения. Именно с этой проблемой столкнулась бывшая ATI Technologies в процессе увеличения количества потоковых процессоров в графических чипах Radeon, и именно поэтому в новой архитектуре Skylake (как HEDT, так и Xeon v5) Intel отказалась от кольцевой топологии, перейдя к сетевой (mesh). Впервые сетевая топология внутренних соединений была использована в чипах Knights Landing, и это неудивительно с учётом огромного количества ядер у этих процессоров. ![]() Схема сети для процессоров Knights Landing Новая схема выглядит как двунаправленная решётка, а контроллеры памяти переехали к краям кристалла. Исчезли коммутаторы и сопутствующие им схемы буферизации. Небольшие кольца, впрочем, сохранились — теперь они находятся в пересечениях горизонтальных и вертикальных шин и обеспечивают оптимальное распределение потоков данных. Если верить Intel, то возросла и пропускная способность новых шин. Кроме того, для систем с процессорами Purley будет применён новый внешний интерфейс UPI вместо привычного QPI. В целом, новый дизайн кристалла, разработанный Intel, не просто эффективнее старого, но и позволяет наращивать количество процессорных ядер сравнительно малой кровью. ![]() ...но с её топологией в реальном кристалле Skylake-X всё не так просто, как на схеме На диаграмме соединения сосредоточены в правой части каждого ядра или функционального блока, однако снимок ядра XCC (eXtreme Core Count) демонстрирует несколько иную топологию: ядра ориентированы зеркально по отношению друг к другу. Это может внести дополнительные задержки при перемещении данных по горизонтали, поскольку расстояние между узлами сети в этом случае неодинаково, но это в любом случае эффективнее старой схемы с двумя кольцами и буферизированными коммутаторами. ![]() Межкристалльные шины AMD Infinity Fabric в процессоре EPYC Схема, реализованная AMD, выглядит совершенно иначе: каждые два четырёхъядерных блока CCX (CPU Complex) образуют восьмиядерный кристалл, в котором они общаются между собой с помощью 256-битной двунаправленной шины Infinity Fabric. В 32-ядерном процессоре EPYC таких кристаллов четыре, соединяются они аналогичным образом, но шины пролегают в корпусе чипа. Это ведёт к задержкам при обращении одного процессорного кристалла к данным, находящимся в кеше другого кристалла, особенно, расположенного диагонально — данным приходится преодолевать и промежуточный кристалл, поскольку шин всего четыре и Х-образное соединение в решении AMD не используется. ![]() Сборка из двух AMD CCX делит общий контроллер памяти Впрочем, этот эффект может компенсировать грамотная программная оптимизация, а что касается наращивания количества ядер, тут AMD в выигрыше: отказ от монолитного многоядерного кристалла позволяет в случае нужды установить в корпусе вместо четырёх восьмиядерных сборок шесть или даже восемь, расплатившись, разумеется, соответствующим ростом латентности и уровня тепловыделения. Intel наверняка использует этот факт в рекламе своей новой технологии, но какой подход покажет себя более жизнеспособным, покажет время.
12.06.2017 [21:30], Иван Грудцын
Новые результаты тестирования процессоров Xeon Gold и PlatinumВ ближайшие несколько недель компания Intel официально представит обширное семейство процессоров Skylake-SP для актуальной серверной платформы Purley (LGA3647). В виде опытных образцов модели Xeon Gold и Platinum существуют уже достаточно давно, и их итоговое появление в китайской рознице не стало чем-то неожиданным. Для повышения покупательского интереса к семплам продавец разместил на онлайн-площадке taobao.com не только их фото, но и результаты тестирования в Cinebench R15. ![]() Образец 28-ядерного процессора Xeon Platinum 8176 оказался оценён продавцом в 21 888 юаней (эквивалент 184,1 тыс. руб.). Семпл одного из старших представителей семейства Skylake-SP работает на частотах от 2,1 ГГц до 3,6 ГГц, содержит 28 Мбайт кеш-памяти второго уровня и 38,5 Мбайт третьего, и характеризуется тепловым пакетом в 165 Вт. Дуэт Xeon Platinum 8176 на плате Supermicro X11DPU+ с чипсетом Intel C621 набрал 6525 очков в Cinebench R15. Результат в старой (R11.5) версии того же бенчмарка мы опустим, поскольку из 56 ядер тандема CPU было задействовано всего 16 ядер. ![]() Ближайшим конкурентом Xeon Platinum 8176 в чарте Cinebench R15 оказалась пара 22-ядерных Xeon E5-2696 v4 (Broadwell-EP), набравшая в сумме 5444 очка. Помимо Xeon Platinum 8176, в свободной продаже на Taobao имеются серийные образцы Xeon Platinum 8168, Xeon Gold 6161 и Xeon Gold 6142. Модель с индексом 8168 стоимостью 25 888 юаней или 217,4 тыс. руб. оперирует 24 ядрами и 48 потоками обработки данных. Она функционирует на частотах 2,7/3,7 ГГц (номинал/турборежим), располагает 24 Мбайт кеша L2 и 33 Мбайт кеша L3. Утилиты CPU-Z и HWiNFO64 определили уровень TDP процессора в 205 Вт. ![]() Лучший результат пары «8168-х» в Cinebench R15 — 7212 очка. Ощутимый перевес Xeon Platinum 8168 над Xeon Platinum 8176 был обеспечен более высокой частотой в вышеупомянутом тесте. Желающим приобрести 22-ядерный процессор Xeon Gold 6161 придётся расстаться с суммой в 16 888 юаней (123,7 тыс. руб.). Чип работает на частотах от 2,2 ГГц до 3,0 ГГц, содержит 22 Мбайт кеш-памяти второго уровня и 30,25 Мбайт третьего. По предварительной оценке, тепловыделение CPU составляет 165 Вт. ![]() «Урожай» одного процессора Intel Xeon Gold 6161 в Cinebench R15 — 3249 очков. Наш краткий обзор диковинок из Китая завершает Xeon Gold 6142 с неофициальным ценником в 11 888 юаней (99,7 тыс. руб.). Это 16-ядерный процессор с частотной формулой 2,6/3,7 ГГц, 16 Мбайт кеша L2 и 22 Мбайт кеша L3. По данным утилит CPU-Z и HWiNFO64, «6142-й» выделяет до 150 Вт тепла. ![]() Пара процессоров Xeon Gold 6142 уверенно обходит единичный Xeon Gold 6161 в Cinebench R15: дуэт набрал 4904 очка против вышеупомянутых 3249. Ожидается, что Intel официально анонсирует процессоры Skylake-SP (Xeon Gold, Platinum и, возможно, не только) в конце июня — начале июля. |
|