Материалы по тегу: intel

01.07.2020 [14:08], Алексей Степин

Intel опубликовала первые сведения о новых инструкциях AMX

Изначально процессоры x86 были довольно простыми устройствами. Постепенно они обросли дополнительными наборами инструкций, начиная с MMX и заканчивая AVX-512. Но на AVX-512 прогресс не остановился, и x86 продолжает развиваться, что вполне логично на фоне активного наступления других архитектур. На днях Intel опубликовала сведения о наборе инструкций AMX, который будет реализован в Xeon Scalable следующего поколения.

Набор AMX (Advanced Matrix Extension) продолжает традицию снабжать современные процессоры инструкциями, облегчающими процесс вычислений для специфичных задач. Особенно для тех, что связаны с машинным интеллектом и обучением нейросетей. Первым таким набором Intel стали расширения AVX-512 VNNI (DL Boost), дебютировавшие в семействе Cascade Lake и предназначенные для векторных вычислений в формате INT8.

В Xeon Scalable Cooper Lake они получили поддержку формата bfloat16, также востребованного в системах машинного обучения, что позволило использовать CPU и для обучений нейросетей, а не только исполнения как прежде. Третьим же расширением в рамках инициативы Intel DL Boost станет AMX (Advanced Matrix Extension) — оно появится в четвёртом поколении процессоров Xeon Scalable Sapphire Rapids.

Также AMX можно назвать первым крупным расширенным набором команд со времён внедрения AVX-512. Оба варианта DL Boost строились на базе AVX-512, в то время как AMX является отдельным, независимым набором расширений. В целом, архитектура x86 затронута не будет, как это было и с AVX/AVX2, но процессоры получат новый регистровый файл с восемью тензорными регистрами («тайлами») максимальным размером в шестнадцать 64-байт строк (1 Кбайт на регистр, 8 Кбайт на файл).

Инструкции AMX будут синхронизированы с операциями load/store; использовать их можно будет одновременно с любым другим кодом, включая AVX2 и AVX-512. Также в AMX реализована новая концепция «ускорителей» (accelerators), которые и будут работать с вышеупомянутыми «тайлами». Сами «тайлы» заданы не жёстко и их можно конфигурировать через специальный регистр управления — задавать число строк и количество байт в строке для оптимального использования того или иного алгоритма.

В настоящее время набор AMX включает в себя всего 12 новых инструкций. Условно их можно разделить на три категории: инструкции конфигурирования, управление «тайлами» и работы с «тайлами». Стоит отметить, что «тайлы» могут использовать скалярное произведение (dot-product) векторов в форматах INT8 и BF16, реализованных ранее в Cascade Lake и Cooper Lake. Пока в спецификациях описан лишь один «ускоритель» — перемножение матриц «тайлов» (TMUL), однако это лишь начало.

Сейчас кристаллы с поддержкой AMX уже имеются лабораториях Intel. Компания сообщила о том, что «кремний» Sapphire Rapids успешно запущен и тестируется. Ожидать появления новых процессоров следует в 2021 году. А что касается AMX, то компания уже опубликовала подробную документацию на новые расширения. Скачать её можно с сайта Intel. Нужные сведения описаны в третьей главе документа и выделены зелёным цветом.

Постоянный URL: http://servernews.ru/1014687
30.06.2020 [21:40], Илья Коваль

Intel начнёт выпуск 144-слойной QLC NAND для серверных SSD во втором полугодии

Сегодня Intel провела небольшой виртуальный брифинг, посвящённый промежуточному отчёту об успехах и планах в области памяти и твердотельных накопителей для центров обработки данных. За год продажи в этом сегменте выросли на впечатляющие 46%.

Intel продолжает заниматься продвижением своего видения иерархии памяти, которая в представлении компании включает промежуточный слой SCM-памяти — в данном случае это Optane DCPMM + Optane SSD — между DRAM и дисковой подсистемой, а сами диски должны быть представлены исключительно накопителями на базе 3D NAND. Жёстким дискам и «ленточкам» отведена роль внешнего «холодного» хранилища. Впрочем, LTO и так им является, а на смену HDD должны прийти накопители на базе QLC-памяти, а впоследствии и PLC.

Планы относительно QLC-накопителей не поменялись — в этом году должно стартовать массовое производство 144-слойной памяти данного типа, а в следующем компания начнёт переводить на неё свои основные продукты. Intel всё так будет продвигать форм-фактор EDSFF E1.L (рулер) для компактных и ёмких хранилищ. На днях, к слову, она, наконец, выпустила в этом форм-факторе накопители «старой» серии DC P4510 ёмкостью 15,36 Тбайт. Ожидается, что в ближайшие годы крупные производители серверов и СХД начнут массово переходить на стандарт EDSFF, но конкуренцию «рулерам» составят U.3 и E3.S. Что касается SSD на базе 3D XPoint, то следующее поколение под кодовым именем Alder Stream всё так же ожидается в этом году.

Несколько слов было сказано и втором поколении Intel Optane PMem 200 (кодовое имя Barlow Pass), представленной пару недель назад. Заявленный прирост производительности на 25% был получен благодаря новому контроллеру, обновлению протокола обмена данными и некоторыми улучшениями самой памяти 3D XPoint. Также было переработано управление питанием, что привело к снижению среднего TDP. Речь идёт о нескольких ваттах, однако новая память работает с Intel Xeon Cooper Lake, которые ориентированы на плотные 4- и 8-сокетные системы с большим числом DIMM-модулей. Новая память Optane будет поддерживаться и в системах на базе следующего поколения процессоров Intel Xeon Ice Lake.

Пример расчёта стоимости платформы с Intel Optane DCPMM и RAM

Пример расчёта стоимости платформы с Intel Optane DCPMM и RAM

А вот о клиентских решениях прямо пока ничего не говорится, хотя в этом году ожидается некий анонс для несерверных продуктов. Впрочем, формально к таковым относятся и рабочие станции на базе тех же Xeon. Сейчас Optane DCPMM позиционируется как решение для ЦОД и периферийных вычислений. Intel отмечает интерес к такой памяти: более 200 компаний из списка Fortune 500 уже тестируют её или используют в рабочих нагрузках, 30+ крупных разработчиков ПО адаптировали софт для Optane DCPMM, а из «большой семёрки» (Super 7) — Facebook , Google, Microsoft, Amazon, Baidu, Alibaba и Tencent — её используют пять гигантов.

Постоянный URL: http://servernews.ru/1014621
23.06.2020 [18:31], Владимир Мироненко

Intel RHOC упростит перенос приложений HPC в облако

Высокопроизводительные вычисления (HPC) в облаке — одна из самых обсуждаемых в последнее время тем на технологических мероприятиях и форумах. Компании и исследовательские институты проявляют большой интерес к HPC, пытаясь понять, как расширить с их помощью свои возможности финансово оправданным путём.

HPC в облаке — отнюдь не новое направление, но за последние несколько лет произошли кардинальные изменения и улучшения инфраструктуры, которые делают HPC доступными для гораздо более широкой аудитории. Многие провайдеры уже предлагают инстансы, которые обеспечивают большую вычислительную мощность и пропускную способность памяти для приложений, требующих большого объёма вычислений.

Больше внимания уделяется проблеме масштабирования рабочих нагрузок в облаке. Появление более дружественных к HPC системных и программных сервисов также сделало возможным «собрать» кластерные экземпляры в облаке. Тем не менее, несмотря на достигнутый прогресс, с переносом приложений HPC в облако не так всё и просто. И по-прежнему требуется время для обучения и накопления опыта, необходимого для настройки инстансов конкретного облака.

Если вам нужно работать с несколькими облачными провайдерами, у вас есть несколько путей решения вопроса. Многие поставщики сервисов и компании помогают упростить размещение рабочих нагрузок в облаке, но даже они сталкиваются с одной и той же проблемой. В какой-то момент в рабочем процессе необходимо иметь единый интерфейс для запуска нагрузок с внутренним интерфейсом для конкретного облачного провайдера.

Intel и Google недавно начали работать над созданием инструментария, обеспечивающего единый интерфейс управления. В результате Intel запустила проект с открытым исходным кодом Rapid HPC Orchestration in the Cloud или RHOC. RHOC рассматривается, как средство, помогающее пользователям развернуть HPC-платформу в облаке.

RHOC использует две общие утилиты от Hashicorp в качестве базовых механизмов, обеспечивающих поддержку нескольких облаков для запуска инстансов. Используя инфраструктуру Terraform для управления и механизмы Packer для создания облачных образов. RHOC использует шаблоны для формирования и дальнейшего развёртывания образа в разных облаках.

Пользователи запускают задания прямо из командной строки и указывают, какие шаблоны использовать, а также предоставляют свои учётные данные для облачного провайдера. Затем RHOC занимается настройкой кластера в облаке. RHOC создает новый образ или повторно использует предварительно созданный образ, запускает требуемые экземпляры, настраивает их как кластер HPC и запускает выполнение задания.

По умолчанию RHOC выключает инстансы после окончания расчётов, но есть режим поддержки работы кластера в постоянном режиме с ручным отключением. Благодаря RHOC компания Intel и её партнёры по облачным технологиям смогут совместно создавать шаблоны, включащие наиболее оптимизированные для HPC инстансы и образы для конкретного поставщика облачных вычислений.

Постоянный URL: http://servernews.ru/1014051
23.06.2020 [12:49], Илья Коваль

OCS Distribution предлагает на тест HPE DL380 Gen10 на базе Intel® Xeon® Gold

В конце февраля компания Intel представила новые процессоры Cascade Lake Refresh — это третья по счёту серия в семействе Xeon Scalable. Пандемия расстроила планы по обновлению оборудования многих IT-отделов, но сейчас, с ослаблением различных ограничений и восстановлению цепочек поставок, самое время вспомнить, чем же процессоры Intel Xeon Scalable отличаются от других, их особенности и преимущества.

Семейство масштабируемых процессоров Intel® Xeon® второго поколения подразделяется на четыре класса, отличающиеся производительностью, возможностями и, конечно, ценой:

  • Bronze 3200 — недорогие CPU базового уровня. Они ориентирован использование в базовых системах хранения данных и серверах. Они, тем не менее, предоставляют необходимый уровень безопасности и удобства обслуживания и отлично подходят для малого бизнеса.
  • Silver 4200 — процессоры начального уровня, которые в сравнении с серий Bronze обладают более высокой производительностью и гибкостью за счёт числа ядер и потоков, частоты и памяти. Они оптимизированы для систем хранения данных, вычислений и сетевых функций и подойдут малому и среднему бизнесу, а также для ЦОД.
  • Gold 5200 и Gold 6200 — буквально «золотая середина». Процессоры этой серии имеют оптимизированную производительность, повышенную надёжность, продвинутую безопасность и лёгкую масштабируемость вплоть до четырёхсокетных систем. Эти универсальные CPU подходят для широкого ряда рабочих нагрузок и задач. Серия 6200 предлагает несколько более высокую скорость работы, зато серия 5200 более доступна.
  • Platinum 8200 ориентированы на высокую производительность, надёжность и безопасность, которые необходимы для построения гибридных и облачных сред, обработки больших потоков данных в режиме реального времени, машинного обучения и ИИ, HPC/HPDA и Big Data. Эти CPU поддерживают формирование восьмисокетных систем. В семейство Platinum также входит специализированная серия 9200, ориентированная на сверхтяжёлые вычислительные нагрузки.

Вне зависимости от серии все процессоры Cascade Lake (Refresh) имеют ряд отличительных особенностей. В частности, все они поддерживают «сверхширокие» векторные инструкции AVX-512, ускоряющие расчёты с плавающей запятой. Кроме того, есть поддержка инструкций VNNI, ориентированных на работу с нейронными сетями и ИИ — благодаря программно-аппаратным оптимизациями скорость работы в этих задачах увеличилась в 14 раз, так что в целом ряде случаев отпадает необходимость в покупке отдельного ускорителя. Речь идёт в первую очередь об исполнении, а не тренировке сетей, но именно это зачастую и требуется, так что процессоры довольно универсальны, так как позволяют работать и c FP64, и с INT8. А серии 6200/8200/9200 к тому же имеют сразу два FMA-порта для исполнения двух операций сразу.

Все процессоры предоставляют 48 линий PCIe 3.0, то есть в типовом двухсокетном сервере их будет уже 96, чего вполне достаточно для установки дополнительных контроллеров. Кроме того, чипсет Intel C620 может предоставить до четырёх 10GbE-портов с поддержкой RDMA, избавив таким образом от необходимости устанавливать сторонние адаптеры. А старшие версии чипсета предоставляют ещё Intel QuickAssist, аппаратный акселератор для ускорения (де)компрессии и операций шифрования, который снимает нагрузку с центрального процессора. Такой же функциональностью обладают и 100GbE-адаптеры Intel Ethernet 800, которые так же имеют функции ADQ и DDP для классификации и приоритетной обработки трафика.

PCIe-комплекс процессоров также включает NVMe-контроллер Intel VMD и программно-аппаратный RAID-контроллер VROC, что упрощает и ускоряет развёртывание быстрого и безопасного хранилища с возможностью горячей замены SSD. Это позволяет упростить платформу, ускорить развёртывание и повысить плотность. Причём, как и в случае с сетью от C620, можно получить комплексное решение — Intel предлагает различные варианты SSD, включая и недорогие, но ёмкие QLC-накопители, которые позволят ускорить обработку данных.

Наконец, у Intel есть и память Optane, доступная как в виде классической AIC, так и, в поколении Cascade Lake (Refresh), в виде DIMM-модулей (DCPMM), соседствующих с обычной оперативной памятью. Optane предлагает более высокие скорости в сравнении с SSD и более низкую стоимость в сравнении c DRAM. В сочетании с поддержкой от 1 до 4,5 Тбайт RAM на сокет открывается уникальная возможность получить действительно большой объём памяти без лишних затрат. Системы с Optane DCPMM идеально подходят для работы с Big Data, СУБД, анализа данных и SAP HANA. Как уже много раз говорилось, Intel фактически меняет иерархию памяти, сохраняя, если необходимо, совместимость с имеющимся ПО.

Помимо всего прочего, Intel также предоставляет целый ряд интегрированных технологий, помогающих повысить надёжность и стабильность работы в сочетании с лёгкой управляемостью как отдельного сервера, так и целого ЦОД. Также компания предлагает целый ряд программных инструментов, позволяющих максимально полно задействовать все имеющиеся технологии и аппаратные решения для упрощения и ускорения внедрения. Ну и, конечно, нельзя забывать о многолетнем сотрудничестве с массой разработчиков ПО, чьи решения заранее оптимизированы для работы на платформах Intel.

Самый простой способ изучить все возможности процессоров Intel и платформ на их основе — самому протестировать их в реальных нагрузках и задачах и получить при необходимости консультацию специалистов. Именно это предлагает известный российский дистрибьютор OCS, в демо-фонде которого теперь доступны HPE DL380 Gen10 и HPE DL360 Gen10 — одни из самых популярных универсальных двухсокетных 2U-серверов. Для теста доступны следующие машины:

  • HPE DL380 Gen10 c Intel Xeon Gold  6248 (20/40, 2,50/3,90 ГГц, L3 27,5 Мбайт) и корзиной 24 SFF;
  • HPE DL360 Gen10 c Intel Xeon Gold  6248 (20/40, 2,50/3,90 ГГц, L3 27,5 Мбайт) и корзиной 8 SFF;
  • HPE DL360 Gen10 c Intel Xeon Gold 6230 (20/40, 2,10/3,90 ГГц, L3 27,5 Мбайт) и корзиной 8 SFF.
Постоянный URL: http://servernews.ru/1013195
20.06.2020 [21:35], Алексей Степин

GIGABYTE R292: 4-сокетные серверы для Intel Xeon Cooper Lake

Довольно долгое время бесшовная реализация серверов на базе процессоров Intel Xeon с более чем двумя процессорными разъёмами была не лишенной ряда проблем. Даже второе поколение Xeon Scalable на LGA3647 имело лишь 3 линии UPI на процессор, да и то только у серий Gold и Platinum.

Однако анонс третьего поколения Xeon Scalable решил эту проблему: процессоры Cooper Lake имеют по шесть линков UPI в Gold- и Platinum-версиях (других пока и нет), а этого уже вполне достаточно для бесшовной реализации системных плат минимум с четырьмя разъёмами LGA3647.

Первоначальные реализации 4S- и 8S-систем на базе Xeon Scalable

В «доисторические» времена реализация многопроцессорных системных плат на базе процессоров Intel была проще, поскольку общались они между собой через единую системную шину, хотя производительность при этом и была далёкой от идеала. С появлением межпроцессорных интерфейсов QPI, а затем и UPI усложнило задачу.

Для четырёхпроцессорных конфигураций это означало использование всех трёх линков, включая и организацию «перекрестных» связей. Это ограничивало производительность в задачах с интенсивной пересылкой данных от ЦП к ЦП — пропускная способность одного линка UPI составляет всего 10,4 Гт/с (20,8 Гбайт/с). А реализация восьмипроцессорных систем и вовсе не была симметричной, что неизбежно приводило к ещё большим скоростным пенальти.

GIGABYTE R292-4S0

GIGABYTE R292-4S0

Однако в анонсированном на днях третьем поколении Xeon Scalable под кодовым названием Cooper Lake чипы получили по шесть линков UPI, а это позволило организовывать связь между четырьмя процессорами на скорости до 20,8 Гт/с, причём, в любом направлении. И этим тут же воспользовались производители серверного оборудования.

В их числе — и компания GIGABYTE, которая представила новое семейство серверов с поддержкой Cooper Lake под общим названием R292. Отметим, что реализация трёх дополнительных линков UPI потребовала увеличения числа контактов в разъёме: теперь это LGA4189 (Socket P+), обратной совместимости с LGA3647 нет и она невозможна физически по очевидным причинам.

Первоначальные реализации 4S- и 8S-систем на базе Xeon Scalable

Схемотехника и конфигурация подсистем R292-4S0: четыре полноразмерных места для установки PCIe-карт

В серии пока имеется два варианта: R292-4S0, рассчитанный на установку четырёх двухслотовых плат ускорителей и R292-4S1, в который можно установить восемь ускорителей половинной высоты. Нехватки линий PCI Express в новых системах не ощущается: их в распоряжении плат расширения оказывается 192 — столько же обеспечивает двухпроцессорная система на базе AMD Rome при двух каналах Infinity Fabric между процессорами; правда, поддержки PCIe 4.0, как мы знаем, Xeon Scalable третьего поколения не получили.

Дизайн у R292 модульный, что обеспечивает новыми серверам GIGABYTE серьёзную гибкость при конфигурировании. Также они отличаются повышенной ёмкостью подсистем памяти: из-за четырёх процессоров в них можно установить до 12 Тбайт DDR4, что полезно, например, при работе с базами данных класса «всё в памяти». Ядер у новых Xeon Scalable в максимальных вариантах по-прежнему 28, но это даёт уже 112 ядер и 224 треда на систему против 56/112 ранее. По этому показателю R292 могут посоперничать с решениями на базе AMD Rome (2CPU, 128C/256T).

GIGABYTE R292-4S1

GIGABYTE R292-4S1

Обе новых системы используют в качестве основы корпус высотой 2U, «верхний этаж» отдан под 10 дисковых корзин «горячей замены», причём речь идёт о накопителях U.2 с интерфейсом PCI Express. Поддержка SAS заявлена как опциональная и требует установки дополнительной платы расширения. Это одно из свидетельств окончательной победы NVMe над SAS/SATA. Питаются системы от пары блоков питания мощностью 3200 Ватт, горячая замена поддерживается. Допустима установка процессоров с теплопакетом до 250 Ватт включительно.

Схемотехника и конфигурация подсистем R292-4S1: 8 слотов PCI Express x16

Также в комплект поставки компания-производитель включает бесплатное программное обеспечение для удалённого мониторинга и управления системами, GIGABYTE Server Management (GSM). Оно совместимо как с обычным стандартом IPMI, так и с API Redfish. Присутствуют как GUI-компоненты, так и богатый набор консольных команд, поддерживается интеграция с VMware vCenter, а также удалённое управление с мобильных устройств, как на базе Android, так и Apple iOS. Более подробная информация доступна на сайте GIGABYTE: R292-4S0 и R292-4S1.

Постоянный URL: http://servernews.ru/1013857
19.06.2020 [22:55], Юрий Поздеев

Lenovo ThinkSystem SR850/860 V2 — новые серверы для бизнес-критичных задач

Lenovo Data Center Group (DCG) анонсировала два сервера серии ThinkSystem с недавно вышедшими процессорами Intel Xeon  Scalable третьего поколения: SR860 V2 и SR850 V2. Обе новинки уже доступны для заказа.

ThinkSystem SR860 V2 это 4-сокетный сервер типоразмера 4U, разработанный для бизнес-критичных задач (SAP HANA, Oracle, SQL, in-memory аналитика). Дисковая подсистема имеет 48 отсеков для 2,5" дисков на лицевой панели, половина из них может быть использована для NVMe-накопителей.

Максимальный размер оперативной памяти достигает 12 Тбайт, что позволяет размещать в ней базы данных для быстрой аналитики. Вместо половины модулей памяти можно установить Intel Optane PMem емкостью по 512 Гбайт каждый, что в сумме даст 12 Тбайт энергонезависимой памяти в дополнение к 6 Тбайтам оперативной памяти. 

Для машинного обучения и задач ИИ есть возможность дополнительно установить до 4 ускорителей NVIDIA двойной ширины (например, Tesla V100S). Дополнительный слот для карт расширения OCP 3.0 имеет простой механизм замены адаптера без использования инструментов. ThinkSystem SR860 V2 поддерживает зеркалирование памяти, аппаратную коррекцию ошибок (SDDC, так же известную как Chipkill и ADDDC). За питание сервера отвечают четыре блока питания с резервированием по схеме N+1.

SR850 V2 отличается от своего старшего собрата меньшим размером (2U), однако при этом он поддерживает до 4 процессоров Intel Xeon Cooper Lake и 48 модулей оперативной памяти DDR4-3200. На лицевой панели размещены 24 отсека для NVMe/SAS/SATA SFF-накопителей.

Вместе с новыми сервервами Lenovo также анонсировала обновление программного обеспечения для СХД ThinkSystem DM7100, которое кроме оптимизации быстродействия включает в себя интегрированное многоуровневое облачное управление данными с возможностью создавать резервную копию данных и обеспечения высокой доступности для аналитических рабочих нагрузок.

Постоянный URL: http://servernews.ru/1013804
19.06.2020 [14:48], Илья Коваль

Hyve Catalina: 8-сокетная OCP-платформа c Intel Xeon Cooper Lake и СЖО

Вслед за выходом третьего поколения Intel Xeon Scalable под кодовым именем Cooper Lake ожидаемо появились анонсы и новых решений на их основе. Впрочем, некоторые пришлось сделать это дважды: платформа Hyve Catalina формально была анонсирована месяц назад на OCP Virtual Summit, но, похоже, тогда почти никто не проникся.

Так что вендор решил напомнить о ней ещё раз, но в своём привычном стиле — без детального описания. И дело не только в том, что новые процессоры предназначены для 4- и 8-сокетных систем, которые заведомо интересны относительно небольшому кругу клиентов, но и в том, сама Hyve создаёт OCP-платформы для сверхкрупных заказчиков. Тем интереснее непосвящённым взглянуть одним глазком на машины, которые используют гиганты вроде Facebook и Microsoft.

Как уже было отмечено в материале про Cooper Lake, важное отличие этих процессоров от прошлых Xeon Scalable, в том, что у них теперь есть сразу шесть линий UPI. Это позволяет создавать «бесшовные» массивы из четырёх или восьми процессоров. Причём в случае четвёрки каждый CPU будет соединён с остальными двумя линиями UPI.

Впрочем, как и большинство других вендоров, Hyve оставляет опцию лёгкого «даунгрейда» до четырёх сокетов — в шасси HS9419 высотой 2OU (OpenRack Unit) помещаются две четырёхпроцессорные платы. Так как у каждого процессора есть 48 линий PCIe 3.0, можно ни в чём себе не отказывать. Поэтому каждому CPU полагается 100GbE-адаптер Intel Ethernet 800 и два NVMe SSD. Дополнительно есть пара общих для всей системы слотов OCPv3 для сетевых карт и четыре обычных слота PCIe 3.0 под райзеры.

При этом использование GPU в системе не предполагается. Во-первых, с появлением поддержки bfloat16 для DL Boost позволяет использовать процессоры для обучения нейронных сетей, а не только для исполнения. Во-вторых, размещение выходит и так достаточно плотным — для CPU используется СЖО. Причём завяленный уровень TDP составляет 270 Вт, хотя в публичном списке моделей с таким тепловыделением нет.

Небольшой запас может пригодиться для увеличения времени работы в Turbo Boost и с «тяжёлыми» инструкциями. Возможные сценарии включают не только работу с «нейронками», но и классические для таких систем задачи по обработке и анализу больших объёмов данных в реальном времени. Благо появление поддержки памяти Intel Optane PMem 200 (именно она замазана на слайде) должно сделать этот процесс более быстрым и выгодным с экономической точки зрения — DCPMM банально дешевле DRAM.

Постоянный URL: http://servernews.ru/1013792
18.06.2020 [16:11], Алексей Степин

Intel D7-P5500 и D7-5600: ёмкие и быстрые PCIe 4.0 SSD для серверов

«Пирамида Intel» хорошо известна всем, кто интересуется концепциями, продвигаемыми этим ИТ-гигантом. Две верхние позиции занимают самые быстрые типы памяти, это DRAM и DCPMM. Третья ступень относится уже к категории «хранение данных» и предполагает использование SSD на базе памяти Optane или NAND. Самая «холодная» зона оставлена за механическими жёсткими дисками и ленточными библиотеками.

В предпоследнем секторе у Intel на сегодня также есть новинки: это SSD-накопители D7-P5500 и D7-5600 под кодовым именем Arbordale c предельными ёмкостями 7,68 и 6,4 Тбайт соответственно. Оба варианта базируются на 96-слойной TLC 3D NAND производства Intel и развивают до 1 миллиона IOPS на случайных операциях чтения. Показатели для случайной записи достаточно низкие, 130 и 260 тысяч устоявшихся IOPS.

Стоит отметить, что хотя платформа Cooper Lake-SP и не получила поддержки PCI Express 4.0, новые SSD-накопители Intel ею располагают и поддерживают линейные скорости до 7 Гбайт/с при чтении и до 4,3 Гбайт/с при записи. Обе новинки имеют интерфейс NVMe 1.3c, они представлены в двух популярных форм-факторах: классическом 2,5″ U.2 высотой 15 мм и в виде карты расширения PCIe со слотом x4. Возможно, со временем увидят свет и D7 в набирающих популярность «линеечных» форматах.

Модель D7-5600 отличается повышенной надёжностью: до 35 Пбайт записанных данных, производитель также говорит о трёх полных перезаписях в день (3 DWPD). Из-за этого максимальные объёмы у неё несколько ниже, нежели у D7-5500 за счёт большей степени резервирования NAND-ячеек. Ресурс «младшей» модели составляет 14 Пбайт и 1 полная перезапись в день (1 DWPD). Благодаря продвинутым методам коррекции ошибок такие показатели стали нормальными и для памяти типа TLC. На обе модели даётся ограниченная 5-летняя гарантия.

Серверные накопители Intel всегда отличались отличными показателями латентности и новые D7-5x00 не стали исключением. В сравнении с предыдущим поколением SSD аналогичного класса у них на 80% ниже задержки по показателю «качество обслуживания при чтении». Постоянный уровень задержек гарантирован для 99,99999% транзакций. Такая предсказуемость делает новые SSD идеально подходящими для баз данных и прочих сценариев, критичных к постоянству задержек.

В накопителях применена некая новая схема TRIM, она не требует действий ни от пользователя, ни ресурсов со стороны операционной системы; не влияет она и на рабочие сценарии — вся оптимизация проходит в виде фонового процесса. Поддерживается расширенные средства мониторинга и отслеживания ошибок, имеется аппаратная поддержка шифрования AES-XTS 256, заявлена совместимость с TCG Opal 2.0.

Вместе c новыми SSD Intel также представила второе поколение памяти Intel Optane DCPMM 200 для процессоров Xeon Cooper Lake и новую FPGA Intel Stratix 10 NX.

Постоянный URL: http://servernews.ru/1013604
18.06.2020 [16:11], Алексей Степин

Intel Stratix 10 NX: новые высокоскоростные ПЛИС для машинного интеллекта

Одним из главных нововведений в Intel Xeon Scalable третьего поколения стала поддержка формата вычислений bfloat16, что дало возможность как исполнять, так и обучать нейронный сети на CPU. Но с такими узкими задачами как машинное обучение обычно лучше справляются специализированные устройства. Одной из них — новая ПЛИС Intel Stratix 10 NX.

Само семейство Stratix 10 уже имеет богатую историю: так, в конце прошлого года Intel выпустила ПЛИС Stratix 10 GX 10M, которая стала самой сложной ПЛИС на тот момент. Она содержала более 10 миллионов логических элементов и использовала мультикристальную компоновку: два основных «ядра» и четыре меньших кристалла с трансиверами.

Но для вычислительных задач, требующих быстрого доступа к серьёзным объёмам оперативной памяти, новые ПЛИС Stratix 10 NX подходят существенно лучше — у Stratix 10 GX было всего 308 Мбит набортной памяти, а новинки располагают как небольшим блоком ячеек DDR, расположенных в основном «ядре», так и модулем HBM большого объёма, соединенным с основной частью посредством EMIB.

Лучше всего Stratix 10 NX будет чувствовать себя на задачах с большим количеством тензорных вычислений, благодаря наличию специализированных ИИ-блоков AI Tensor Block.  По заявлению Intel, производительность в режиме INT8 у новинок более чем в 15 раз превышает аналогичные показатели у старых представителей семейства Stratix 10. При этом блоки тензорных вычислений могут быть объединены в каскады для поддержки более крупных матриц вычислений. Поддерживаются также форматы INT4, FP12, FP16 и классические FP32/INT32.

Кроме того, новые ПЛИС используют новые высокоскоростные трансиверы с модуляцией PAM4, обеспечивающие скорость 57,8 Гбит/с каждый, а трансиверных модулей у новинки три. Аппаратная реализация поддержки Ethernet дополнительно поможет при разработке периферийных систем на базе новых ПЛИС. Помимо прочего имеется и свой контроллер PCI Express, а также блоки для реализации кастомных вычислений, функций ввода/вывода и нестандартных протоколов связи.

Сочетание всех качеств, которыми обладают Stratix 10 NX, делают новые ПЛИС идеально подходящими для систем машинного интеллекта, действующих в реальном времени и требующих высокой вычислительной плотности. К таковым, например, относятся комплексы машинного зрения с функциями распознавания образов, системы распознавания речи и так далее. Также новинки должны отлично показать себя в сетевых задачах, например, при глубоком анализе сетевых пакетов (DPI) на лету. Высокий уровень интеграции позволяет использовать эти FPGA для периферийных вычислений.

В рамках сегодняшнего анонса Intel также представила второе поколение памяти Intel Optane DCPMM 200 для новых процессоров Xeon Cooper Lake и PCIe 4.0 накопители  Intel D7-P5500 и D7-5600.

Постоянный URL: http://servernews.ru/1013616
18.06.2020 [16:00], Алексей Степин

Intel: новая память Optane DCPMM на четверть быстрее старой

В понятие «платформа» как таковое входят три компонента: процессор, память и устройства хранения данных, хотя с появлением Optane DCPMM грань между последними двумя понятиями и стала размываться. Вместе с анонсом Xeon Scalable Cooper Lake Intel представила второе поколение памяти Optane DCPMM, которе и предназначено для новых CPU.

Рост популярности систем машинного интеллекта и периферийной обработки данных приводит и к тому, что от подсистем памяти требуются большие, нежели ранее, объёмы. DRAM, однако, всё ещё очень дорогое удовольствие, когда речь заходит о терабайтах и десятках терабайт, а обычная флеш-память NAND не может похвастаться высокой производительностью на мелкоблочных и случайных операциях в силу своей структуры.

Intel не первый год продвигает концепцию Optane DCPMM: сам тип микросхем Optane (3D XPoint) хорошо подходит в качестве «продолжения» системной памяти, порой не критически уступая DRAM в производительности. При этом модули DCPMM энергонезависимы и могут быть весьма солидных объёмов, заведомо превышающих объёмы, достигаемые «чистой» DRAM.

DCPMM позволяет снизить стоимость владения при увеличении объёмов памяти и лучшей производительности

DCPMM позволяет снизить стоимость владения при увеличении объёмов памяти и лучшей производительности

В прошлом году мы опубликовали заметку, рассказывающую о том, насколько хорошо смешанные системы на базе Optane DCPMM + DRAM показывают себя в научно-технических расчётах. И они доказали свою полезность, хотя речь шла о первом поколении модулей DCPMM. А сейчас компания Intel представила модули на базе Optane второго поколения, обладающие улучшенными техническими характеристиками.

Они носят название Optane 200 и, по замыслу разработчика, эти модули должны составить компанию платформе Cooper Lake-SP, третьему поколению Xeon Scalable. Максимальная ёмкость модуля по-прежнему составляет 512 Гбайт.

Эффективность новой DCPMM в сравнении с серверами трёхлетней давности

Эффективность новой DCPMM в сравнении с серверами трёхлетней давности

Общий объём смешанной памяти у систем на базе Cooper Lake может достигать внушительной цифры 4,5 Тбайт на процессорный разъём, хотя для этого и требуется процессор Xeon с суффиксом HL в названии. Отличный выбор для нагрузок вроде баз данных in-memory, аналитики в реальном времени, да и системы виртуализации от такого только выиграют — один сервер сможет вместить больше инстансов.

Новые модули имеют невысокий теплопакет, остающийся в рамках 12 ‒ 15 Ватт, но при этом они могут быть на четверть производительнее Optane DCPMM предыдущего поколения. По разным оценкам надёжность новинок варьируется в пределах 75 — 363 Пбайт, записанных в течение пятилетнего гарантийного срока. Поддерживаются частоты DDR4 1866, 2133, 2400 и 2666 МГц, тогда как сами процессоры Cooper Lake-SP получили поддержку и более быстрой DDR4-3200.

Вместе с новой памятью и процессорами компания также анонсировала накопители Intel D7-P5500 и D7-5600 с интерфейсом PCIe 4.0 и новую FPGA Intel Stratix 10 NX.

Постоянный URL: http://servernews.ru/1013599
Система Orphus