Intel продвигает платформу Purley на российском рынке ЦОД

 

Официально платформа Intel Purley была представлена в июле текущего года, хотя избранные зарубежные партнёры компании получили доступ к ней намного раньше. Сама Intel неоднократно говорила о том, что это не просто очередной анонс в духе «быстрее, выше, сильнее». Речь идёт о перебалансировке платформы в целом. Собственно говоря, серверные решения не ограничиваются одними только CPU. В арсенале у Intel есть собственные SSD, новые накопители 3D XPoint, FPGA, различные акселераторы (в том числе встроенные теперь и в PCH), а также целое семейство ускорителей Xeon Phi и Nervana. И это не считая солидного набора библиотек для всего этого. Однако в данной заметке речь пойдёт о внедрении новой платформы на территории РФ, чему корпорация Intel посвятила отдельное мероприятие. 

Увы, пока что публично рассказать о полевых испытаниях Intel Purley согласились рассказать немногие (Мы уже не первый месяц ждём информацию от одного из крупнейших IT-конгломератов РФ - прим. ред.), так что заметка будет посвящена работе с Optane в МГУ и тестированию Xeon-SP в МТС. Ранее мы уже рассказывали обо всех ключевых компонентах Intel Purley, так что здесь ограничимся лишь кратким описанием технологий и примеров. 

Optane SSD DC P4800X были анонсированы ещё весной. Надо отдать новинке должное: хотя по показателям линейной производительности она может и уступать решениям Samsung, зато задержки при обращении к устройству снизились до 10 микросекунд и даже ниже. Немаловажно и то, что показатель задержки остаётся постоянным, что в ряде случаев весьма критично. Помимо этого, P4800X обеспечивает и отличную пропускную способность на коротких очередях, чем классические SSD обычно похвастаться не могут, хотя и оставляют далеко позади традиционные HDD. Использование нового типа памяти также позволило существенно поднять надёжность — примерно в три раза. Завяляется, что при равном объёме и прочих условиях Optane SSD DC P4800X сможет обеспечить до 30 дневных перезаписей в течение расчётного срока, тогда как у серверного NAND SSD этот показатель будет равен примерно 10 перезаписям в день.

Сейчас накопители на базе Optane не отличаются ни дешевизной, ни большими объёмами хранения данных, так что Intel предполагает два сценария использования DC P4800X: кеширующий накопитель для массива на традиционных SSD или прозрачное расширение памяти. В последнем случае, что интересно, управляющее программное обеспечение включается до загрузки операционной системы, и такая связка с точки зрения ОС является абсолютно прозрачной: небольшой гипервизор перехватывает и перераспределяет обращения к памяти. Тип ОС, по сути, не имеет значения. Впрочем, это пока скорее переходный этап, так как в дальнейшем появится полноценная реализация NVDIMM. 

Называется эта технология Intel Memory Drive Technology (MDT). Конечно, память Optane не столь быстра как традиционная DRAM, но здесь всё зависит от сценария нагрузки. К примеру, при матричном умножении можно получить выигрыш порядка 1,1х за счёт оптимизации размещения данных, а вот в базе данных MySQL производительность может составить 80 % от производительности системы класса «всё в памяти» (Big DRAM). Но при этом вариант с MDT существенно дешевле, что делает технологию отличной альтернативой.

Конечно, пропускная способность DDR4 на порядок выше, нежели у накопителей Optane (порядка 25 Гбайт/с на канал против примерно 2 Гбайт/с на диск), но, как показывают результаты исследований сотрудников химического факультета МГУ им. М. В. Ломоносова и Intel, ограничивающим фактором производительность DC P4800X становится редко. Более того, технология MDT лучше ведёт себя в системах с архитектурой NUMA — а к таковым можно причислить практически все современные многопроцессорные платформы, поскольку контроллеры памяти у каждого процессора свои, а общаются между собой ЦП посредством отдельной шины.

Конечно, разработка приложений под MDT имеет свою специфику — в частности, шаблоны обращения к памяти должны быть предсказуемыми, чтобы можно было с упреждением подгрузить порцию данных в DRAM из накопителя Optane. Наилучшие результаты достигаются в приложениях вычислительного характера, где на каждое обращение к памяти приходится много процессорных тактов; в противном случае DC P4800X всё же может стать узким звеном, как это было описано в примере с MySQL в предыдущем абзаце. Крайне желательно также одновременное использование более половины доступных процессорных ядер в системе.

Для сравнительных тестов MDT применялись следующие системы: обе машины были оснащены двумя процессорами Intel Xeon E5-2699 v4 (44 ядра, 88 потоков совокупно, 2,2 ГГц). Но система с MDT получила лишь 256 Гбайт памяти DDR4 ECC, которую дополнили 4 накопителя Optane ёмкостью 320 Гбайт каждый (8‒10 Гбайт/с суммарно). В то же время, система типа Big DRAM была оснащена 1536 Гбайт DDR4 ECC. Тестовая программа состояла из следующих пунктов:

  • Расчёт полиномов;
  • Перемножение матриц (GEMM);
  • LU-факторизация;
  • PARDISO (Intel Math Kernel Library);
  • Быстрое преобразование Фурье (FFT).

В итоге в тесте GEMM система с MDT даже после оптимизации теста практически не уступила Big DRAM (0,9x), а в неоптимизированном тесте и вовсе оказалась впереди (1,1x). В LU-факторизации (один из тестов Linpack) после оптимизации эффективность MDT составила 90 % от эффективности Big DRAM. В тесте FFT при размере задачи до 200 % от объёма DRAM система с MDT демонстрировала эффективность на уровне 80‒130 %, но при увеличении задачи до 250 % от объёма DRAM эффективность упала до 40 %, что, очевидно, связано с постоянным использованием накопителя Optane.

А вот в задаче Intel MKL PARDISO (разреженные задачи линейной алгебры) технология MDT оказалась эффективнее классической вне зависимости от размеров данных. В целом, для неоптимизированных задач Intel оценивает эффективность MDT в диапазоне от 20 % до 180 %, а в приложениях, где главным параметром является ПСП, этот показатель оценен примерно в 50 %, что всё равно неплохо с учётом стоимости равного MDT-системе по объёму массива «чистого» DRAM.

Стоит также рассказать и о том, что новая серверная архитектура Intel уже успела пройти проверку в компании МТС, крупном телекоммуникационном провайдере. Клиентов у мобильного оператора более 100 миллионов, только розничных торговых точек более 5500, так что можно представить себе, какая ИТ-инфраструктура стоит за этими масштабами. В МТС есть особое подразделение, которое занимается Data Science — обработкой огромных массивов данных, которые ежесекундно собираются компанией, и их анализом. Отчёты предназначены и для внутреннего использования, и для сторонних заказчиков.  

Для теста была выбрана следующая цель: оптимизация планирования рабочего времени (WFM) сотрудников салонов связи. Задача не такая простая, как кажется на первый взгляд: у сотрудников может быть гибкий график работы; кто-то может неожиданно заболеть; есть определённые правила относительно минимального числа сотрудников в каждый момент времени в салоне; есть, в конце концов, трудовое законодательство. Даже погода за окном влияет на работу салона. Оценка расписаний зависит от правил, установленных в системе WFM. У каждого правила есть свой «вес», всего в системе анализа насчитывается около 30 правил. Новая платформа для этой задачи содержала два процессора Intel Xeon Gold 6148 (40 ядер, 80 потоков суммарно, 2,4 ГГц, стоимость одного чипа примерно $3075), а вот соперником выступил настоящий тяжеловес: четыре процессора Xeon E7-4890 v2 (60 ядер, 120 потоков суммарно, 2,8 ГГц, стоимость одного чипа $6619). 

Для эксперимента случайным образом отобрали 30 офисов, для каждого из которых было установлено по 10 вариантов расписания, всего же итераций эксперимента было 10. Результат оказался неожиданным. Четырёхпроцессорный монстр с треском проиграл новичку, оснащённому всего двумя процессорами, да ещё и с меньшим общим количеством ядер. Если у старой системы время работы алгоритма превысило 50 секунд, то новинка на базе Xeon Gold управилась менее, чем за 30 секунд. С учётом меньшего энергопотребления (300 ватт на 2 процессора против 620 ватт на 4 процессора) результат весьма достойный. 

Кроме того, на презентации свои доклады представили сотрудники РСК и Selectel. Первая занимается разработкой и внедрением суперкомпьютерных решений на территории России (и не только) и известна своими рекордами по созданию высокоэнергоэффективных систем и систем с высокой плотностью. На мероприятии РСК рассказала о сравнительном тестировании новых узлов «РСК Торнадо» на базе Skylake-SP c узлами на базе Westmere-EX. Как и в примере с МТС, двухсокетное решение на новой платформе оказалось значительно эффективнее четырёхсокетного на старой. К слову, удивляться такой разнице между поколениями не стоит — крупные вычислительные системы обновляются не каждый год, а эксплуатируются минимум 3-4 года после внедрения. 

Что касается Selectel, то мы уже подробно рассказывали об инициативе Selectel Lab. Этот облачный провайдер первым в России предложил заказчикам решения Intel Purley, а в рамках Lab каждый может бесплатно протестировать процессоры Intel Xeon Scalable Processor, ускорители Intel Xeon Phi Knights Landing, FPGA-ускорители на базе Intel Arria 10GX, а также накопители Intel Optane P4800X.

Источник:

Постоянный URL: http://servernews.ru/962283
Поделиться: