Материалы по тегу: тесты

19.04.2018 [10:00], Алексей Степин

POWER9 против x86: кто кого? Первые тесты

Об альтернативных платформах мы, к сожалению, пишем редко, а если и пишем, то речь, как правило, идёт о серверах, суперкомпьютерах и кластерных системах, где процессорные архитектуры, отличные от x86, и не собираются сдавать своих позиций. Но в секторе настольных решений влияние других архитектур, к сожалению, ничтожно, хотя и не равно нулю: разработка серверных приложений под архитектуры SPARC или POWER требует наличия соответствующих рабочих станций. В рамках OpenPOWER платформа POWER9 доступна вообще любому, кто в состоянии позволить себе приобрести комплект Raptor Talos II, состоящий из системной платы форм-фактора EATX, двух процессоров и пары кулеров, причём плата имеет слоты PCI Express версии 4.0 и полностью открытое базовое программное обеспечение.

Пара 8-ядерных процессоров POWER9

Пара 8-ядерных процессоров POWER9

До недавних пор никто не публиковал интересной информации относительно этого проекта, но ресурс Phoronix не столь давно выложил целый обзор, посвящённый сравнению Talos II с серверными процессорами Intel Xeon и AMD EPYC. В оригинальном анонсе Talos II комплектовалась двумя четырёхъядерными процессорами, но нашим западным коллегам достались более мощные восьмиядерные чипы POWER9 (CP9M02). С учётом развитой мультипоточности в архитектуре POWER9 (SMT4 против SMT2 у x86) это даёт возможность исполнения 64 потоков на систему. Вопрос лишь в эффективности и оптимизации программного обеспечения. В настоящее время Raptor предлагает даже 22-ядерные процессоры (88 потоков), так что конфигурацию Phoronix можно даже назвать скромной, хотя в ближайшем будущем они и обещали протестировать конфигурацию с двумя такими ЦП (176 потоков на систему).

Системная плата в сборе

Системная плата в сборе

Максимальная тактовая частота в системе Talos II достигала 3,8 ГГц при базовой 3,45 ГГц, она была оснащена 256 Гбайт оперативной памяти и графической картой AMD Radeon Pro WX 7100. В качестве ОС была установлена тестовая версия Debian Linux с ядром версии 4.16 PPC64LE. Основным компилятором стал GCC 7.3, поставляемый с ОС, файловая система на дисках во всех случаях — Ext4. В качестве соперников выступили следующие системы:

  • 2 × Intel Xeon Gold 6138 (2,0/3,7 ГГц, 40C/80T), Tyan S7106, 96 Гбайт памяти;
  • AMD EPYC 7551 (2,0/3,0 ГГц, 32С/64Т), GIGABYTE MZ31-AR0, 32 Гбайт памяти;
  • AMD EPYC 7601 (2,2/3,2 ГГц, 32С/64Т), Tyan B8026T70AE24HR, 128 Гбайт памяти.

Накопители во всех случаях были разными: от обычного жёсткого диска WD ёмкостью 500 Гбайт у Talos II до Intel 900p Optane у AMD EPYC 7601.

Симуляция поведения жидкостей: зависимость от конкретного теста

Симуляция поведения жидкостей: зависимость от конкретного теста. Второе место в Stencil поражает: 16 ядер против 40!

Результаты тестов оказались несколько разочаровывающими для энтузиастов платформы POWER9, но не стоит забывать, что развитая мультипоточность не заменяет физических ядер, а по их количеству Talos II была самой младшей среди участников тестирования: всего 16 ядер против 40 или 32 у Intel или AMD соответственно. Но в некоторых отдельных дисциплинах теста Paraboli v2.5 (обсчёт поведения жидкостей) платформе всё равно удалось занять второе место, уступив лишь монстру на базе Xeon Gold.

Не только поражения...
Не только поражения...

Не только поражения...

 

...но и победы

...но и победы

Тест на сжатие 7-Zip и вовсе на наш взгляд следует считать некорректным из-за возможного влияния дискового накопителя или же однобокой оптимизации теста только под x86. Не блеснула POWER9 и в тестах на компиляцию или работу с PHP, а вот в синтетическом наборе тестов OSBench новинка показала себя на удивление хорошо. Иными словами, потенциал у POWER9 есть, и немалый — а проигрыш в ряде тестов может объясняться как существенно меньшим количеством ядер, так и лучшей оптимизацией ПО с учётом особенностей x86. Если программное обеспечение будет столь же тщательно оптимизироваться и для POWER9, платформу может ожидать вполне успешное будущее не только в секторе серверов и суперкомпьютеров. Стоит также принимать во внимание цены на процессоры:

  • Intel Xeon Gold 6138 — $2618;
  • AMD EPYC 7551 — $3400;
  • AMD EPYC 7601 — $4200;
  • IBM POWER9 CP9M02 — $595.

Как видите, в цене решения IBM существенно выигрывают у соперников, а проигрывают им в тестах далеко не всегда, особенно если вспомнить, что большинство современного ПО попросту не учитывает доступные в архитектуре POWER9 инструкции и особенности. Системная плата Talos Raptor II стоит достаточно дорого, $2325, и это следует учитывать при сравнении общей стоимости систем на базе POWER9 и x86. Ознакомиться с обзором зарубежных коллег можно по этой ссылке.

Постоянный URL: http://servernews.ru/968511
17.03.2018 [11:25], Алексей Степин

TOP500: бенчмарк HPCG набирает популярность, вытесняя HPL

На протяжении многих лет основным тестовым инструментом для измерения производительности суперкомпьютеров и кластерных систем был пакет High Performance Linpack (HPL), причём, таковым он считался де-факто. Продержался этот пакет в таком статусе четверть века, что в мире информационных технологий означает не одну эпоху: в 1993 году самым мощным процессором с архитектурой x86 был Intel Pentium (P5), но процветали также архитектуры MIPS (R4400), SPARC V8/V9, DEC Alpha и POWER2. Но у HPL есть одна проблема: тест хорошо подходит для «прогрева» только что смонтированной системы, и в лучшем случае предоставляет собой не самый точный индикатор того, насколько хорошо она будет выполнять научные и инженерные задачи.

1992 год: одно из воплощений процветавших тогда архитектур, процессор  DEC Alpha 21064 (EV4)

1992 год: одно из воплощений процветавших тогда архитектур, процессор DEC Alpha 21064 (EV4)

Команда разработчиков альтернативного тестового пакета HPCG (High Performance Gradients) продвигает своё детище уже довольно давно, при этом статистика производительности собирается с 2014 года, что, конечно, не идёт в сравнение со сроками HPL, но всё же популярность новинки постоянно растёт. Создатель HPCG считает, что Linpack на сегодня свою задачу выполнил и более не отвечает требованиям времени. В этом есть смысл: HPL использует богатые на вычисления алгоритмы с небольшими, «плотными» структурами данных, но современные приложения могут задействовать (и часто задействуют) огромные распределенные массивы при менее интенсивных вычислениях. Примером могут послужить задачи класса Big Data, но создатели HPCG используют и другие актуальные примеры, например, моделирование распределения давлений в потоке жидкости, где также сильна нагрузка на подсистему памяти.

Одно из многочисленных сердец комплекса K: чип SPARC64 VIIIfx. 128 гигафлопс, 45 нм

Одно из многочисленных сердец комплекса K: чип SPARC64 VIIIfx. 128 гигафлопс, 45 нм

В число типичных для сегодняшнего дня проектов входят задачи машинного обучения, финансовая аналитика, системы защиты от электронного мошенничества — и все они серьёзно зависят от производительности системы при случайном обращении к памяти. И в этом плане HPCG гораздо лучше отвечает веяниям нового времени, нежели HPL, поскольку последний тест не нагружает подсистему памяти — во всяком случае, сколько-нибудь серьёзно по нынешним меркам. Сама ситуация в сфере высокопроизводительных вычислений действительно такова, что узкими местами уже давно являются не процессоры, а подсистемы памяти и межузловой коммуникации. Количество процессоров увеличить легко, но гораздо сложнее «прокормить» их так, чтобы вычислительные ядра не простаивали попусту, и именно поэтому подсистемы памяти также нуждаются в тщательном тестировании, что может предложить HPCG. Итог любопытный и похож он более всего на ведро ледяной воды на голову энтузиастов супервычислений: результаты HPCG нередко оказываются гораздо скромнее показателей, достигнутых в HPL.

Десятка лучших систем по данным тестового комплекса HPCG. Обратите внимание на КПД

Десятка лучших систем по данным тестового комплекса HPCG. Обратите внимание на КПД

Из 181 протестированной системы мощностью от 1 петафлопса в HPCG подобного показателя не смогла показать ни одна. Это должно серьёзно охладить пыл энтузиастов, вещающих об «эре петафлопсов», вполне закономерно возвращая их в предыдущую «эру терафлопсов». В настоящее время лидером в HPCG является комплекс с простейшим названием K, запущенный в 2011 году в Институте физико-химических исследований в городе Кобе, Япония. Он показывает 602,7 терафплоса, что составляет лишь 5,3 % от теоретической пиковой производительности. По всей видимости, стать победителем этой системе помогла фирменная шестимерная система межузловых соединений под названием Tofu (Torus Fusion). Основой K являются процессоры SPARC64 VIIIfx, хотя и x86 нашлось место в десятке лидеров: второе место занимает машина NUDT, построенная на базе связки Xeon и Xeon Phi. Скромные показатели эффективности неоспоримо свидетельствуют о том, что разработчикам суперкомпьютеров следует сконцентрировать свои усилия на улучшении характеристик подсистем памяти, хранения данных, а также межузловых соединений. Процессорных же мощностей в 2018 году более чем достаточно.

Постоянный URL: http://servernews.ru/967110
21.08.2017 [07:55], Алексей Степин

AMD EPYC наступает: новое видео демонстрирует преимущество в STREAM и Fluent

Долгое время о компании AMD было ничего не слышно в серверном сегменте: имевшиеся в распоряжении «красных» процессоры Opteron уступали конкурирующим решениям «синих», да и разработчики кластерных систем класса HPC предпочитали проверенные временем процессоры. Но с появлением EPYC всё пошло иначе: «красные» активно напирают именно в серверном сегменте, и на этом фронте у них есть заметные успехи. Не столь давно AMD опубликовала видеоролик, в котором система на базе чипов EPYC опередила аналогичную по классу систему с процессорами Intel Xeon v4 (Broadwell-EP) в тестах STREAM и ANSYS Fluent.

Платформа «красных» была оснащена двумя 32-ядерными чипами EPYC 7601 (32C/64T, 2,2/2,7 ГГц, 64 Мбайт L3), а соперник выставил двухпроцессорную систему на базе Intel Xeon E5-2699 v4 (22C/44T, 2,2/3,6 ГГц, 55 Мбайт L3). Назвать их равными определённо нельзя, если опираться только на количество ядер — здесь у AMD преимущество. Но надо учесть, что в целом, удельная производительность на ядро выше именно у Intel. Несмотря на архитектуру MCM, в тесте STREAM AMD победила с разгромным счётом: 266 Гбайт/с против 116 Гбайт/с; AMD заявила, что данный тест является неплохой оценкой производительности для систем, работающих с задачами класса HPC.

Грамотное использование Infinity Fabric сводит на нет все недостатки компоновки МСМ

Грамотное использование Infinity Fabric сводит на нет все недостатки компоновки МСМ

В симуляторе поведения жидкостей и газов Fluent «красные» также опередили «синих», выигрыш составил примерно 78 %. В задаче обсчитывалось поведение 14 миллионов частиц при различных аэродинамических эффектах, возникающих в полёте реактивного лайнера. Здесь сыграли свою роль как более высокая пропускная способность подсистемы памяти, так и «чистое» количество ядер. По словам Скотта Эйлора (Scott Aylor), главы отдела бизнес-решений AMD, компания не просто вернулась в сектор HPC с одним продуктом, она намеревается остаться там надолго и предложить своим клиентам уверенность в будущем: по мере развития серии EPYC партнёры AMD могут быть уверены: их не бросят наедине с несовместимой ни с чем платформой, а предложат планомерное обновление до более высокого уровня производительности.

Постоянный URL: http://servernews.ru/957223
16.11.2016 [13:05], Алексей Степин

Ещё раз о производительности платформы AMD Naples

Результаты предварительного тестирования двухпроцессорной серверной платформы AMD Naples, оснащённой двумя 32-ядерными чипами с поддержкой SMT и способной, следовательно, выполнять до 128 потоков кода одновременно, не вызвали оптимизма — по всей видимости, из-за плохой оптимизации тестового ПО или неполной готовности новых процессоров; в частности, массивный кеш третьего уровня или не был задействован, или использовался некорректно. Впрочем, результаты в Geekbench всегда вызывают много вопросов. Недавно появились новые данные, на этот раз — из базы SiSoftware Sandra. В настоящее время результаты из базы данных SiSoft уже удалены, но мы, разумеется, сохранили их в виде скриншотов.

AMD Diesel с двумя 32-ядерными процессорами Naples

AMD Diesel с двумя 32-ядерными процессорами Naples

Они выглядят заметно интереснее и дают больше информации, нежели опубликованные ранее результаты Geekbench. Во-первых, Sandra корректно указывает частоты платформы: 1,44 ГГц в качестве базового значения и 2,9 ГГц в качестве значения в турборежиме, что совсем неплохо для сложнейшего 32-ядерного процессора с огромным количеством транзисторов и чудовищным объёмом кеша третьего уровня, составляющим 64 Мбайт на процессор и 128 Мбайт на всю систему.

Также стало известно, что 32-ядерные Naples используют идеологию MCM (Multi-Chip Module) и под крышкой теплораспределителя скрывается два 16-ядерных кристалла. Sandra распознаёт такую компоновку, как четырёхпроцессорную с 16 ядрами на процессор. Тесты из раздела «шифрование и безопасность» явно работают некорректно, но разделы «мультимедиа» и «процессорные тесты» показывают вполне благоприятную картину. Следует помнить, что тесты, судя по всему, проводятся не самой AMD, а её партнёрами, имеющими доступ к новому аппаратному обеспечению.

Наконец, раздел «финансовые тесты» демонстрирует отличные результаты: здесь новая платформа AMD в режиме двойной точности показывает 667500 операций в секунду, а это, если верить базе данных SiSoft, быстрее 93 % систем, представленных в этой базе. Конечно, 111-ый результат — явно не первый, но стоит помнить, что на этом поле платформе Naples приходится состязаться и с такими монстрами, как восьмипроцессорная платформа на базе 12-ядерных Intel Xeon E7.

Это играет на руку AMD, которая собирается вернуть утраченные позиции на серверном рынке в том числе и в секторе финансовых вычислений. Судя по данным Zauba, системная плата под кодовым названием Diesel готова довольно давно — первые упоминания о ней встречаются уже 12 августа. Похоже, AMD наводит последние штрихи на практически готовую к выпуску платформу — и платформа эта не разочарует не только поклонников бренда, но и профессионалов. Мы надеемся, что столь же хорошо покажут себя и процессоры для энтузиастов под кодовым именем Summit Ridge.

Постоянный URL: http://servernews.ru/942788
06.09.2016 [15:00], Алексей Степин

Первые результаты тестирования серверной платформы AMD Naples

Как известно, не столь давно компания Advanced Micro Devices демонстрировала не только опытные образцы процессоров для настольных систем под кодовым названием Summit Ridge, в основе которых лежит новая микроархитектура Zen, но и целую двухпроцессорную серверную платформу, где была установлена пара 32-ядерных процессоров Naples с той же архитектурой. На днях в зарубежных источниках появились первые данные о её производительности. Речь идёт о базе данных Geekbench и тестовом наборе четвёртой версии.

Образец системной платы AMD с двумя 32-ядерными чипами Naples

Образец системной платы AMD с двумя 32-ядерными чипами Naples

В ней фигурирует некая система AMD Corporation Diesel 2S1451A4VIHE4_29/14_N, отмеченная также как AMD Eng Sample, когда речь идёт о процессорах. Сомнений нет, это та самая платформа, тем более, что дальше сообщается о наличии двух процессоров с 32 ядрами у каждого. Тактовые частоты, правда, не столь впечатляют, как в первых сообщениях о демонстрации данной платформы: в обычном режиме процессоры работают на частоте всего лишь 1,44 ГГц, и только в турборежиме это значение достигает 2,9 ГГц. По всей видимости, последнее значение актуально не при полной загрузке и не для всех ядер. Оценка одноядерной производительности не слишком высока, но результаты многоядерного теста существенно лучше.

И их не самые впечатляющие результаты

И их не самые впечатляющие результаты

Надо сказать, что в сравнении с другими результатами Geekbench v4 результаты новой платформы AMD не выглядят впечатляющими. Так, система на базе двух далеко не самых новых процессоров Intel Xeon E5-2630 v3 (8 ядер/16 тредов на процессор) и платы ASUS Z10PE-D8WS показала в аналогичном наборе тестов 3178 и 20813 очков соответственно, а ведь частота процессоров тоже была не слишком высокой и составляла всего 2,4 ГГц. А ближе всего к результатам Naples оказалась система на базе процессора Intel Core i5-6600K, работающего на частоте 3,5 ГГц, но в однопоточном тесте она набрала 5505 очков. На этом фоне 1141 очко, продемонстрированное Naples, удивляет — это слишком мало для новой архитектуры даже с учетом частоты 1,4 ГГц.

Эти данные приведены для сравнения

Эти данные приведены для сравнения

Выводы делать, впрочем, рано. Не только частота тестовой платформы AMD была слишком низкой, но и сам набор тестов Geekbench v4 мог не учитывать специфики новой архитектуры Zen. Об этом свидетельствует строка, рапортующая об отсутствии кеша L3, тогда как мы знаем, что в Zen на каждые четыре ядра  приходится 8 Мбайт разделяемого кеша третьего уровня (128 Мбайт на всю платформу с двумя 32-ядерными процессорами). Либо кеш L3 в тестируемых образцах был отключён аппаратно из-за каких-то недоработок, что и могло вызвать падение производительности. На доработку самих процессоров у AMD есть немало времени, ведь подтверждено, что серверные Zen начнут массово поставляться на рынок лишь начиная со второго квартала следующего года и лишь после начала поставок процессоров Summit Ridge для настольных систем. Соответственно, есть время и у разработчиков программного обеспечения; впрочем, мы надеемся, что у последних будет немного работы, ведь архитектура Zen должна демонстрировать свои лучшие качества в среде уже имеющегося парка программного обеспечения, и именно этого добивается AMD.

Постоянный URL: http://servernews.ru/938970
20.08.2016 [14:08], Алексей Степин

NVIDIA обвиняет Intel в некорректных результатах тестирования Xeon Phi

Корпорация NVIDIA активно продвигает свою продукцию не только в сфере дискретной графики, но и в сфере супервычислений (HPC). Именно поэтому, разрабатывая архитектуру Pascal, она уделила столько внимания её вычислительным возможностям. Intel, разумеется, не хочет уступать NVIDIA и активно продвигает свои решения в виде многоядерных ускорителей на базе процессоров Xeon Phi (в настоящее время это чипы с архитектурой Knights Landing). Борьба в этом секторе, похоже, идёт нешуточная, поскольку NVIDIA осмелилась обвинить Intel в предоставлении некорректных сравнительных данных о производительности Xeon Phi.

Слайд, ставший камнем преткновения

Слайд, ставший камнем преткновения

По версии NVIDIA, Intel использовала старое программное и аппаратное обеспечение для того, чтобы выставить свой продукт, Xeon Phi, в наилучшем свете. На слайде, продемонстрированном на ISC 2016, Intel утверждает, что Xeon Phi может обеспечивать более чем двукратный (2,3x) прирост скорости в обучении нейронных сетей, нежели конкурирующие решения NVIDIA. Xeon Phi также на 38 % лучше масштабируется, если верить данным, приведённым на этом слайде. NVIDIA посчитала нужным опровергнуть эти утверждения в блоге компании. Во-первых, Intel использовала старую версию тестового ПО Caffe AlexNet, в то время как последняя, содержащая соответствующие оптимизации версия этого программного пакета, даёт 30-процентное преимущество именно решениям NVIDIA, даже тем, которые использовались в сравнении Intel.

Процессор Xeon Phi с интегрированной памятью и интерфейсом Omni-path

Процессор Xeon Phi с интегрированной памятью и интерфейсом Omni-path

Во-вторых, было отмечено, что Intel сравнивает свои решения с ускорителями на базе архитектуры Maxwell; если бы это были процессоры Pascal, преимущество «зелёных» составило бы 90 %. Вопрос о масштабируемости также неоднозначен, поскольку Intel, по словам NVIDIA, сравнивала 32 сервера с Xeon Phi с 32 серверами, оснащёнными ускорителями NVIDIA Kepler четырёхлетней давности — Tesla K20X. Даже при использовании ускорителей на базе Maxwell, заявляет NVIDIA, масштабируемость была бы практически линейной при увеличении количества графических процессоров вплоть до 128. NVIDIA считает графические процессоры оптимальными решением для задач глубокого машинного обучения, но Intel с этим утверждением не согласна и защищает свои позиции, утверждая, что для нашумевшего сравнения производительности использовались широко доступные программные и аппаратные средства.

Постоянный URL: http://servernews.ru/938033
10.12.2015 [13:54], Алексей Степин

Замечен в продаже и протестирован процессор Broadwell-EP Xeon E5-2698 v4

Экосистема LGA 2011-3, как известно, несколько отстаёт от системы LGA 1151. Как известно, появление процессоров Broadwell-EP ожидается лишь в первом квартале следующего года, но некоторые экземпляры чипов уже успели попасть из лабораторий Intel в частные руки. Это вполне согласуется с опубликованной ранее информацией о том, что процессоры Xeon поколения Broadwell компания уже поставляет избранным клиентам. Дальнейшую же судьбу всех экземпляров отследить невозможно. На этот раз в известной китайской торговой сети Taobao был замечен любопытный товар: процессор Xeon Broadwell-EP, отмеченный, как «квалификационный образец». Его даже можно приобрести: цена составляет 15,500 китайских юаней — примерно $2415.

Конечно, осторожный пользователь, даже располагающий солидным бюджетом, трижды подумает о покупке неизвестного процессора из неизвестных источников, тем более, что на его крышке написано только «Intel Confidential USA». Но не таковы настоящие энтузиасты. Процессор был куплен и тут же протестирован, показав великолепные результаты. Чипы этой серии будут предназначены для широкого класса платформ - от однопроцессорных рабочих станций до восьмипроцессорных серверов. Серия Broadwell EP/EX v4 станет последней, поскольку после них Intel начнет продвижение платформы Purley с новым разъёмом P0 (более 3000 контактов).

Но вернёмся к таинственной покупке. Китайские энтузиасты уже опубликовали полученные результаты. CPU-Z ещё не умеет корректно определять его модель и напряжение питания, но видно, что перед нами 20-ядерный процессор с корректно функционирующей технологией Hyper-Threading. Его рабочая частота составляет 2,1 ГГц, множитель ×21, а объём кеша L3 составляет внушительные 50 мегабайт, по 2,5 Мбайт на ядро. Частота в турборежиме предположительно может достигать 3,5 ГГц, пакет HWiNFO64 демонстрирует работу всех ядер на частоте 2,6 ГГц. Теплопакет неизвестен, но ориентировочно находится в пределах 130-140 ватт. В сравнении с Xeon E5-2698 v3 (16 ядер, 40 Мбайт кеша L3, турборежим до 3,6 ГГц) это шаг вперёд — в основном, за счёт перехода на 14-нанометровый техпроцесс.

Также четвёртая версия Xeon E5 получила поддержку памяти с частотой 2400 МГц. Образец, продающийся на Taobao, практически флагман линейки: мы знаем, что Xeon E5-2600 v4 (EP) получат до 22 ядер и до 55 Мбайт кеша L3. Контроллер памяти останется четырёхканальным, количество линий PCI Express в линейке Broadwell-EP не изменится, их по-прежнему будет 40. Именно эти чипы послужат источником для производства потребительских версий Broadwell-E (HEDT) с числом ядер до 10. Что касается производительности, то приведённые результаты CineBench R15 говорят сами за себя. 20-ядерное чудовище с огромным кешем, дополненное четырёхканальной скоростной памятью DDR4 оставляет позади всех своих соперников.

Постоянный URL: http://servernews.ru/924817
Система Orphus