Материалы по тегу: бенчмарк

29.01.2021 [20:04], Андрей Галадей

NVIDIA обвинили в мошенничестве с тестами для систем Big Data

NVIDIA обвинили в мошенничестве из-за теста производительности для систем Big Data. В прошлом году на конференции GTC представители компании заявили, что её система DGX A100 был в 19,5 раз быстрее ближайшего конкурента в тесте TPCx-BB, разработанном Transaction Processing Performance Council (TPC). Однако на этой неделе представители TPC обвинили компанию в нарушении условий использования своего теста и в обходе его ограничений, что позволила искусственно завысить результаты, сообщает The Register.

В NVIDIA утверждали, что её система завершила тест TPCx-BB за 14,5 минут вместо 4,7 часов. Для тестирования использовалась сборка на базе 128 графических ускорителей A100 (16 × DGX A100). При этом NVIDIA не опубликовала свои результаты, а лишь заявила о факте сравнения их с официальными результатами TPC. Это, как отметили в TPC, является нарушением правил тестирования, поэтому приведённые NVIDIA сравнения следует считать недействительными.

Тест TPCx-BB измеряет производительность систем Big Data на базе платформы Hadoop, которая поддерживает GPU-ускорение. Он включает в себя выполнение SQL-запросов к структурированным данным и использует алгоритмы машинного обучения для неструктурированных данных, чтобы имитировать задачи аналитики больших данных в сфере розничной торговли.

Постоянный URL: http://servernews.ru/1031416
12.01.2021 [22:44], Алексей Степин

Битва за королевство ARM: Ampere Altra против AWS Graviton2

Вторжение архитектуры ARM в мир современных высокоплотных центров обработки и хранения данных оказалось успешным: в настоящее время AWS активно использует процессоры Graviton2, а Ampere начала поставки чипов Altra, показавших себя не хуже AMD EPYC второго поколения. Обе реализации серверных ARM-процессоров показывают в среднем лучшую в сравнении с x86-64 энергоэффективность, но как они проявят себя в прямом столкновении между собой?

Вкратце напомним: платформа Ampere Altra является открытой: процессоры имеют свой разъём LGA 4926, тогда как AWS Graviton2 хотя и базируются на той же архитектуре ARM Neoverse N1, но сторонним заказчикам не поставляются — воспользоваться можно лишь облачными инстансами, запускаемыми на системах с этими ЦП.

Ядер больше у Altra (80 против 64), но оба процессора не имеют поддержки SMT. В тактовых частотах преимущество также у Altra: 64-ядерный инстанс AWS m6g.metal имеет фиксированную частоту 2,5 ГГц, а у процессоров Altra Quicksilver Q80-33 она может достигать 3,3 ГГц. Кроме того, доступны конфигурации с двумя процессорными разъёмами, обеспечивающими суммарно 160 ядер. Тем не менее, результаты тестов представляют существенный интерес: столь серьёзные реализации архитектуры ARM столкнулись друг с другом впервые.

Полностью с обзором можно ознакомиться на сайте Phoronix, мы же рискнём выделить отдельные, на наш взгляд, наиболее интересные результаты. Так, в тесте HPCG победу одержала реализация Ampere, но при равном активном количестве ядер превосходство над Graviton2 составило лишь около 5%, и это с учётом возможности ядер Quicksilver разгоняться до 3,3 ГГц. Зато эта же возможность очень помогла процессорам Ampere одержать убедительную победу в тестах на сжатие данных.

Тест Stream показал чуть более высокий результат на платформе Graviton2, но разница столь незначительна, что её можно не принимать во внимание. А вот в Coremark 1.0, наборе тестов, созданном специально для оценки вычислительных способностей процессоров, Altra Quicksilver одерживает безоговорочную победу. Даже при равном с Graviton2 количестве активных ядер разница довольно серьёзна, а в 80-ядерном режиме Altra Q80-33 не оставляет процессору AWS ни шанса. И это же можно сказать про тесты с трассировкой лучей.

Ampere Altra Quicksilver: лучшая серверная платформа с архитектурой ARM

Ampere Altra Quicksilver: лучшая серверная платформа с архитектурой ARM

В остальных тестах картина схожая, либо не столь зависящая от количества активных ядер у Altra. Но Graviton2 не удалось выиграть нигде. Впрочем, это не значит, что решение AWS хуже: оба процессора базируются на дизайне ядер ARM Neoverse N1, но Graviton2 работает на существенно более низкой частоте и, по всей видимости, его проигрыш на 9/10 объясняется этой причиной. В целом же, ARM-платформа Ampere выглядит интереснее: она доступна и в виде классических серверов, а не только как облачная услуга, кроме того, в двухпроцессорной конфигурации со 160 ядрами платформа Mount Jade обеспечивает великолепную производительность.

Постоянный URL: http://servernews.ru/1029866
24.12.2020 [14:02], Юрий Поздеев

На смену SPECsfs 2014 придёт SPECstorage c новыми тестами для нагрузок ИИ и геномики

Standard Perfomance Evaluation Corporation (SPEC) — это некоммерческая организация, созданная для разработки и внедрения стандартизированных тестов и инструментов для оценки производительности и энергоэффективности вычислительных систем. SPEC не только разрабатывает тесты, но и публикует их результаты в своих регулярных отчетах.

Спектр тестов достаточно широкий и включает в себя облачные нагрузки, процессорные тесты, графические, тесты систем хранения, виртуализации и другие популярные сценарии использования. В последние годы все более популярными становятся исследования в области генетики и искусственного интеллекта, в связи с чем, SPEC решила заменить SPECsfs 2014 на SPECstorage, в который включены тесты по ИИ и геномике, чтобы соответствовать новым тенденциям и дать возможность пользователям оценивать, как ведут себя файловые хранилища данных в подобных нагрузках.

В SPECstorage появились следующие новые возможности:

  • Дополнительные атрибуты для рабочих нагрузок повышают точность моделирования поведения в различных сценариях;
  • Увеличенное масштабирование для более крупных систем. Ранее максимальное количество генераторов нагрузки в системе было ограничено 60 000, теперь оно увеличено до 4 000 000;
  • Новый тип рабочих нагрузок: обработка изображений при помощи ИИ (в Tensorflow), генетический анализ;
  • Средства подробного протоколирования и визуализации активности рабочих нагрузок;
  • Улучшенное глобальное распределение и синхронизация рабочих нагрузок (одновременный запуск рабочих нагрузок в разных географических регионах);
  • Расширенная поддержка сжатия и дедупликации;
  • Поддержка создания неоднородной клиентской нагрузки (одновременная работа Windows и *NIX, SMB и NFS);
  • Использование YAML для файлов конфигурации.

Обновленный тест имеет механизм сбора статистических данных, который позволяет пользователям извлекать информацию счетчиков производительности и загружать ее в базу данных для графического представления (например, спомощью Graphite, Carbon и Grafana):

Новый тест SPECstorage может поддерживать системы хранения, отличные от POSIX, с плагинами для доступа к службам хранения на основе AFS. В будущем будут добавлены хранилища объектов S3, Ceph и другие. Подробная информация о новом тесте представлена в документации на сайте SPEC.

Постоянный URL: http://servernews.ru/1028629
10.12.2020 [16:07], Андрей Галадей

Atos представила Q-Score, кроссплатформенный бенчмарк для квантовых компьютеров

Французская компания Atos сообщила, что 2020 год стал переломным для квантовых вычислений — в этой области наметился значительный рост, так что квантовые компьютеры рано или поздно станут достаточно массовыми. И для них будут нужны тестовые пакеты для оценки быстродействия.

Именно для этого и создан Q-Score. Этот тест измеряет фактическую производительность квантовых процессоров при решении задачи оптимизации. По словам гендиректора компании Эли Жерара (Elie Girard), Q-Score будет иметь наибольшее значение для приложений оптимизации. Он также заявил, что представленный тест является универсальным решением для любого типа кубита. Иначе говоря, это кроссплатформенный тест.

phys.org

phys.org

Жирар уточнил, что квантовые компьютеры требуют исправления огромного количества ошибок, в чём им и поможет тестовая система. Сегодняшние квантовые компьютеры имеют 15 баллов по шкале Q-Score. В прошлом году этот показатель составлял 10, а в 2021-м он может вырасти до 20. Для достижения квантового превосходства нужно хотя бы 60 баллов.

Отметим, что Atos участвует в европейском проекте NExt ApplicationS of Quantum Computing, целью которого является развитие квантовых приложений в ближайшем будущем и демонстрация квантового превосходства. Проекты включают задачи химии, биологии, медицины и так далее.

Постоянный URL: http://servernews.ru/1027511
19.11.2020 [14:36], Андрей Галадей

ИИ-бенчмарк MLPerf обзавёлся HPC-версией для суперкомпьютеров

Бенчмарк MLPerf Training v0.7 обзавёлся новым вариантом теста, который рассчитан на рабочие нагрузки для систем высокопроизводительных вычислений (High Performance Computing, HPC). Бенчмарк предназначен для тестирования систем машинного обучения с использованием наборов данных объёмом от 5,1 до 8,8 Тбайт.

Новый тест также учитывает работу подсистем ввода-вывода. Как отмечается, правила для MLPerf HPC v0.7 почти полностью повторяют MLPerf Training v0.7 с некоторыми поправками, что позволит точнее оценивать ИИ-системы именно в контексте HPC

robohub.org

robohub.org

Так выглядят результаты первых тестов:

Обычные локальные и облачные системы

Результаты при использования той же модели и оптимизатора, что и в эталонной реализации

HPC-системы

Результаты при использовании более быстрых моделей, чем исходная

Текущий набор тестов MLPerf HPC замеряет время, необходимое для подготовки новых моделей машинного обучения, чтобы они соответствовали стандартным целевым показателям качества. На данный момент это касается задач, связанных с климатической аналитикой и космологией. Впрочем, их потенциально можно применять и для других сфер вычислений такого рода.

Первая версия MLPerf HPC включает два теста:

  • CosmoFlow: трехмерная свёрточная архитектура, обученная на данных космологического моделирования N тел для прогнозирования четырех целевых космологических параметров.
  • DeepCAM: архитектура сегментации свёрточного кодера-декодера, обученная на данных моделирования климата CAM5 + TECA для выявления экстремальных погодных явлений, таких как атмосферные течения и тропические циклоны.
Постоянный URL: http://servernews.ru/1025765
11.11.2020 [13:10], SN Team

Сравнительное тестирование GPU-серверов с видеокартами NVIDIA RTX3000 в задачах AI/ML

Партнёрский материал

В начале сентября 2020 г. компания NVIDIA впервые представила графические карты семейства GeForce RTX 3000 на базе архитектуры RTX второго поколения — Ampere. NVIDIA нарушила свою традицию, когда новые поколения карт продавались дороже своих предшественников, а это значит, что стоимость тренировки модели оставалась примерно на одном уровне.

В этот раз NVIDIA установила стоимость новых и более популярных карт на уровне стоимости карт предыдущего поколения в момент начала их продаж. Для разработчиков ИИ-приложений это событие стало действительно важным — по сути, карты RTX 3000 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более приятным ценником. Теперь у разработчиков data science появилась возможность тренировать модели быстрее без увеличения затрат.

Флагманские карты новой серии GeForce RTX 3090 получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (ускорение до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 Гбайт 384-битной графической памяти GDDR6X. Еще более доступная по цене GeForce RTX 3080 обладает 8 704 ядрами CUDA с теми же тактовыми частотами, 272 тензорными ядрами и 10 Гбайт 320-битной памяти GDDR6X. Несмотря на дефицит новых видеокарт (NVIDIA даже была вынуждена приносить извинения рынку за образовавшуюся нехватку карт на старте продаж), уже в начале октября GPU-серверы появились в линейке продуктов у хостинг-провайдеров.

Нидерландский провайдер HOSTKEY одним из первых в Европе протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X стали доступны всем клиентам HOSTKEY в дата-центрах в Нидерландах и Москве.

NVIDIA RTX 3000: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение на замену карт серии RTX 2000 с предыдущей архитектурой Turing. И, конечно, серверы с новыми картами значительно производительнее, чем доступные «народные» GPU-серверы на базе видеокарт GTX1080 (Ti), которые тоже пригодны для работы с нейросетями и прочими задачами машинного обучения (хотя и с оговорками), но при этом доступны по совсем уж «демократичным» ценам.

«Над» серией NVIDIA RTX 3000 располагаются все мощные решения на базе карт класса A100/A40 (Ampere) с тензорными ядрами третьего поколения числом до 432, Titan RTX/T4 (Turing) с тензорными ядрами второго поколения в количестве до 576, и V100 (Volta) с 640 тензорными ядрами первого поколения. Ценники на эти мощные карты, равно как и на аренду GPU-серверов с ними, значительно превышают предложения с RTX 3000, поэтому особенно интересно оценить на практике разрыв в производительности в задачах AI/ML.

Практические исследования

Face Reenactment

Одной из рабочих задач для оперативного тестирования GPU-серверов на основе новых карт RTX 3090 и RTX 3080 был выбран процесс Face Reenactment для нейросети U-Net+ResNet с пространственно-адаптивной нормализацией SPADE и patch-дискриминатором. В качестве фреймворка использовался Facebook PyTorch версии 1.6 со встроенным автоматическим режимом Automated mixed precision (AMP), а также режимом флага torch.backend.cudnn.benchmark = True.

Для сравнения этот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но уже без AMP, который только замедлил бы процесс, а также на машине с картой Titan RTX. Для чистоты эксперимента следует упомянуть, что в этом тестировании с картой Titan RTX использовалась система на процессоре Intel Core i9-10920X, в то время как остальные GPU-серверы со всеми остальными картами работали на Xeon E-2288G.

Безусловно, сравнение при классификации важно производить на одинаковых процессорах, поскольку именно они зачастую являются «бутылочным горлышком», ограничивающим производительность системы. Так что доля скептицизма в отношении погрешности результатов тестирования GPU в данном случае вполне уместна. Мы получили следующие результаты:

Минимальная разница между результатами RTX 3090 и Titan RTX выглядит особенно впечатляюще, если вспомнить об огромном ценовом разрыве между этими решениями. В следующем тестировании RTX 3090 заслуживает, как минимум, полноценного глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080. Отставание RTX 3080 от RTX 3090 вполне объяснимо значительной разницей в объеме памяти — 10 Гбайт против 24 ГБ, на соответственное двух- и трехкратное отставание GTX 1080 Ti также наложила свой отпечаток разница в архитектурах.

Если же посмотреть на эти результаты с практической точки зрения, то есть в плане оценки финансовых расходов на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090 — именно эта карта обеспечит наилучший использование бюджета как при недельном, так и при месячном тарифных планах.

Обучение GAN

Во второй тестовой задаче, которая заключалась в тренировке генеративно-состязательной нейронной сети (Generative Adversarial Network, GAN) с пакетом PyTorch, было интересно не только сравнить производительность карт различных поколений, но также отследить влияние состояния флага torch.backends.cudnn.benchmark на финальные результаты. При обучении GAN-архитектуры включение флага в положение True дает прирост производительности, но при этом может пострадать воспроизводимость результатов (Reproducibility).

Полученные результаты еще раз доказывают, что карта RTX 3090 с ее 24 Гбайт памяти GDDR6X представляет собой лучший выбор для решения тяжелых задач по обработке изображений. Как по производительности (выигрыш на 65% по сравнению с RTX 3080), так и по затратам на тренинг модели при аренде GPU-сервера в пересчёте на стоимость тренировки.

RTX 3080 значительно обошла по производительности GTX 1080 Ti, причём с любой установкой флага и несмотря на примерный паритет объема памяти. Однако следует помнить, что при обучении GAN-архитектуры включение флага torch.backends.cudnn.benchmark=True дает прирост производительности, но при этом может пострадать воспроизводимость результатов. причем,

Так что аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть вполне разумным выбором — или, как минимум, сравнима по бюджету на тренинги моделей с RTX 3080. К сожалению, на прогон этой сетки через Titan RTX времени уже не оставалось, но с большой вероятностью картина в этом случае осталась бы аналогичной.

Обучение и инференс в vision-задачах

В следующей тестовой задаче по тренингу сетей в vision-задачах производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями мощнейшего (и все еще очень дорогого) «ветерана» Tesla V100 с 16 Гбайт памяти HBM2.  Было протестировано пять классификационных моделей для обнаружения объектов со следующими тренинговыми установками: model forward + mean (no loss) + backward.

Тестовые задания запускались с применением последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, эта версия не собрана под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 3000 пришлось использовать PyTorch версии nightly build, а именно 1.8.0.dev20201017+cu110. У серии RTX 3000 также есть некоторые проблемы с torch.jit, но вопрос полностью снимается при сборке PyTorch под конкретную карту. Во всех тестах PyTorch использовался с автоматическим скриптом Mixed Precision, с включенным по умолчанию флагом torch.backend.cudnn.benchmark = True. 

Стоит упомянуть некоторые нюансы этого сравнения. В частности, была задействована не самая быстрая V100, которая работала внутри виртуальной машины. Из-за этого могли возникнуть некоторые потери, которые, вполне возможно, можно было бы оптимизировать при лучшей настройке. Помимо этого, в процессе тестирования не была задействована вся доступная VRAM, что позволило бы придать расчетам дополнительное ускорение.

Classification Training

Задача обучения сложных моделей нейросетей является профильным заданием для GPU-серверов на картах NVIDIA, позволяя порой на порядки сократить время тренировки алгоритмов глубокого обучения.

В условиях запуска задачи для получения результатов бенчмарка пересылка обнаружения объектов производилась без NMS, а пересылка для обучения не включала сопоставления целей. Иными словами, на практике скорость обучения с большой вероятностью замедлится на 10-20%, а скорость вывода снизится примерно на 20-30%.

Classification Inference

В данном случае инференс — это процесс получения предсказаний посредством прогона изображений через заранее обученную нейронную сеть, который вполне подходит для развертывания на удаленном GPU-сервере.

В целом можно говорить о том, что в заданиях тренировки и инференса сетей в Vision-задачах карта RTX 3090 медленнее Tesla V100 в среднем всего на 15-20%, и это очень впечатляюще — особенно с учетом разницы в цене.

Показателен и тот факт, что отставание RTX 3080 от RTX 3090 относительно невелико — по крайней мере, значительно меньше, чем при выполнении других задач. На практике это означает, что даже со сравнительно небольшим бюджетом, выделенным на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь с небольшим увеличением затрат времени на обработку данных.

Detection Training

Тестирование RetinNet c ResNet50FPN для обнаружения объектов производилось с указанными выше параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark=True и с тренинговыми установками model forward + mean (no loss) + backward.

Detection Inference

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для решения подобных задач. Карта RTX 3090 показала себя просто великолепно.

Сравнительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/возможности RTX 3080 может стать желанным выбором для решения задач прототипирования с экономичным бюджетом. По завершению создания прототипа модель можно масштабировать, развернув, например, на GPU-серверах с картами RTX 3090.

Заключение

По итогам тестирования новых графических решений семейства GeForce RTX 3000 можно с уверенностью утверждать, что компания NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно производительными для быстрых ИИ-вычислений. В некоторых задачах обучения сетей, таких как работа с разреженными сетями (Sparse network), преимущества архитектуры Ampere над поколением RTX20 позволяют добиться ускорения процесса в два раза.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение моделей связано с повышенными требованиями к объему памяти — при анализе медицинских снимков, современном моделировании компьютерного зрения и везде, где есть необходимость обработки очень крупных изображений — например, при работе с GAN-архитектурами.

В то же время RTX 3080 с ее 10 Гбайт графической памяти вполне подойдет для работы с задачами глубокого машинного обучения, поскольку для изучения основ большинства архитектур вполне достаточно уменьшить размер сетей или использовать на входе изображения меньшего размера, а затем при необходимости масштабировать модель до необходимых параметров на более мощных GPU-серверах.

С учетом того, что память HBM, применяемая в картах класса A100, вряд ли существенно подешевеет в ближайшее время, можно сказать, что карты RTX 3090 / RTX 3080 являются вполне эффективной инвестицией на несколько ближайших лет.

Нидерландский хостинг-провайдер HOSTKEY предлагает широкий ассортимент GPU-серверов в дата-центрах в Нидерландах и в Москве на основе как GPU последнего поколения RTX3080 и RTX3090, так и на основе карт предыдущих поколений RTX2080Ti и GTX1080Ti/1080. Компания предлагает как готовые к работе серверы, так и серверы с индивидуальными конфигурациями, которые идеально отвечают потребностям заказчика. Компания благодарит Эмиля Закирова и Александра Широносова за помощь в проведении тестов.

Постоянный URL: http://servernews.ru/1025021
05.11.2020 [18:01], Сергей Карасёв

Серверы ASUS установили более 680 мировых рекордов в тестах SPEC

Компания ASUS объявила о том, что её серверы по состоянию на конец сентября нынешнего года установили в общей сложности 683 рекорда в тестах SPEC — Standard Performance Evaluation Corporation. Оценивалась производительность платформ на процессорах AMD и Intel, включая чипы EPYC 7002 и Xeon Scalable 1-го и 2-го поколений.

Речь идёт о результатах измерений в пакете SPEC CPU 2017: это набор эталонных тестов, позволяющий измерять и сравнивать производительность компьютерных систем при высоких вычислительных нагрузках, а также проводить стресс-тестирование процессоров, подсистем памяти и компиляторов.

Сообщается, что серверы ASUS с процессорами AMD EPYC 7002 поставили 213 мировых рекордов. В частности, 167 первых мест в бенчмарках SPEC CPU 2017 принадлежат однопроцессорным системам, ещё 46 — двухпроцессорным. Это рекорды по скорости целочисленных вычислений, вычислений с плавающей запятой и пр. Что касается серверов с процессорами Intel Xeon Scalable 1-го и 2-го поколений, то такие платформы ASUS установили 466 рекордов.

Компания говорит, что высокая производительность серверов ASUS достигается в том числе за счёт системы Performance Boost, состоящей из трёх ключевых компонентов: Core Optimizer, Engine Boost и Workload Presets. Средства Core Optimizer увеличивают тактовую частоту процессора при выполнении многопоточных операций и снижают задержки. Инструмент Engine Boost оптимизирует питание, что позволяет увеличить общую производительность. Наконец, Workload Presets — это предустановленные профили BIOS для повышения энергоэффективности и производительности на пиковой тактовой частоте.

Постоянный URL: http://servernews.ru/1024671
01.04.2020 [21:27], Андрей Созинов

1- и 2-сокетные серверы ASUS установили почти 600 рекордов в тестах SPEC

Компания ASUS объявила о том, что её серверным системам принадлежит наибольшее число мировых рекордов производительности в бенчмарках SPEC.Если точнее, то продукты тайваньской компании по состоянию на 4 марта 2020 года смогли установить 578 рекордов, что несомненно является впечатляющим результатом.

Рекордных результатов компании ASUS помогли добиться серверные продукты для различных платформ: Intel Xeon Scalable 1-го и 2-го поколения, Intel Xeon E-2200 и AMD EPYC 7002.

Системы ASUS на этих чипах используются для самых разных задач, включая корпоративные, анализ данных, глубокое обучение и искусственный интеллект, HPC и других, говорится в релизе. 

Серверным системам ASUS с процессорами AMD EPYC 7002 (Rome) принадлежит 102 мировых рекорда в бенчмарках SPEC CPU 2017. Из них 64 первых места у однопроцессорных платформ RS500A-E10, о которых мы уже писали. Ещё 38 рекордов установили двухпроцессорные системы. Среди достижений можно выделить рекорды по скорости целочисленных вычислений и вычислений с плавающей запятой.

Ещё 192 рекорда установили системы ASUS ESC8000 G4, которые базируются на процессорах Xeon Scalable 1-го и 2-го поколения и могут включать в себя до восьми ускорителей вычислений на графических процессорах. Здесь наилучших результатов достигли системы на базе Xeon Platinum 8280L.

Наконец, серверные платформы ASUS RS300 на процессорах Xeon E-2200 смогла обеспечить тайваньскому производителю ещё 96 рекордов в различных тестах SPEC CPU 2017. Остальные рекорды принадлежат другим системам.

ASUS отмечает, что кроме прочего, высокую производительность её серверным платформам обеспечивает технология Performance Boost. Она позволяет использовать процессор на максимально высокой тактовой частоте, а также обеспечивает возможность тонкой настройки системы в зависимости от типа задач.

Постоянный URL: http://servernews.ru/1007322
24.03.2020 [21:37], Андрей Созинов

СХД китайской Inspur заняла вторую строчку рейтинга бенчмарка SPC-1

Система хранения данных китайской компании Inspur сегодня заняла второе место в рейтинге теста производительности SPC (Storage Performance Council). Тем самым она сместила на третье место СХД другой китайской компании — Huawei.

На первом же месте по-прежнему располагается хранилище от японской Fujitsu.

В тестировании приняла участие All-Flash система хранения данных на базе массивов твердотельных накопителей Inspur AS5600G2. Всего было использовано 16 массивов, на которые в сумме пришлось 400 твердотельных накопителей объёмом 1,92 Тбайт каждый. То есть общий объём хранилища составил 768 Тбайт. За работу СХД отвечало восемь двухконтроллерных систем.

Бенчмарк SPC-1 оценивает производительность систем хранения данных в рабочих нагрузках бизнес-класса со случайным доступом к данным, которые могут быть сжаты и/или дедуплицированы. Система Inspur AS5600G2 смогла продемонстрировать производительность в 7 520 358 IOPS. Тем самым она более чем на полмиллиона IOPS опередила Huawei OceanStor 1800 V3, которая теперь расположена на третьем месте. В свою очередь Fujitsu Eternus DX8900 S4, располагающаяся на первом месте, набрала в SPC-1 более 10 млн IOPS.

Однако обе вышеупомянутые китайские системы имеют куда лучшее соотношение производительности к их стоимости. В системе Fujitsu одна тысяча IOPS обошлась в $644,16, тогда как в Inspur AS5600G2 — всего в $386,50. Идущая следом система Huawei предлагает 1000 IOPS ещё дешевле — за $376,96.

Заметим также, что рейтинг SPC-1 стал площадкой для борьбы китайских производителей, ведь они занимают в нём восемь позиций в Топ-10. Из китайских систем больше всего среди лидеров оказалось решений от Huawei. Неделю назад компания выложила результаты тестирования СХД OceanStor 5310 V5 с SSD

Постоянный URL: http://servernews.ru/1006729
21.02.2020 [18:08], Алексей Степин

Японский институт AIST опубликовал результаты сравнительного тестирования Intel Optane DCPMM и DRAM

Ещё весной прошлого года Intel анонсировала новый тип модулей памяти на базе технологии 3D XPoint — Optane DCPMM. Технология заинтересовала всех, кому нужны большие объемы оперативной памяти, и кто готов при этом мириться с некоторой потерей производительности.

Японский национальный институт передовых технических наук и технологии (AIST) опубликовал результаты сравнительного тестирования DCPMM, в котором эти модули сравнивались с традиционной памятью DRAM.

Модуль DCPMM объёмом 128 Гбайт. Фото StorageReview.

Модуль DCPMM объёмом 128 Гбайт. Фото StorageReview.

В отличие от блочных накопителей Optane, существует не так уж много доступных результатов тестирования DCPMM, вот почему данные AIST представляют существенную ценность, о чём говорят и сами авторы проекта.

Для тестирования они использовали инструментарий собственной разработки и вот каких результатов им удалось достичь: при чтении латентность DCPMM составила порядка 374 наносекунд, в режиме случайной записи write-back она возросла до примерно 390 наносекунд.

Пропускная способность при этом составила 38 и 3 Гбайт/с, соответственно. Иными словами, задержки DCPMM примерно в четыре раза выше, нежели у DRAM, однако при этом такие модули способны обеспечить 37% пропускной способности обычной памяти. Это не так уж мало и, во всяком случае, на операциях чтения — намного быстрее любых традиционных блочных накопителей. Также подтвердилась польза от включения чередования (interleaving).

Любопытно, что для точного измерения задержек японским учёным пришлось пойти на ряд ухищрений, поскольку, по их словам, большинство современных архитектур используют предвыборку (prefetch) и внеочередное исполнение (out-of-order execution), что позволяет минимизировать негативные последствия, вызываемые задержками при обращении к оперативной памяти. Полностью ознакомиться с методикой и результатами тестирования можно по этой ссылке.

Постоянный URL: http://servernews.ru/1004263
Система Orphus