Материалы по тегу: green500

15.05.2024 [14:18], Руслан Авдеев

PUE у вас неправильный: NVIDIA призывает пересмотреть методы оценки энергоэффективности ЦОД и суперкомпьютеров

Операторам дата-центров и суперкомпьютеров не хватает инструментов для корректного измерения энергоэффективности их оборудования и оценки прогресса на пути к экоустойчивым вычислениям. Как утверждает NVIDIA, нужна нова система оценки показателей при использовании оборудования в реальных задачах.

Для оценки эффективности ЦОД существует как минимум около трёх десятков стандартов, некоторые уделяют внимание весьма специфическим критериям вроде расхода воды или уровню безопасности. Сегодня чаще всего используется показатель PUE (power usage effectiveness), т.е. отношение энергопотребления всего объекта к потреблению собственно IT-инфраструктуры. В последние годы многие операторы достигли практически идеальных значений PUE, поскольку, например, на преобразование энергии и охлаждение нужно совсем мало энергии.

В эпоху роста облачных сервисов оценка PUE показала довольно высокую эффективность, но в эру ИИ-вычислений этот индекс уже не вполне соответствует запросам отрасли ЦОД — оборудование заметно изменилось. NVIDIA справедливо отмечает, что PUE не учитывает эффективность инфраструктуры в реальных нагрузках. С таким же успехом можно измерять расход автомобилем бензина без учёта того, как далеко он может проехать без дозаправки. При этом среднемировой показатель PUE дата-центров остаётся неизменным уже несколько лет, а улучшать его всё дороже.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Что касается энергопотребления, разное оборудование при одинаковых затратах может давать самые разные результаты. Другими словами, если современные ускорители потребляют больше энергии, это не значит, что они менее эффективны, поскольку они дают несопоставимо лучший результат в сравнении со старыми решениями. NVIDIA неоднократно приводила подобные сравнения и между своими GPU с обычными CPU, а теперь предлагает распространить этот подход на ЦОД целиком, что справедливо, учитывая стремление NVIDIA сделать минимальной единицей развёртывания целую стойку.

Как считают в NVIDIA, оценивать качество ЦОД можно только с учётом того, сколько энергии тратится для получения результата. Так, ЦОД для ИИ могут полагаться на MLPerf-бенчмарки, суперкомпьютеры для научных исследований могут требовать измерения других показателей, а коммерческие дата-центры для стриминговых сервисов — третьих. В идеале бенчмарки должны измерять прогресс в ускоренных вычислениях с использованием специализированных сопроцессоров, ПО и методик. Например, в параллельных вычислениях GPU намного энергоэффективнее обычных процессоров

Не так давно эксперты Стэнфордского университета отметии, что с 2003 года производительность ускорителей выросла приблизительно в 7 тыс. раз, а соотношение цены и производительности стало в 5,6 тыс. раз лучше. А с учётом того, что современные ЦОД достигли PUE на уровне приблизительно 1,2, подобная метрика практически исчерпала себя, теперь стоит ориентироваться на другие показатели, релевантные актуальным проблемам.

Хотя напрямую сравнить некоторые аспекты невозможно, сегментировав деятельность ЦОД на типы рабочих нагрузок, возможно, удалось бы получить некоторые результаты. В частности, операторам ЦОД нужен пакет бенчмарков, измеряющих показатели при самых распространённых рабочих ИИ-нагрузках. Например, неплохой метрикой может стать Дж/токен. Впрочем, NVIDIA грех жаловаться на недостойные оценки — в последнем рейтинге Green500 именно её системы заняли лидерские позиции.

Постоянный URL: http://servernews.ru/1104833
22.05.2023 [10:10], Сергей Карасёв

Рейтинг «зелёных» суперкомпьютеров Green500 возглавила система Henri, которая в TOP500 находится лишь на 255 месте

Представлена очередная редакция рейтинга Green500 — списка мощнейших вычислительных систем мира, имеющих наиболее высокую энергетическую эффективность. Лидером в данном сегменте, как и полгода назад, является комплекс Henri, установленный в Научно-исследовательском институте Флэтайрон (Flatiron Institute) в США.

В состав Henri входят узлы Lenovo ThinkSystem SR670 V2 с процессорами Intel Xeon Platinum 8362 Ice Lake-SP (32 ядра; 64 потока; 2,8–3,6 ГГц; 265 Вт). Задействованы ускорители NVIDIA H100 (80 Гбайт; PCIe) и интерконнект Infiniband HDR. Быстродействие Henri составляет 2,88 Пфлопс. При этом энергетическая эффективность достигает 65,396 Гфлопс/Вт. Система применяется для решения сложных задач в областях вычислительной астрофизики, биологии, математики, неврологии и квантовой физики. Любопытно, что в рейтинге мощнейших суперкомпьютеров мира TOP500 система Henri занимает только 255-ю строку.

 Источник изображения: Lenovo

Источник изображения: Lenovo

На втором месте в Green500 располагается машина Frontier TDS (32-я позиция в рейтинге TOP500). Этот суперкомпьютер на базе узлов HPE Cray EX235a с чипами AMD EPYC и ускорителями AMD Instinct MI250X обладает общим быстродействием до 19,2 Пфлопс. Энергоэффективность равна 62,68 Гфлопс/Вт. Отмечается, что лидер рейтинга TOP500 — комплекс Frontier — оказался на шестой строке списка Green500: 1,194 Эфлопс и 52,59 Гфлопс/Вт. Замыкает тройку система Adastra (12-я строка в TOP500) с аналогичной аппаратной составляющей: до 46,1 Пфлопс при показателе энергоэффективности на уровне 58,02 Гфлопс/Вт.

Постоянный URL: http://servernews.ru/1087084
Система Orphus