Материалы по тегу: симуляция

17.03.2018 [11:25], Алексей Степин

TOP500: бенчмарк HPCG набирает популярность, вытесняя HPL

На протяжении многих лет основным тестовым инструментом для измерения производительности суперкомпьютеров и кластерных систем был пакет High Performance Linpack (HPL), причём, таковым он считался де-факто. Продержался этот пакет в таком статусе четверть века, что в мире информационных технологий означает не одну эпоху: в 1993 году самым мощным процессором с архитектурой x86 был Intel Pentium (P5), но процветали также архитектуры MIPS (R4400), SPARC V8/V9, DEC Alpha и POWER2. Но у HPL есть одна проблема: тест хорошо подходит для «прогрева» только что смонтированной системы, и в лучшем случае предоставляет собой не самый точный индикатор того, насколько хорошо она будет выполнять научные и инженерные задачи.

1992 год: одно из воплощений процветавших тогда архитектур, процессор  DEC Alpha 21064 (EV4)

1992 год: одно из воплощений процветавших тогда архитектур, процессор DEC Alpha 21064 (EV4)

Команда разработчиков альтернативного тестового пакета HPCG (High Performance Gradients) продвигает своё детище уже довольно давно, при этом статистика производительности собирается с 2014 года, что, конечно, не идёт в сравнение со сроками HPL, но всё же популярность новинки постоянно растёт. Создатель HPCG считает, что Linpack на сегодня свою задачу выполнил и более не отвечает требованиям времени. В этом есть смысл: HPL использует богатые на вычисления алгоритмы с небольшими, «плотными» структурами данных, но современные приложения могут задействовать (и часто задействуют) огромные распределенные массивы при менее интенсивных вычислениях. Примером могут послужить задачи класса Big Data, но создатели HPCG используют и другие актуальные примеры, например, моделирование распределения давлений в потоке жидкости, где также сильна нагрузка на подсистему памяти.

Одно из многочисленных сердец комплекса K: чип SPARC64 VIIIfx. 128 гигафлопс, 45 нм

Одно из многочисленных сердец комплекса K: чип SPARC64 VIIIfx. 128 гигафлопс, 45 нм

В число типичных для сегодняшнего дня проектов входят задачи машинного обучения, финансовая аналитика, системы защиты от электронного мошенничества — и все они серьёзно зависят от производительности системы при случайном обращении к памяти. И в этом плане HPCG гораздо лучше отвечает веяниям нового времени, нежели HPL, поскольку последний тест не нагружает подсистему памяти — во всяком случае, сколько-нибудь серьёзно по нынешним меркам. Сама ситуация в сфере высокопроизводительных вычислений действительно такова, что узкими местами уже давно являются не процессоры, а подсистемы памяти и межузловой коммуникации. Количество процессоров увеличить легко, но гораздо сложнее «прокормить» их так, чтобы вычислительные ядра не простаивали попусту, и именно поэтому подсистемы памяти также нуждаются в тщательном тестировании, что может предложить HPCG. Итог любопытный и похож он более всего на ведро ледяной воды на голову энтузиастов супервычислений: результаты HPCG нередко оказываются гораздо скромнее показателей, достигнутых в HPL.

Десятка лучших систем по данным тестового комплекса HPCG. Обратите внимание на КПД

Десятка лучших систем по данным тестового комплекса HPCG. Обратите внимание на КПД

Из 181 протестированной системы мощностью от 1 петафлопса в HPCG подобного показателя не смогла показать ни одна. Это должно серьёзно охладить пыл энтузиастов, вещающих об «эре петафлопсов», вполне закономерно возвращая их в предыдущую «эру терафлопсов». В настоящее время лидером в HPCG является комплекс с простейшим названием K, запущенный в 2011 году в Институте физико-химических исследований в городе Кобе, Япония. Он показывает 602,7 терафплоса, что составляет лишь 5,3 % от теоретической пиковой производительности. По всей видимости, стать победителем этой системе помогла фирменная шестимерная система межузловых соединений под названием Tofu (Torus Fusion). Основой K являются процессоры SPARC64 VIIIfx, хотя и x86 нашлось место в десятке лидеров: второе место занимает машина NUDT, построенная на базе связки Xeon и Xeon Phi. Скромные показатели эффективности неоспоримо свидетельствуют о том, что разработчикам суперкомпьютеров следует сконцентрировать свои усилия на улучшении характеристик подсистем памяти, хранения данных, а также межузловых соединений. Процессорных же мощностей в 2018 году более чем достаточно.

Постоянный URL: http://servernews.ru/967110
24.07.2017 [23:55], Алексей Степин

Рекорд масштабируемости: инженерную задачу удалось распараллелить на 200 тысяч ядер

Нашим предкам, создававшим такие чудеса, как первые реактивные самолёты или двигатели для космических ракет, приходилось очень нелегко. В те времена не было цифрового моделирования физических процессов, и всё приходилось отрабатывать на моделях, а затем полноразмерных экземплярах устройств. Сегодняшним инженерам существенно проще: для многих задач не требуется даже создавать модели, достаточно использовать компьютерное моделирование. Одним из известных программных пакетов в этой области является ANSYS Fluent. Как считают создатели данного ПО, оно является самым продвинутым средством моделирования поведения жидкостей и газов (computational fluid dynamics, CFD). Сферу применения ANSYS Fluent чётко определить нельзя, поскольку этот пакет может использоваться как для симуляции обдува крыла самолёта, так и для моделирования процессов, происходящих в металлургических печах. Но вычислительных мощностей для этого требуется немало: предыдущий рекорд для ANSYS Fluent составил 36 тысяч процессорных ядер суперкомпьютера Blue Waters, расположенного в Национальном центре суперкомпьютерных приложений в США.

Как оказалось, это не предел. Новый рекорд смогли поставить исследователи из Научно-технологического университета имени короля Абдаллы (KAUST), находящегося в Саудовской Аравии. Им удалось успешно запустить ANSYS Fluent и распараллелить его работу почти на 200 тысяч процессорных ядер. Это большое достижение как для исследователей и ANSYS, так и для компании Cray: оба рекорда поставлены на суперкомпьютерах, спроектированных и воплощённых в металл этой компанией. Суперкомпьютер Shaheen II, установленный в KAUST в 2015 году, относится к серии Cray XC40 и содержит 6174 двухпроцессорных узла, в каждом из которых установлено по два 16-ядерных процессора Intel Haswell-EP с частотой 2,3 ГГц. Объём памяти каждого узла равен 128 Гбайт DDR4, а в целом система располагает 197568 процессорными ядрами и 790 Тбайт памяти. Общаются друг с другом узлы посредством высокоскоростной оптической сети Aries High Speed Network, каждый из 36 аппаратных шкафов суперкомпьютера имеет 8 каналов этой сети.

Вычислительный модуль Cray XC40

Вычислительный модуль Cray XC40

Совместно ANSYS, компании Saudi Aramco и команде исследователей KAUST удалось запустить на Shaheen II комплексную симуляцию работы многофазных гравитационных сепараторов (multiphase gravity separation vessel), при этом время симуляции сократилось с нескольких недель до одной ночи. Подобного рода задачи очень важны для нефтегазовой индустрии, которая очень хорошо развита в Саудовской Аравии — в 2009 году страна занимала второе место в мире по добыче и экспорту нефти. Современные нефтеперерабатывающие заводы очень сложны, стоимость оборудования огромна, а цена ошибки очень высока, вот почему средства, подобные ANSYS Fluent весьма востребованы в этой отрасли индустрии — они упрощают разработку нового оборудования и существенно снижают стоимость такой разработки. При этом современные системы симуляции позволяют предсказать поведение оборудования в различных ситуациях, а значит, и предотвратить возможные ошибки и даже катастрофы. Saudi Aramco планирует использовать эту технологию на всех своих заводах и по результатам симуляции модернизировать их оборудование.

Постоянный URL: http://servernews.ru/955932
Система Orphus