Новый вычислительный комплекс Росгидромета от РСК и Intel: опыт внедрения "Торнадо"

 

Одной из наиболее сложных вычислительных задач во всём мире в настоящее время принято считать прогнозирование погодных явлений. Сложностей в этой сфере хоть отбавляй: для создания более-менее правдоподобного прогноза необходимо решение множества разнообразных вопросов с абсолютно разными алгоритмами. Сбор информации от стационарных, мобильных и спутниковых систем наблюдения за изменением погодных условий, систематизация информации, применение различных методик предсказания грядущих изменений на основе поведения неисчислимого количества постоянно меняющихся факторов и многое другое — вот те задачи, с которыми ежедневно сталкиваются сотрудники Федеральной службы России по гидрометеорологии и мониторингу окружающей среды (сокращённо Росгидромет).

Точное предсказание погоды хотя бы на сутки вперёд совсем недавно было делом практически недостижимым, схожим с танцами вокруг костра с шаманским бубном. Сами метеорологи до сих пор говорят не о "предсказании" как таковом, а всего лишь о той или иной "вероятности" совпадения прогноза с реальными событиями. Даже для таких прогнозов требуются просто невероятной мощи вычислительные системы, а что уж говорить о вопросах прогнозирования на неделю, две или тем более долгосрочных прогнозах изменения земного климата.

Совсем недавно Росгидромет, группа компаний РСК и Intel пригласили российских журналистов на торжественный запуск нового высокопроизводительного энергоэффективного кластера на базе 3,33-ГГц процессоров Intel Xeon 5680. Событие, само по себе неординарное, оказалось вдвойне более интригующим, когда выяснилось, что новый кластер построен на базе новой архитектуры "РСК Торнадо" с использованием жидкостного охлаждения холодной и тёплой водой.

Российскому Росгидромету, после развала СССР испытывавшему определённые сложности в оснащении современной аппаратной вычислительной базой (отечественные талантливые специалисты в области метеорологии, климатологии, создания алгоритмов прогнозирования и так далее, слава Богу, не переводились никогда), в определённом смысле повезло с партнёрами по возрождению и где-то даже по созданию заново вычислительного комплекса. Начиная с 2003 года в работе Росгидромета, направленной на оптимизацию прогностических алгоритмов в вычислительных средах с высоким уровнем распараллеливания, активное участие начинают принимать специалисты компании Intel, а в апреле 2008 года Росгидромет и Intel создали отдельный Центр компетенции высоких технологий в гидрометеорологии, целями которого являются исследования в области вычислительных структур в применении к задачам оперативной гидрометеорологии и оптимизация соответствующих вычислительных алгоритмов. Кроме того, Intel на протяжении последнего десятилетия также принимала активное участие в обновлении парка вычислительных мощностей Росгидромета.

В настоящее время Росгидромет решает широкий спектр сложных задач в области обработки гидрометеорологических данных, моделирования и прогнозирования процессов в атмосфере и океане, требующих больших вычислительных ресурсов и высокой эффективности их использования. Метеорологический центр в Москве, наряду с центрами в Вашингтоне и Мельбурне, является одним из трех мировых метеорологических центров Всемирной метеорологической организации (ВМО). В рамках ВМО Мировой метеорологический центр в Москве обеспечивает выполнение международных обязательств России по обмену прогностической информацией и данными гидрометеорологических наблюдений. Введенный Росгидрометом в эксплуатацию в марте 2009 года вычислительный комплекс с суммарной пиковой производительностью 27 TFLOPS позволил ученым Гидрометцентра России реализовать накопленный к данному моменту научный потенциал в развитии прогностических моделей. Взрывной характер внедрения в оперативную практику глобальных моделей с шагом 30-40 км и мезомасштабных моделей с шагом 2-7 км в течение двух лет практически исчерпал вычислительные ресурсы ранее установленного вычислительного кластера.

В рамках пресс-конференции, посвящённой запуску в эксплуатацию нового вычислительного кластера РСК, выступали представители Росгидромета, Intel и РСК, но с точки зрения специалистов по высокопроизводительным решениям, для которых задумывалась эта публикация, наибольший интерес всё же представляет презентация Алексея Шмелёва, исполнительного директора группы компаний РСК, в которой он подробно рассказал о структуре кластера и уникальных технологиях, заложенных в его основу и позволивших добиться ряда рекордных показателей для систем такого класса.

РСК, известная в качестве поставщика решений «полного цикла» суперкомпьютерного класса на основе архитектур Intel и жидкостного охлаждения, выступила как разработчиком технологического решения, так и интегратором установки пилотной кластерной системы с пиковой производительностью 15,33 TFLOPS, с возможностями дальнейшего наращивания производительности. Согласно контракту, была проведена глубокая модернизация оборудования ГВЦ Росгидромета до уровня пилотной системы.

Заложенная в основу нового вычислительного кластера Росгидромета архитектура "РСК Торнадо" впервые демонстрировалась на европейской отраслевой выставке International Supercomputer Conference (ISC) в Гамбурге в июне 2011 года. Архитектура "РСК Торнадо" представляет собой энергоэффективное решение с жидкостным охлаждением для массово доступных стандартных серверных плат на процессорах Intel Xeon, изначально создававшихся для систем с воздушным обдувом электронных компонентов. Архитектура "РСК Торнадо" обеспечивает гибкость конфигурации узлов со стандартными интерфейсами, высокую ремонтопригодность (простоту замены модулей оперативной памяти и увеличения ее объема, обновления моделей процессоров), возможность интеграции с любыми внешними изделиями со стандартными интерфейсами (PCI Express).

На текущий момент пилотная кластерная система, установленная в Росгидромете, состоит из 96 вычислительных узлов, каждый из которых содержит по два наиболее высокопроизводительных процессора Intel Xeon 5680 с тактовой частотой 3,33 ГГц — всего 192 процессора. В системе реализован большой объем оперативной памяти на один узел, 48 Гбайт, а суммарный объем оперативной памяти всей системы составляет 4608 Гбайт. Коммуникационная сеть кластера построена на базе скоростного интерфейса Infiniband QDR.

Уже в рамках пилотной системы вычислительный кластер обладает следующими характеристиками:

  • Высокая энергоэффективность: показатель эффективности использования электроэнергии (Power Usage Effectiveness, PUE) достигает рекордного для HPC-индустрии значения 1,06 (соотношение «энергопотребление всей системы/энергопотребление электронных компонентов»). То есть не более 5,7% энергопотребления будет расходоваться на охлаждение всей системы;
  • Высокая вычислительная плотность и, как следствие, компактность;
  • Рекордно высокий коэффициент вычислительной эффективности – более 92% на тесте LINPACK;
  • Высокая масштабируемость;
  • Возможность использования в будущем ускорителей архитектуры Intel MIC.

Чтобы не работать испорченным телефоном, передавая на словах презентацию Алексея Шмелёва, предлагаем вашему вниманию полную запись его выступления в рамках прошедшей пресс-конференции.

Одно дело — слушать рассказ о новой архитектуре на словах, воспринимая его "на пальцах", и совсем другое дело — увидеть новый кластер в работе.

К слову, представители Росгидромета, регулярно приглашающие журналистов на пресс-конференции по поводу обновления парка своих вычислительных мощностей (на моей памяти за последние пять лет — раза три-четыре) ранее очень неодобрительно относились к идее показать новые серверные комнаты "живьём".

В этот раз нам повезло гораздо больше: сначала все желающие получили возможность побывать в монтируемом сейчас своеобразном "центре управления полётами", где производится мониторинг всех текущих метеорологических показателей, созываются при необходимости совещания, в том числе удалённые, с помощью оборудования для проведения видеоконференций. Затем нас проводили на этаж, где установлено основное вычислительное оборудование Гидрометцентра (то самое, с суммарной пиковой производительностью 27 TFLOPS).

И вот, наконец, долгожданное посещение зала с рабочими стойками нового кластера. Смотрите внимательно: одна-единственная стоечка и вспомогательный шкаф охлаждения и управления обеспечивают производительность на уровне 15,33 TFLOPS!

Как? Ниже предлагаем вашему вниманию видеозапись подробного рассказа о возможностях нового кластера, с "живой" демонстрацией модулей и блоков системы непосредственно у работающей стойки.

В завершение сегодняшнего рассказа отдельно хотелось бы отметить прозвучавшее в рамках презентации упоминание о возможности использования в будущем ускорителей архитектуры Intel MIC. Что особенно важно подчеркнуть: в кластере на базе действующей архитектуры пилотного проекта ГВЦ Росгидромета. Производительность которого, кстати, обещали увеличить до 30 TFLOPS уже в ближайшее время без изменения габаритов системы.

Если говорить о заманчивых возможностях, которые предоставит использование ускорителей архитектуры Intel MIC, стоит отметить, что именно метеорологам пришлась бы по душе возможность наращивания производительности за счёт таких решений, ибо как раз метеорологические алгоритмы превосходно поддерживают распараллеливание задач. Мы заострили внимание наших читателей на возможностях Intel MIC не случайно, ибо в нашем распоряжении имеется уникальная запись выступления Анжея Новака (Andrzej Novak), специалиста из штата того самого адронного коллайдера в швейцарском ЦЕРНе, где этим летом проводилась первая пилотная эксплуатация прототипов ускорителей Intel MIC (Knight Corner) на вполне конкретных задачах физиков. Запись сделана в Сан-Франциско в дни Форума Intel для разработчиков в сентябре 2011 года (на английском языке). Надеемся, эта запись будет интересна нашим читателям в качестве взгляда на ближайшие перспективы рынка высокопроизводительных вычислений.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.
Постоянный URL: https://servernews.ru/595241
Система Orphus