Материалы по тегу: dmtcp

16.11.2021 [16:26], Алексей Степин

Технологии MemVerge и DMTCP сделают распределённые вычисления надёжнее

Технология контрольных точек (checkpoints) не нова и широко применяется в мире ИТ. Она обеспечивает подстраховку на случай сбоев ПО или «железа». Однако то, что просто реализуется для единичных приложений или серверов, весьма непросто в случае HPC-кластеров и распределённых многопоточных задачах. Но благодаря сотрудничеству MemVerge с проектом DMTCP эта технология станет более распространённой в HPC-сегменте.

Сама MemVerge, компания, разрабатывающая технологии виртуализации крупных массивов памяти на основе DRAM и Optane, до недавних пор не предполагала запуск своих решений в действительно сложных распределённых системах. Однако обойти эту проблему помог открытый проект Distributed MultiThreaded Checkpointing Project (DMTCP), с которым компания теперь сотрудничает.

MemVerge Memory Machine — технология создания крупных распределённых пулов памяти

MemVerge Memory Machine — технология создания крупных распределённых пулов памяти

Сложных сценариев, где контрольные точки могли бы спасти ситуацию в случае сбоя от убытков и потери многих человеко-часов, множество: это и симуляция поведения сложных микросхем, верификация схемотехники таких микросхем, сложные вычисления в области биоинформатики или физики высоких энергий, разработка систем кибербезопасности, работа с массивами bigdata и множество других.

Схема работы DMTCP в многопоточных задачах

Главное преимущество реализации DMTCP в том, что эта система полностью работает в пользовательском пространстве и не требует существенных модификаций ни в ПО, ни в ОС. Она способна прозрачно функционировать в большинстве Linux-систем и совместима с MPI, Python, Matlab, R и т.д. Корректную работу многопоточных задач обеспечивает координатор, который сохраняет состояние приложений на диск по расписанию или по заданным пользователем условиям. В случае сбоя процесс вычислений может быть восстановлен с последней контрольной точки.

Благодаря тому, что MemVerge стала активным участником проекта DMTCP, последнему должен существенно упроститься путь на рынок. MemVerge будет не только помогать в разработке DMTCP, но и отвечать за его коммерческую поддержку, а также внедрит полностью протестированную версию данного ПО в свои решения серии Big Memory. Компания уже сотрудничает с Национальным вычислительным центром энергетических исследований США (NERSC) с целью оптимизации DMTCP-решений для суперкомпьютеров Cori и Perlmutter. В дальнейшем планируется сделать DMTCP доступным и для CUDA-вычислений.

Постоянный URL: http://servernews.ru/1053845
Система Orphus