Материалы по тегу: dmtcp
16.11.2021 [16:26], Алексей Степин
Технологии MemVerge и DMTCP сделают распределённые вычисления надёжнееТехнология контрольных точек (checkpoints) не нова и широко применяется в мире ИТ. Она обеспечивает подстраховку на случай сбоев ПО или «железа». Однако то, что просто реализуется для единичных приложений или серверов, весьма непросто в случае HPC-кластеров и распределённых многопоточных задачах. Но благодаря сотрудничеству MemVerge с проектом DMTCP эта технология станет более распространённой в HPC-сегменте. Сама MemVerge, компания, разрабатывающая технологии виртуализации крупных массивов памяти на основе DRAM и Optane, до недавних пор не предполагала запуск своих решений в действительно сложных распределённых системах. Однако обойти эту проблему помог открытый проект Distributed MultiThreaded Checkpointing Project (DMTCP), с которым компания теперь сотрудничает. ![]() MemVerge Memory Machine — технология создания крупных распределённых пулов памяти Сложных сценариев, где контрольные точки могли бы спасти ситуацию в случае сбоя от убытков и потери многих человеко-часов, множество: это и симуляция поведения сложных микросхем, верификация схемотехники таких микросхем, сложные вычисления в области биоинформатики или физики высоких энергий, разработка систем кибербезопасности, работа с массивами bigdata и множество других. ![]() Главное преимущество реализации DMTCP в том, что эта система полностью работает в пользовательском пространстве и не требует существенных модификаций ни в ПО, ни в ОС. Она способна прозрачно функционировать в большинстве Linux-систем и совместима с MPI, Python, Matlab, R и т.д. Корректную работу многопоточных задач обеспечивает координатор, который сохраняет состояние приложений на диск по расписанию или по заданным пользователем условиям. В случае сбоя процесс вычислений может быть восстановлен с последней контрольной точки. Благодаря тому, что MemVerge стала активным участником проекта DMTCP, последнему должен существенно упроститься путь на рынок. MemVerge будет не только помогать в разработке DMTCP, но и отвечать за его коммерческую поддержку, а также внедрит полностью протестированную версию данного ПО в свои решения серии Big Memory. Компания уже сотрудничает с Национальным вычислительным центром энергетических исследований США (NERSC) с целью оптимизации DMTCP-решений для суперкомпьютеров Cori и Perlmutter. В дальнейшем планируется сделать DMTCP доступным и для CUDA-вычислений. |
|