Microsoft Word - crom.doc Ìàòåìàòè÷åñêèå âîïðîñû êèáåðíåòèêè è âû÷èñëèòåëüíîé òåõíèêè 30, 47--53, 2008. 47 Создание контрольных точек и восстановление MPI программ Мгер Ю. Мовсисян Ереванский физический институт им. А.И.Алиханяна mher.movsisyan@gmail.com Àííîòàöèÿ Выполнение программ на вычислительных кластерах обычно занимает довольно большое время. В процессе выполнения может возникнуть потребность изменения физического местоположения отдельных процессов параллельной программы или временная остановка всей программы. В этой статье описана разработанная система CROM (Checkpointing and Recovery of MPI), которая предоставляет возможность создания контрольных точек для остановки и последующего возобновления выполнения MPI программы. Функциональность создания контрольных точек и восстановления реализована в виде дополнительных компонент MPICH2 и не требует изменений в коде MPI программы. Ëèòåðàòóðà [1] M. Movsisyan, V. Sahakyan, “Transparent checkpointing protocol for MPI programs with decentralized initiator”, CSIT 2007, pp. 227-229. [2] Message passing interface forum, “MPI: A Message-Passing Interface Standard”, Version 1.1, June 1995. http://www.mpi-forum.org/docs/docs.html [3] Message passing interface forum, “MPI-2: Extensions to the Message-Passing Interface”, July 1997, http://www.mpi-forum.org/docs/docs.html [4] MPICH2, http://www-unix.mcs.anl.gov/mpi/mpich2/ [5] Open MPI, http://www.open-mpi.org/ [6] M. Chandy and L. Lamport, “Distributed snapshots: Determining global states of distributed systems”, In ACM Transactions on Computing Systems, 3(1): pp. 63-75, 1985. [7] Myrinet, http://www.myri.com/myrinet/overview/ [8] The MPICH Team Argonne National Laboratory, “Process Management in MPICH2” DRAFT 2.1. March 30, 2007. [9] Berkeley Lab Checkpoint/Restart (BLCR), http://ftg.lbl.gov/CheckpointRestart/CheckpointRestart.shtml [10] H. Hargrove and C. Duell, “Berkeley Lab Checkpoint/Restart (BLCR) for Linux Clusters”, In Proceedings of SciDAC 2006: June 2006. Создание контрольных точек и восстановление MPI программ 48 [11] J. Duell, P. Hargrove, and E. Roman, “The design and implementation of Berkeley Lab’s linux Checkpoint/Restart”, Technical Report LBNL-54941, Lawrence Berkeley National Laboratory, 2003. [12] M. Elnozahy, L. Alvisi, Y. M. Wang, and D. B. Johnson, “A survey of rollback-recovery protocols in message passing systems”, Technical Report CMU-CS-96-181, School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA, 1996. êïáõ·Ù³Ý Ï»ï»ñÇ ëï»ÕÍáõÙÁ ¨ í»ñ³Ï³Ý·ÝáõÙÁ MPI Íñ³·ñ»ñáõÙ Ø. ØáíëÇëÛ³Ý ²Ù÷á÷áõ٠гßíáÕ³Ï³Ý Ïɳëï»ñÝ»ñáõÙ Íñ³·ñ»ñÇ Ï³ï³ñáõÙÁ ëáíáñ³µ³ñ ï¨áõÙ ¿ µ³í³Ï³ÝÇÝ »ñϳñ£ Ìñ³·ñ»ñÇ Ï³ï³ñÙ³Ý Å³Ù³Ý³Ï Ï³ñáÕ »Ý ͳ·»É ½áõ·³Ñ»é Íñ³·ñÇ ÁÝóóùÝ»ñÇ ýǽÇÏ³Ï³Ý ¹ÇñùÇ ÷á÷áËáõÃÛ³Ý Ï³Ù ³ÙµáÕç Íñ³·ñÇ Ï³ï³ñÙ³Ý Å³Ù³Ý³Ï³íáñ ¹³¹³ñ»óÙ³Ý ³ÝÑñ³Å»ßïáõÃÛáõÝÝ»ñ£ ²Ûë Ñá¹í³ÍáõÙ Ýϳñ³·ñíáõÙ ¿ Ñ»ÕÇݳÏÇ ÏáÕÙÇó Ùß³Ïí³Í CROM (Checkpointing and Recovery of MPI) ѳٳϳñ·Á, áñÁ Ñݳñ³íáñáõÃÛáõÝ ¿ ÁÝÓ»éáõÙ å³Ñå³Ý»É ϳï³ñíáÕ MPI Íñ³·ÇñÁ ¨ í»ñ³ÃáÕ³ñϻɣ ä³Ñå³ÝÙ³Ý ¨ í»ñ³ÃáÕ³ÏÙ³Ý ýáõÝÏóÇáݳÉáõÃÛáõÝÁ Çñ³·áñÍí³Í ¿ MPICH2 µ³Õ³¹ñÇãÝ»ñÇ ï»ëùáí ¨ ãÇ å³Ñ³ÝçáõÙ MPI Íñ³·ñÇ Ïá¹Ç ÷á÷áËáõÃÛáõÝ£