社会生活的需求推动了高性能计算技术的发展:并行程序的规模和复杂性 不断增大,高性能计算机的规模持续攀升。一方面,并行程序庞大的计算规模 和内在的不确定性使得调试过程非常困难;另一方面,系统部件数目的激增导 致系统的平均故障间隔时间越来越短,甚至比应用程序的执行时间还短。因此, 开发阶段的调试技术和运行阶段的容错机制成为影响并行程序可靠性的重要因 素。本文针对这两个方面尚存在的问题展开了研究,主要工作包括分组再现重播和文件检查点技术。在分组重播中,并行程序的进程被分成独立 的小组:组间通信采用数据重播,组内通信采用顺序重播,同时控制了日 志规模和重播进程数。支持在有限的资源配置下重播并行程序,简化了调 试过程。在文件检查点中,所有文件修改在本地缓存, 下一次检查点时原子性地写回对应文件。高效地保证了高性能计算容错技术中程序状态和文件状态的一致性。
书籍详述: |
|
ISBN-13: |
978-3-639-81664-8 |
ISBN-10: |
3639816641 |
EAN: |
9783639816648 |
书籍语言: |
中文 |
By (author) : |
瑞尼 薛 |
页数 : |
108 |
出版于: |
04.09.2015 |
分类: |
Other |