摘要: letgo 摘要 HPC需要容错,而检查点技术开销太大。 提出letgo,能在崩溃时继续执行HPC。为什么能提?1.有的HPC应用有比较好的内在容错能力,可以重新利用默认机制。 用五个benchmark,结果不错 introduction letgo能够存在的依据: 一旦发出导致崩溃的错误信号,就可 阅读全文
posted @ 2023-12-15 16:38 一颗红豆 阅读(80) 评论(0) 推荐(0)