Enhancing Reliability and Response Times via Replication in Computing Clusters---INFOCOM 2015

【标题】

Enhancing Reliability and Response Times via Replication in Computing Clusters

【作者】

Zhan Qiu and Juan F. Perez, Imperial College London

【来源】

INFOCOM 2015

【why】

计算集群中含有成千上万节点,request failure和server failure等因素影响服务可靠性,随着资源规模增大和复杂度增加,可靠性不断下降。

当前研究主要采用重调度和冗余策略,前者损失时间太长,后者成本代价太高。

当前集群的资源利用率并不高,大部分数据中心服务器平均利用率才18%,如何进行任务调度,提高系统可靠性的同时降低响应时间

【how】

提出concurrent replication with canceling方法,所有任务采用主备双执行,其中一份执行成果,立即取消另外一份执行

【不足】

assumption future work

【对本文评价】

【相关方法或论文】

【重点提示】

【其它】

posted @ 2016-03-15 10:10  SCrystalTear  阅读(255)  评论(0编辑  收藏  举报