一、MPI容错问题的研究及实现(论文文献综述)
黄璜[1](2019)在《基于故障数据预处理的超算系统容错关键技术研究》文中提出随着超级计算机的规模不断扩大,体系结构日益复杂,系统可靠性的要求也急剧增高,使得与可靠性紧密相关的系统故障预测和研究面临着极大的挑战。超级计算机系统中的故障一般具有瞬时性、多样性以及不确定性,这些因素对故障信息采集、故障预测以及容错提出了更高更复杂的要求。由高效的数据采集能力和快速准确地数据分析能力所构成的数据预处理技术,为面向超算系统的容错技术提供了强大的数据保障。于此同时,E级系统中单个科学计算应用所产生的最大数据规模将从TB级别增长到PB级。而大规模数据采集时要求更高的聚合带宽来降低延迟以增强实时性,因此实时数据采集很容易产生大量的突发性I/O请求。这样的数据密集型应用和突发性I/O可能成为影响系统I/O性能的最大瓶颈,从而影响故障数据采集的效率。与此同时,I/O性能降低也将影响超算系统容错的执行效率。本文针对超级计算机系统可靠性问题以及与之紧密相关的I/O问题,以保障大规模应用在超算系统高效运行和提高I/O密集型应用的存储利用效率为目标,对故障数据预处理技术、容错技术以及与之相关的I/O问题展开了多方位较深入的研究和实验分析,取得的主要成果如下:设计和优化了面向超算系统的故障数据预处理技术。首先,针对当前系统规模不断增大,数据采集效率较低的情况提出了面向超级计算机系统的实时数据采集框架。实时数据采集框架由数据采集器、H2FS和分布式数据采集管理器组成。针对超算系统中可能产生突发性I/O的复杂应用环境,通过加入高效的H2FS为整个采集框架提供了高性能和高可用性的支持。其次,针对运行时应用相关性能信息收集不完整的问题,优化了用来收集和分析典型应用性能特性的性能分析工具的功能,丰富了实时数据采集框架中的采集数据类型。再次,为了提高系统故障分析和诊断的准确性和时效性,提出了基于离线预处理的在线日志模板提取方法。该方法由两部分组成:第一部分,通过对现有离线日志模板技术的研究和分析,设计了一种针对天河超级计算机的离线日志模板提取流程;第二部分,采用我们设计的实时故障数据采集框架,在存储中间层当中快速增量式的在线分析日志。然后将整个设计融入到数据预处理模块当中与实时数据采集模块联合运行。最后,实验结果表明该框架具有较高的性能和较好的可扩展性,同时验证了基于离线预处理的在线日志模板提取方法的准确性,以此证明面向超算系统的故障数据预处理技术的可用性。针对大规模应用在运行时遇到系统故障可能性增大以及涉及的失效节点数量更多的问题,在XOR的检查点/恢复容错方法的基础上,提出了基于多维度XOR的检查点/恢复容错技术。系统的频繁失效会使得那些在超级计算机平台上长时间运行的任务的完成时间大大髙于任务原本所需的执行时间。而传统检查点/恢复技术在恢复所需的时间成本和恢复所需的存储容量之间往往很难取得平衡。为了解决这些问题,我们提出了基于多维度XOR的检查点/恢复容错方法,并对基于数学函数库的容错框架进行了分析和讨论。通过多维度XOR的检查点/恢复容错方法对大规模并行应用进行容错操作,在不过度增加存储容量的情况下又能够较大程度的提高系统的可靠性。最后,通过实验验证了多维度XOR的检查点/恢复容错方法的有效性。为了解决超算系统中大量突发性I/O对系统性能以及容错效率的影响,提出了面向超算系统的存储负载管理模型SWMM。它可以在多个数据密集型应用并行访问文件系统时优化I/O路径,从而提高带宽效率。同时,优化了面向超级计算机存储系统的容量均衡策略,用于解决存储扩展中的容量不平衡问题。这些技术可以进一步提高应用运行的效率,同时一定程度上缓解了容错技术中I/O性能带来的影响。我们在天河-1A超级计算机上对SWMM进行了测试,实验结果表明,I/O路径优化和容量平衡策略达到了预期的效果,数据采集模块在小数据块传输中具有低开销和高传输效率。
李子怡[2](2019)在《面向混合内存的并行重计算方法研究》文中研究说明在云计算、大数据以及人工智能蓬勃发展的数字时代,每分每秒都有大量的数据产生。为了快速高效地处理这些数据,计算机系统处理器的数量在不断增加,这导致并行应用程序在充分利用这些处理器进行计算的时候,故障点数目的增多。大多数应用程序的运行时间比平均故障间隔时间长,一旦发生故障就会导致应用程序功能失效。因此,在并行计算的过程中,应用程序本身应具备一定的容错能力。检查点技术是一种常见的容错技术,但是检查点的存储,故障恢复的速度,以及容错过程中对系统性能的影响都是不容忽视的问题。无磁盘化的检查点技术可以消除磁盘的I/O性能瓶颈。但是,这给内存带来了大量存储开销。为了解决这些问题,提出了一种面向混合内存的并行重计算方法PRec(Parallel Re-computation)。PRec在DRAM(Dynamic Random Access Memory)和NVM(Non-Volatile Memory)混合内存的架构下,用重计算代替写回内存的方式来获取数据,优化检查点的存储并延长NVM的使用寿命;用并行重计算的方式来加速故障恢复,提升系统的恢复性能。具体而言,PRec首先通过离线分析技术将应用程序划分成不同的程序段,确定重计算标签和故障检测标签的位置,明确保存检查点过程中必须要保存的数据。然后,在线执行这些具有容错功能的程序代码,实现应用级的检查点的保存和出现故障后的并行恢复。在Quartz模拟的DRAM与NVM混合内存平台下,使用NPB(Nas Parallel Benchmark)测试应用集对PRec和CRIU(Checkpoint/Restore In Userspace)进行了对比评估。测试结果显示,PRec方法减少了约80%的检查点的存储开销,并且可以减少对NVM的访问,加快故障的恢复,降低能耗开销。
张路青[3](2018)在《基于MPI的数据融合并行化容错技术研究》文中认为并行化数据融合系统的数据流量大、关键任务多,容错实时性要求高,论文提出了一种基于检查点和冗余任务进程相结合的数据融合并行化容错方法。该方法首先将传感器输入的航迹信息按网格聚类划分为区域,然后基于MPI和区域划分进行任务分配和容错。最后,仿真实例测试表明了该方法是可行的。
李超,赵长海,晏海华,刘超,文佳敏,王增波[4](2018)在《一种在复杂环境中支持容错的高性能规约框架》文中研究表明规约是并行应用最常用的集合通信操作之一,现存规约算法存在2方面主要问题。第一,不适应复杂环境,当计算环境出现干扰时,规约效率显着降低。第二,不支持容错,当节点发生故障时,规约被迫中断。针对上述问题,提出一种基于任务并行的高性能分布式规约框架。首先,该框架将规约拆分为一系列独立的计算任务,使用任务调度器以保证就绪任务被优先调度到具有较高性能的节点上执行,从而有效避免了慢节点对整体性能的影响。其次,该框架基于规约数据的可靠性存储和故障侦听机制,以任务为粒度,可在应用不退出的前提下实现故障恢复。在复杂环境中的实验结果表明,分布式规约框架具有高可靠性,与现有规约算法相比,规约性能最高提升了2.2倍,并发规约性能最高提升了4倍。
陈呈[5](2017)在《以加速器为中心的异构编程模型关键技术研究》文中进行了进一步梳理异构系统以峰值性能高、能效比高等诸多优势,逐渐成为高性能计算领域的热点发展方向。然而,由于异构系统同时集成了通用CPU和专用加速器等多种部件,各部件往往拥有不同的系统架构和指令集,并采用分离的存储空间,这对异构系统可编程性、异构性能优化提出了挑战;同时随着高性能计算机系统的规模不断扩大,异构系统的可靠性问题也日益突出并亟待解决。针对这些问题,本文开展了面向异构系统的编程模型、优化方法和容错方法三个方面的研究。论文首先面向MIC(Many Integrated Cores,众核融合架构)平台提出了以加速器为中心的异构编程模型,程序员对异构系统采用以加速器为视角,异构程序采用加速器驱动的方法,将不规则计算和MPI通信通过远程过程调用的方法卸载到CPU端,基于该模型给出了编程接口和运行时系统,简化了异构编程;论文还针对使用以加速器为中心编程时会出现加速器空转的问题进行研究,在运行时系统中实现负载均衡和任务调度等优化技术;同时关于异构系统稳定运行的问题,设计了基于内存双倍份的应用级检查点异构容错方法,重点解决了以加速器为中心编程带来的数据在CPU和加速器间分布问题;最后基于以加速器中心编程实现了异构Linpack,对编程模型、运行时系统以及优化方法的有效性进行了验证。本文的主要创新点包括:1.本课题针对当前异构系统采用的任务卸载编程模型存在的数据在加速器和CPU间频繁传输的问题,利用MIC处理器的自主计算能力,提出了以加速器为中心的编程思想,即将MIC处理器作为主机使用,此时CPU只是作为不规则计算的加速器;从顶层任务划分开始就以加速器数据的存储、CPU和加速器间通信为首要考虑因素,尽可能使数据驻留在加速器的内存中,使得数据更接近计算,从而减少数据频繁通信,以充分发挥加速器的性能。基于该编程思想设计了加速器驱动的任务卸载和MPI通信两个层次的编程接口,提高了编程效率,并给出了CPU-MIC系统的运行时系统,形成一种新的以加速器为中心的异构并行系统编程模型r Offload,提高了异构系统编程和运行效率。2.为解决以加速器为中心编程时加速器向CPU卸载任务存在加速器空转的问题,基于性能模型提出各个计算部件重叠计算的任务划分算法,确定任务平衡划分的比例,使各子划分的执行时间差异尽可能小,以达到均衡在各计算单元上的执行时间的目的,避免等待发生;同时根据计算任务DAG图设计加速器为中心的异构调度算法,在满足依赖关系约束的基础上,对计算资源中的不同任务进行时间和空间上的排序,以减少总任务的执行时间。3.为解决异构系统的可靠性问题,尤其针对采用加速器为中心编程后数据主要驻留在加速器上的容错新挑战,设计了基于内存双备份的应用级检查点异构容错方法,给出了检查点在加速器和CPU上的保存方法,能够很好的解决数据在CPU和MIC上分布问题;实现对检查点保存和恢复开销的优化,满足了大规模系统上的扩展性要求;在以加速器为中心编程框架下给出了编程接口,简化了容错编程。4.为验证以加速器为中心编程模型以及运行时系统的有效性,在CPU-MIC系统上设计并实现了以加速为中心的异构LU分解程序。测试结果表明,采用以加速器为中心编程方法可以有效减少数据在CPU和加速器间的传输,且最终的实现能发挥异构系统的性能。以加速器为中心实现的Linpack在”天河二号“64个节点上的性能优于CPU为中心的实现。在单节点上性能提高了7%,扩展到64节点时,性能优势更加明显,达到12%。同时,通过我们的容错方法的使用,极大的提高了异构应用程序的稳定运行时间,而且检查点容错对程序的正常运行影响较小。
王璐[6](2015)在《片上互连网络容错关键技术研究》文中研究说明多核技术的发展使得处理器向通信密集型转变,传统的总线设计不能满足相应的通信需求。片上互连网络具有高可扩展性和灵活性,已经成为解决多核处理器通信瓶颈的有效方式。但是,随着片上网络集成度不断增大,其可靠性问题也越来越严重。本文针对片上互连网络的永久链路错误和永久路由器组件错误的容错策略展开研究:第一,通过分析片上互连网络链路的永久性错误,提出了基于区域洪水路由的实时容错路由算法。为了实现实时的容错,我们首先提出了容错的MPI-like通信协议。在该协议中,如果发送请求消息的源结点一定时间内没有收到响应,就认为链路出错,并进入寻找无错路由的过程。我们提出的基于区域洪水的路由算法用于寻找无错路由。该算法在源结点和目的结点为顶点的矩形区域内广播寻找路由的报文,每一步搜寻都朝着目的结点的方向进行。这一算法相对于传统的洪水路由算法,减少了大量无用消息包,减少平均网络延迟,避免网络阻塞,同时却只带来了很小的容错能力损失。通过booksim模拟器比较平均包延迟,我们发现区域洪水路由相对于传统的洪水路由算法能够大幅地降低延迟。特别是在bit complement模式下,获得的延迟降低达25%。此外,我们还比较了区域洪水路由算法和传统洪水路由算法的容错能力。结果表明,在低错误(<4%)的网络中,我们的方法获得的容错能力比传统洪水路由只降低了2%。最后,我们使用RTL-Router以及DC(Design Compile)综合工具评估面积和功耗开销。相比于基本的路由器,我们的设计开销约为12%。第二,通过分析片上互连网络路由器组件的永久性错误,提出了高可靠性、高性能和低开销的容错路由器设计。在两阶段标准路由器基础上,我们使用双路由策略容忍路由计算单元出错,使用默认胜利者策略容忍虚拟通道分配单元出错,使用实时仲裁器选择策略容忍交叉开关分配单元出错以及使用双旁路总线机制容忍交叉开关单出错。和之前的容错路由器设计不同,我们首次利用流水段优化和路由算法的特点,在容错设计中考虑了网络性能,并解决了错误容忍所带来的性能下降问题。我们的设计在高负载网络下仍然可以维持性能。我们在文中与现有的容错路由器设计进行了比较,结果表明我们的设计可以获得更好的性能,尤其是在网络负载较高时。同时,我们评估了设计的面积开销,并利用硅保护因子(SPF)评价路由器的可靠性。结果表明,在硬件开销降低16%的基础上,SPF提高了44.7%。因此,我们的路由器设计具有更好的性能,更低的开销以及更高的可靠性。综上,本文围绕片上网络的容错问题展开研究。首先,针对片上网络的永久性链路错误,提出了基于区域洪水的实时容错路由算法。该算法通过容错能力的稍微降低换取网络性能的大幅提升。其次,本文针对片上网络路由器组件错误,提出了基于两阶段标准路由器的容错路由器设计。该路由器设计可以容忍多个流水单元出错,并同时实现了高可靠性,高性能和低开销。本文的工作具有一定的理论和应用价值。
张新洲[7](2015)在《面向分布式集群计算的容错技术研究与设计》文中认为随着移动互联网和社交媒体的不断发展,政府和企业对海量数据的存储和管理需求也急速增长。由于单节点数据管理系统存在严重的单点失效问题,同时也缺乏对海量数据的管理能力,为此分布式集群数据管理系统已成为未来发展的趋势,将极大地增加系统的处理能力和可用性。近年来,分布式集群数据管理系统越来越受到人们的关注,并已广泛地应用于民航、金融、工业控制等任务关键型领域(mission-critical)。就整个系统总体而言,分布式系统比传统集中式系统更可靠,但是分布式系统存在着部分失效问题、时钟不一致问题、消息传递失效等问题,最终将导致数据管理的失败,并造成重大经济损失。容错技术是解决上述分布式系统问题的重要手段,可以有效提高系统的可靠性。基于内存计算的无共享并行数据库系统已然成为快速分析关系型数据的利器,CLAIMS系统为此类系统之一,旨在充分利用内存计算的迅捷性来提升数据处理的性能。内存数据的存取速度是磁盘数据存取速度的200倍左右,内存计算是实时数据分析的基础,但是内存的易失性也对内存集群计算系统的容错性提出了更高的要求。因此,如何提高分布式集群下高速计算系统的容错性,保证系统运行的可靠性和可用性已成为首当其冲需要解决的问题。目前主流系统中的容错手段还比较单一,并不能满足规模日益增长的集群系统的需求。CLAIMS系统同样面临着这样的问题,设计出一套完整的高可用容错机制迫在眉睫。目前实际应用中主要的容错手段包括组件备份,检查点设置,作业迁移等,在一定程度上解决了分布式系统容错的问题,但无法满足内存集群计算系统的需求。针对复杂任务长时间连续作业的情形,我们提出了更加先进的混合容错机制,并且针对每一种容错手段进行优化、改进、组合,并提出新的算法理念。本文立足于CLAIMS分布式内存数据库系统,设计了CLAIMS系统中的容错系统,采用混合容错方式,将k-safe多投影存储、自适应动态心跳检测机制、执行计划切分选择性持久化和动态检查点设置进行了实现和优化。设计了CLAIMS系统中针对QoS服务级别的编程框架。充分的实验证明在OLAP系统中处理任务中具有较好的容错性。解决了传统方法中检查点设置单一,恢复效率低下的问题,本文主要的工作以及贡献包括:1.基于HDFS分布式文件系统,设计了CLAIMS的底层文件存储系统。数据不再是单一的多文件备份,而是采用k-safe的文件存储方式,将系统查询中的数据表以列存储方式投影多份,并保证原数据表中的每一列至少有k份。每一份列存储投影均被哈希水平切分成多个数据块,每一个数据块大小为64MB。该k-safe数据处理方式,一方面能加速查询时数据的加载数据速度,另一方面在系统出现故障之后可以保证数据的可恢复性,从而大大提高了系统失效时数据恢复效率,为系统容错提供数据保障。2.在容错系统设计中加入了自适应式的心跳检测机制,改进了以往单一的固定频率心跳消息传递机制,从而大大降低了平均发现故障的时间延迟。具体操作上依据实时系统资源状态动态调整集群中各个节点之间消息传递的频率,结合主机的负载变化制定节点直接心跳消息传递的策略。在考虑到集群达到一定规模情况下心跳消息会增加负载的情况下,本文还采用了多播的消息传递方式降低心跳检测造成的数据延迟问题。3.将QoS服务功能应用到CLAIMS系统中来,针对不同的数据查询操作划分不同的执行功能,按照各自功能的标准定义每个阶段的处理方法,将QoS服务质量作为指标加入到容错模块中来,使得故障的部分指标得以量化;同时在代码实现层面采用OpenMPI编程函数库,针对容错特性进行了改进,在消息传递和数据交互的时候采用这种编程模型,提高容错性能。4.提出了动态设置检查点的方法,为每一个查询的执行计划计算出对应设置检查点的消耗模型,基于动态规划的思想从全局最优化出发,通过迭代为每一阶段的操作计算设置检查点的代价,比较当前节点设置检查点所带来的磁盘I/O开销和从底层叶子节点回溯重新执行任务至当前节点的开销,最终为整个执行计划树确定设置检查点的方案,使得整个查询在出错的情况下重新恢复执行的时间最小。上述功能的设计与实现,形成了CLAIMS系统中的容错模块,本文详细叙述了上述功能以及之间的关联关系。通过实验比较,证明了该方法在内存集群计算环境下,与传统单一的容错方案相比,在可靠性和可用性方面具有显着的提升。
吴方军[8](2015)在《MPI环境下多副本容错技术研究》文中进行了进一步梳理随着科学与工程技术的发展,一些大规模数据的处理和计算问题随之涌现,例如目前人类所面临的基因工程中DNA图谱绘制、全球气候的准确预报、海洋洋流循环的计算等难题。这类问题使用一般的串行计算模型在有限时间内已很难解决,而并行计算模型可以大大提高计算速度,成为解决这类问题的有效途径。目前,并行计算已在计算密集型应用领域得到了广泛的运用。并行计算在软件上主要依靠编写并行库来实现。近些年来由于高速局域网技术的发展,基于消息传递模型的并行编程库MPI由于其高效、可扩展等优点成为事实上的并行编程标准。随着并行计算系统规模的增大,运行时间的增长,基于MPI的计算系统发生故障的概率也随之升高,而现有的MPI计算环境容错能力较差,发生节点失效时更是会直接导致整个程序的崩溃,所以MPI计算环境的容错问题成为了研究热点。已有的MPI环境下容错技术包括检查点/回滚技术和冗余技术,这些解决方案都有一定的局限性:检查点/回滚计术可靠性较低且在系统规模越来越大时有效工作时间所占比率会越来越小:已有的冗余技术没有考虑在异构PC节点所搭建的MPI环境的执行效率问题,执行效率低下。本文基于MPI环境下已有的检查点技术和冗余技术,提出了一种多副本容错方案R-MPI。R-MPI采用层次化的检测结构和push检测协议来检测节点的失效行为;R-MPI使用多个物理节点作为一个逻辑组,执行相同的计算任务,向用户提供透明的容错服务,在逻辑组中任何一个物理节点失效的情况下,整个系统仍然能够保证正常运行。在逻辑组之间通信时,R-MPI始终保证逻辑组中计算性能最高的节点作为执行消息发送任务的节点,从而提高了执行效率。同时R-MPI还提供了灵活的冗余配置策略以及对动态冗余的支持,进一步提高了系统的可靠性。本文在所设计的冗余容错方案的基础上,设计和实现了R-MPI原型系统。通过原型系统实验和大规模仿真实验与已有的冗余容错方案进行对比评估。结果表明,相比于其他方案,本文的容错方案在保证系统可靠性的基础上同时具有冗余消息少、执行效率高的优点。
朱林[9](2015)在《基于MPI的高性能云计算平台的优化与存储系统研究》文中研究说明为了满足用户对计算能力、资源利用效率和资源集中化的迫切需求,云计算技术作为一种解决方案被提了出来,并在短时间内迅速发展。近年来,各大科研机构和公司都开始研究云计算技术和基于云计算的服务与应用。但是许多云平台都不适用于低延迟服务,而且在执行计算密集型的任务时效率不高。MPI(Message Passing Interface)擅长计算密集型的任务,并且通信迅速,消息传递延迟小,利用MPI来实现一个云计算体系可以改进上述缺点;本并行实验室之前开发了一个基于MPI的高性能计算平台,但是并没有一个分布式文件系统作为底层存储,而且对于任务间有计算依赖的应用,在任务间依赖关系的定义和任务分发模型的设计上有待改进。本文的主要工作如下:1、本文对适用于LilyTask计算模型的WCP(Weighted Critical Path)任务分配算法进行研究,并提出适用于本平台中作业的改进的WCP算法。相比于WCP算法,改进的算法考虑了在两个任务间存在多次通信的情况。2、本文设计并实现了一个可视化的基于图形界面的任务依赖定义程序,用户通过按钮和辅助功能可以在主界面上绘制出一个作业的任务依赖图,并能够将该依赖图以特定的格式保存在文件中。3、本文对天体信息查询作业进行实验分析,并比较改进的WCP算法、原始WCP算法以及之前平台中的任务分配方法对天体信息查询作业进行任务分配后作业的运行时间,结果表明改进的WCP算法相比于另外两种分配算法都有性能上的优势。4、本文对HDFS和HBase进行研究,将HDFS作为平台的存储系统,并将HBase整合到平台的并行查询比对系统中,来代替之前的MySQL集群,并对改进后的并行查询比对系统进行性能测试,结果表明改进后的系统在进行数据查询时效率更高。
任小广[10](2014)在《面向CFD并行应用框架的容错技术研究》文中研究指明器件工艺的发展和并行规模的不断扩大,使得高性能计算机性能不断得到提升,但也带来编程墙和可靠性墙的严峻挑战,严重制约了高性能计算机应用的发展。对于编程墙问题,研究者们提出了面向领域的并行应用框架,实现了各学科专家在并行领域应用开发过程中的解耦,大幅度提高了并行领域应用的开发效率。而可靠性问题也一直是并行应用研究的热点问题,已有众多相关容错理论研究,但都不够透彻。传统基于硬件的容错方法面临着容错代价大、缺乏灵活性等诸多问题;而在实现层面上,系统级容错虽然面向用户透明,但存在着开销过大的问题;应用级容错虽然一定程度上缓解了容错开销问题,却使得用户负担加重。本文首次对面向CFD(Computational Fluid Dynamics)并行应用框架的容错方法展开研究。应用框架下容错能够在实现向上层用户透明的同时,保持应用级容错方法的低开销优点。并且在CFD并行应用框架内,能够将容错设计和实现与CFD并行应用特点进行有效结合,获得更为高效的容错优化方法。因此,研究CFD并行应用框架下的容错技术对促进CFD并行应用发展有着重要意义。本文在现有CFD并行应用软件框架的基础上,研究了面向CFD并行应用软件框架的容错技术。我们设计和构建了框架内的软件容错架构,针对错误检测和错误恢复这两个容错关键问题提出了一系列容错方法和优化技术。本文的主要工作和创新点体现在:1.以状态变迁图STG为基础,建立并行程序和CFD并行应用中的错误传播模型(第二章)硬件故障在并行程序中的传播行为是研究面向硬件故障的软件容错技术基础,而对并行程序的抽象建模又是故障传播行为研究的基础。本文首先提出了基于程序状态跟踪的状态变迁图理论,在状态变迁图理论中,对冲突、因果、并发关系进行了抽象,同时也支持系统间的交互抽象和行为抽象。基于状态变迁图STG理论,我们对故障在并行程序中的传播行为进行了分析,包括原生错误、数据流生错误和控制流生错误以及通信引起的传播错误等,并分别给出了错误传播方程及相关求解算法。同时,本文还从CFD并行应用的连续模型和离散模型出发,对他们的核心计算过程和特征进行了分析,得到连续CFD模型下以差分操作为核心的计算模式和离散CFD模型下以模板为核心的计算模式,并将两类CFD模拟计算核心特征统一抽象为以计算模板为核心的计算模式。以模板计算为基础,我们给出了错误在计算模板中的传播方程,以及CFD模拟过程中应用级错误传播相关求解算法。2.基于现有CFD并行应用软件框架提出了面向CFD并行应用框架的容错架构(第三章)基于并行程序错误传播模型和CFD应用级错误传播模型,在现有CFD并行应用软件框架的基础上,设计了面向CFD并行应用框架的容错架构。结合CFD应用中的天然容错基础和相关容错需求,我们设计了CFD并行应用框架下的同步回滚方法和异步回滚方法。在同步回滚方法中,重点利用CFD原有的周期性快照输出以最小代价实现检查点备份操作。而在异步回滚方法中,采用用户级sender-based消息日志技术,解决了失效进程的通信重演问题。3.结合离散CFD应用特征提出了面向模板计算的软错误检测方法——GSDMR(第四章)本文基于应用级错误传播模型,结合离散模型的CFD并行应用特征,提出了基于网格采样的双模冗余检错方法,能够大幅度减少模板计算中对软错误的检错开销。我们基于软错误在网格上的传播规律,并使用数学建模量化分析了如何获得GS-DMR方法中的最优检错周期、最优检查点周期和最优网格采样尺寸等,以及获取这些最优参数的启发式算法。针对GS-DMR方法中错误传播延迟带来的检错盲区问题,我们提出了包括冒险检查点、多重检查点和混合检错在内的多重解决策略,并根据实用性需求选择了混合检错方案。4.提出了检查点异步流水I/O优化方法——AP-IO(第五章)本文针对checkpoint开销过大的问题,提出异步流水检查点I/O优化方法——AP-IO,将形成检查点备份数据的多个数据场采用流水方式异步写出,而不是在时间步末尾集中输出,以获取更多的可用隐藏时间。同时针对某些CFD应用异步流水I/O隐藏时间仍然不够的情况,在异步流水I/O思想的基础上,我们进一步提出了应用级场数据计算调度的思想,通过合理调度CFD场数据的计算顺序,为整体快照输出获得更多可用隐藏时间。
二、MPI容错问题的研究及实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、MPI容错问题的研究及实现(论文提纲范文)
(1)基于故障数据预处理的超算系统容错关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 故障数据处理技术研究现状 |
1.1.1 相关概念 |
1.1.2 面向超级计算机的数据采集技术 |
1.1.3 面向超级计算机的故障数据处理技术、 |
1.2 容错技术发展现状 |
1.2.1 面向超级计算机的容错技术 |
1.2.2 面向超级计算机的容错库 |
1.2.3 其他容错技术 |
1.3 I/O相关技术研究现状 |
1.3.1 MPI-IO |
1.3.2 MPI-IO、Lustre与数据密集型应用相关研究 |
1.3.3 I/O性能分析工具与I/O工作负载管理 |
1.3.4 科学数据管理 |
1.5 主要贡献和创新点 |
1.6 论文组织结构 |
第二章 面向超算系统的故障数据预处理技术 |
2.1 引言 |
2.2 研究背景 |
2.2.1 I/O软件栈,I/O转发层和H~2FS |
2.2.2 数据采集框架和存储负载管理模型 |
2.2.3 资源管理器和性能分析工具 |
2.2.4 日志模板提取技术 |
2.3 面向超算系统的实时数据采集框架 |
2.3.1 实时数据采集框架 |
2.3.2 优化后的性能分析收集工具 |
2.4 基于离线预处理的在线日志模板提取方法 |
2.5 实验 |
2.5.1 实验环境 |
2.5.2 结果与讨论 |
2.6 小结 |
第三章 面向超算系统的容错技术 |
3.1 研究背景 |
3.1.1 超级计算机的可靠性现状 |
3.1.2 检查点/恢复容错技术 |
3.1.3 超算系统中的故障数据相关性分析 |
3.2 主要工作 |
3.2.1 基于多维度XOR容错模式 |
3.2.2 基于数学函数库的容错模式 |
3.3 性能分析与实验 |
3.3.1 性能分析 |
3.3.2 实验设计 |
3.4 小结 |
第四章 面向超算系统容错的I/O优化技术 |
4.1 引言 |
4.2 研究背景 |
4.2.1 ROMIO,Lustre以及SLURM |
4.2.2 I/O性能与系统状态 |
4.2.3 存储资源以及资源管理系统 |
4.3 方法 |
4.3.1 I/O路径优化模块 |
4.3.2 存储容量均衡模块 |
4.3.3 I/O数据采集和故障预警模块 |
4.4 实验设计 |
4.4.1 实验环境 |
4.4.2 实验一 |
4.4.3 实验二 |
4.4.4 实验三 |
4.5 小结 |
第五章 结论与展望 |
5.1 工作总结 |
5.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(2)面向混合内存的并行重计算方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究目标和主要工作 |
1.4 全文结构 |
2 研究基础与相关技术 |
2.1 非易失内存的相关特性 |
2.2 检查点的存储与优化 |
2.3 多线程容错模型与算法 |
2.4 本章小结 |
3 基于混合内存的并行重计算方法的设计 |
3.1 检查点存储开销分析 |
3.2 并行重计算方法PRec |
3.3 本章小结 |
4 基于混合内存的并行重计算方法的实现 |
4.1 离线分析 |
4.2 在线容错 |
4.3 并行重计算方法中的关键函数 |
4.4 小型实例 |
4.5 本章小结 |
5 性能测试与结果分析 |
5.1 测试环境 |
5.2 离线分析结果 |
5.3 在线容错性能对比测试 |
5.4 本章小结 |
6 总结与展望 |
致谢 |
参考文献 |
(3)基于MPI的数据融合并行化容错技术研究(论文提纲范文)
1 引言 |
2 基于MPI的容错技术的研究进展 |
2.1 回卷恢复 |
2.2 副本冗余 |
3 数据融合系统的并行容错分析 |
3.1 数据融合系统的结构特点 |
3.2 数据融合系统中引入并行容错架构分析 |
4 基于任务冗余的MPI并行架构设计的实现 |
5 仿真验证与分析 |
6 结语 |
(4)一种在复杂环境中支持容错的高性能规约框架(论文提纲范文)
1 分布式规约框架 |
2 基于任务并行的计算模式 |
3 运行时容错 |
4 实验与分析 |
4.1 理想环境中性能对比 |
4.2 受控复杂环境中性能对比 |
4.3 真实复杂环境中性能对比 |
4.4 Master端负载测试 |
4.5 容错实验 |
5 结论 |
(5)以加速器为中心的异构编程模型关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 异构系统与MIC加速器 |
1.1.2 面临的技术挑战 |
1.2 相关工作 |
1.2.1 异构系统编程模型相关研究 |
1.2.2 异构系统性能优化相关研究 |
1.2.3 异构系统容错技术相关研究 |
1.3 研究内容 |
1.3.1 以加速器为中心的异构编程模 |
1.3.2 以加速器为中心的异构性能优化研究 |
1.3.3 CPU-MIC系统容错技术研究 |
1.3.4 Hybrid-LU分解的设计与优化实现 |
1.4 主要创新 |
1.5 论文组织 |
第二章 以加速器为中心的编程模型研究 |
2.1 以加速器为中心编程问题的提出 |
2.1.1 PCIe性能瓶颈 |
2.1.2 加速器的内存越来越大 |
2.1.3 MIC作为独立计算单元使用 |
2.1.4 问题描述与求解思路 |
2.2 模型定义 |
2.2.1 硬件抽象模型 |
2.2.2 编程模型 |
2.3 编程接口 |
2.3.1 任务卸载接口 |
2.3.2 MPI通信接口 |
2.4 CPU-MIC系统实现 |
2.4.1 运行时系统与MPSS软件栈 |
2.4.2 运行时系统结构组成 |
2.5 编程案例 |
2.6 测试 |
2.6.1 实验平台 |
2.6.2 微benchmark测试 |
2.6.3 应用程序性能 |
2.7 本章小结 |
第三章 以加速器为中心的异构性能优化研究 |
3.1 问题提出 |
3.2 性能模型理论基础 |
3.3 异构计算任务分解 |
3.3.1 CPU计算受限和MIC计算受限 |
3.3.2 基于性能模型的任务划分方法 |
3.4 基于DAG模型的任务调度算法 |
3.4.1 DAG模型 |
3.4.2 依赖关系分析 |
3.4.3 以加速器为中心的调度算法 |
3.4.4 基于资源和时间划分的运行时系统优化设计 |
3.5 实验验证 |
3.6 本章小结 |
第四章 基于内存双备份的异构系统容错技术研究 |
4.1 问题背景 |
4.1.1 大规模异构系统可靠性问题 |
4.1.2 大规模异构系统程序运行特征分析 |
4.1.3 问题提出 |
4.2 基于内存双备份的异构容错 |
4.2.1 内存双备份技术 |
4.2.2 统一接口设计 |
4.2.3 CPU为主MIC为辅的运行模式 |
4.2.4 CPU为辅MIC为主的运行模式 |
4.2.5 系统可靠性分析 |
4.3 容错优化 |
4.3.1 检查点文件异步并行保存 |
4.3.2 故障结点对位替换 |
4.4 实验验证 |
4.4.1 实验环境 |
4.4.2 benchmark测试 |
4.4.3 真实应用测试 |
4.5 本章小结 |
第五章 以加速器为中心的异构LU分解实现与优化 |
5.1 LU分解算法分析 |
5.1.1 算法基础 |
5.1.2 并行实现 |
5.2 Hybrid LU分解算法实现与优化 |
5.2.1 基本实现 |
5.2.2 优化实现 |
5.3 高效kernel实现 |
5.3.1 MIC上本地DGEMM |
5.3.2 行交换 |
5.3.3 矩阵分块拷贝 |
5.4 实验验证 |
5.4.1 实验环境 |
5.4.2 优化效果 |
5.4.3 单节点测试 |
5.4.4 多节点测试 |
5.5 本章小结 |
第六章 结论与展望 |
6.1 论文工作总结 |
6.2 课题研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(6)片上互连网络容错关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 多核时代的到来 |
1.1.2 片上互连网络的提出 |
1.1.3 片上网络的编程模型 |
1.1.4 片上网络的容错 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 课题的研究意义和目标 |
1.4 主要研究内容 |
1.4.1 基于区域洪水的实时容错路由算法 |
1.4.2 高效的容错片上网络路由器设计 |
1.5 论文的组织结构 |
第二章 片上互连网络 |
2.1 片上网络基础知识 |
2.1.1 网络拓扑结构 |
2.1.2 路由算法 |
2.1.3 流控机制 |
2.2 路由器的微体系结构 |
2.2.1 路由计算单元 |
2.2.2 虚拟通道分配单元 |
2.2.3 交叉开关分配单元 |
2.2.4 交叉开关单元 |
2.2.5 路由器的流水段及优化策略 |
2.3 模拟工具以及测试方法 |
2.3.1 booksim2.0 模拟器 |
2.3.2 硬件评估工具 |
2.4 本章总结 |
第三章 基于区域洪水路由的实时容错路由算法 |
3.1 引言 |
3.2 容错MPI-like通信协议 |
3.2.1 基本的MPI-like通信协议 |
3.2.2 容错通信协议 |
3.2.3 寻找无错路由消息包的触发 |
3.3 通信体系结构 |
3.3.1 NoC体系结构 |
3.3.2 网络接口层的设计 |
3.4 容错路由算法 |
3.4.1 区域洪水路由算法 |
3.4.2 特殊情况下的路由重配置 |
3.5 评估 |
3.5.1 性能评估 |
3.5.2 容错评估 |
3.5.3 面积和功耗开销评估 |
3.6 总结 |
第四章 高效的容错片上网络路由器设计 |
4.1 引言 |
4.2 可靠的片上网络路由器设计 |
4.2.1 双路由策略容忍RC错误 |
4.2.2 VA的容错设计 |
4.2.3 SA的容错设计 |
4.2.4 双旁路机制容忍交叉开关错误 |
4.3 性能分析 |
4.3.1 饱和吞吐率的比较 |
4.3.2 额外延迟比较 |
4.4 可靠性评估 |
4.4.1 硬件开销分析 |
4.4.2 利用SPF进行可靠性比较 |
4.5 总结 |
第五章 结束语 |
5.1 工作总结 |
5.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(7)面向分布式集群计算的容错技术研究与设计(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究内容 |
1.3 本文工作 |
1.4 本文结构 |
第二章 基本概念和相关技术 |
2.1 常见的故障错误模型和容错策略 |
2.1.1 故障错误类型 |
2.1.2 基本容错策略 |
2.1.3 活性容错和主动性容错 |
2.1.4 常用的容错工具 |
2.2 分布式系统中异构编程模型 |
2.3 四种主流实时分布式处理系统容错对比 |
2.4 CLAIMS容错系统中相关技术 |
2.5 本章小结 |
第三章 基于CLAIMS系统容错模块设计与实现 |
3.1 CLAIMS系统概况 |
3.2 CLAIMS容错系统底层存储及故障检测机制设计 |
3.2.1 容错存储系统设计 |
3.2.2 自适应动态心跳检测机制设计 |
3.3 QoS在CLAIMS系统容错中应用 |
3.4 CLAIMS容错系统的编程模型设计 |
3.4.1 编程协议工具选择 |
3.4.2 编程框架与组件设计 |
3.5 本章小结 |
第四章 基于动态规划的最优检查点设置 |
4.1 CLAIMS容错中检查点着陆选择策略 |
4.1.1 CLAIMS中基本算子及分类 |
4.1.2 CLAIMS中虚拟master结构下的任务执行 |
4.2 动态检查点消耗模型及算法设计 |
4.3 本章小结 |
第五章 容错系统设计相关实验 |
5.1 实验设置 |
5.2 数据说明 |
5.3 动态负载变化对系统容错影响 |
5.4 实验总结 |
5.5 本章小结 |
第六章 总结与展望 |
参考文献 |
致谢 |
发表论文和科研情况 |
(8)MPI环境下多副本容错技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 并行计算概述 |
1.1.2 研究现状 |
1.1.3 研究目的和意义 |
1.2 本文的主要工作 |
1.3 论文组织结构 |
第二章 相关研究 |
2.1 故障检测 |
2.1.1 检测协议 |
2.1.1.1 “推”协议和“拉”协议 |
2.1.1.2 gossip协议 |
2.1.2 检测器结构 |
2.2 容错技术 |
2.2.1 检查点/回滚技术 |
2.2.2 冗余技术 |
2.2.3 现有容错技术小结 |
2.3 本章小结 |
第三章 R-MPI的系统模型 |
3.1 问题描述 |
3.2 系统模型 |
3.2.1 符号/名称描述 |
3.2.2 故障模型 |
3.2.3 系统结构模型 |
3.2.4 消息交互模型 |
3.3 本章小结 |
第四章 R-MPI冗余容错设计 |
4.1 冗余系统发生故障的概率分析 |
4.1.1 静态冗余系统的故障概率分析 |
4.1.2 动态冗余系统的故障概率分析 |
4.2 R-MPI的冗余容错协议 |
4.2.1 逻辑组的创建 |
4.2.2 过滤器的设计 |
4.2.3 无节点失效时的容错协议 |
4.2.4 有节点失效时的容错协议 |
4.2.4.1 节点失效的检测 |
4.2.4.2 失效节点退出逻辑组 |
4.2.4.3 新节点加入逻辑组 |
4.3 R-MPI冗余容错策略小结 |
4.4 本章小结 |
第五章 系统设计与实现 |
5.1 系统概述 |
5.2 系统设计 |
5.2.1 R-MPI总控模块的设计 |
5.2.2 R-MPI控制模块的设计 |
5.2.3 R-MPI监控模块的设计 |
5.2.4 R-MPI协调模块的设计 |
5.2.5 MPI接口函数设计 |
5.2.6 可配置冗余的设计 |
5.3 系统实现 |
5.3.1 总控模块的实现 |
5.3.2 控制模块的实现 |
5.3.3 监控模块的实现 |
5.3.4 协调模块的实现 |
5.3.5 MPI接口函数的实现 |
5.4 本章小结 |
第六章 实验评估与分析 |
6.1 实验环境 |
6.2 实验方法 |
6.2.1 原型系统实验 |
6.2.2 系统仿真实验 |
6.3 实验结果以及分析 |
6.3.1 原型系统实验 |
6.3.1.1 效率对比实验 |
6.3.1.2 容错能力实验 |
6.3.1.3 有效消息占比 |
6.3.2 大规模仿真实验 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 论文总结 |
7.2 未来工作 |
参考文献 |
致谢 |
(9)基于MPI的高性能云计算平台的优化与存储系统研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 HDFS和HBase的相关研究 |
1.2.2 基于MPI的多层容错高性能计算平台 |
1.2.3 并行程序中的任务分配算法 |
1.3 研究意义及研究内容 |
1.3.1 本文的研究意义 |
1.3.2 本文的研究内容 |
1.4 论文的组织结构 |
第2章 MPI高性能平台的优化关键技术研究 |
2.1 任务分配算法的研究 |
2.1.1 适用于LilyTask计算模型的WCP算法 |
2.1.2 改进的WCP算法 |
2.2 改进的计算依赖定义方式 |
2.3 存储系统关键技术 |
2.4 MPI及进程间通信技术 |
2.5 本章小结 |
第3章 原型系统设计与实现 |
3.1 系统整体结构介绍 |
3.2 计算依赖定义程序的实现 |
3.3 任务调度模块的实现 |
3.4 任务执行模块的实现 |
3.5 任务间通信的优化 |
3.6 容错模块的设计与实现 |
3.6.1 任务调度模块的容错处理 |
3.6.2 任务执行模块的容错处理 |
3.7 本章小结 |
第4章 WCP静态任务分配算法的实验分析 |
4.1 实验的环境配置 |
4.2 测试方法 |
4.3 实验结果及分析 |
4.4 本章小结 |
第5章 并行查询比对系统的改进与测试 |
5.1 存储系统的改进 |
5.1.1 改进前的存储系统介绍 |
5.1.2 改进后的存储系统介绍 |
5.2 系统整体架构 |
5.3 系统运行流程 |
5.4 系统实现 |
5.4.1 系统代码结构 |
5.4.2 容错模块的实现 |
5.4.3 数据导入模块的设计 |
5.4.4 Hive的SQL查询优化 |
5.5 系统应用与测试 |
5.5.1 测试环境 |
5.5.2 测试方法 |
5.5.3 测试结果 |
5.6 本章小结 |
第6章 总结与展望 |
6.1 论文总结 |
6.2 工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间的研究成果 |
(10)面向CFD并行应用框架的容错技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 高性能计算机发展 |
1.1.2 CFD对高性能计算的需求 |
1.1.3 高性能计算面临的可靠性问题 |
1.1.4 面向CFD领域的并行应用开发框架发展现状 |
1.1.5 面向领域框架的容错技术 |
1.2 基本概念与相关工作 |
1.2.1 CFD并行应用软件框架相关工作 |
1.2.2 容错的基本概念 |
1.2.3 面向硬件故障的软件容错方法研究现状 |
1.3 研究内容 |
1.3.1 硬件故障在CFD并行应用中的传播行为分析 |
1.3.2 面向CFD并行应用软件框架的容错体系设计 |
1.3.3 基于故障传播分析的应用框架容错优化方法 |
1.4 主要创新 |
1.5 论文组织 |
第二章 硬件故障在CFD并行应用中的传播行为分析 |
2.1 硬件故障在并行程序中传播行为研究现状 |
2.1.1 基于概率的方法 |
2.1.2 基于模型的方法 |
2.2 一种新的并行程序建模方法——状态变迁图 (STG) |
2.2.1 基本定义 |
2.2.2 交互 (Interaction) 抽象 |
2.2.3 行为 (Behaviour) 抽象 |
2.2.4 基本串行程序的抽象建模 |
2.2.5 并行通信的抽象建模 |
2.3 基于STG的硬件故障传播行为分析 |
2.3.1 硬件故障在STG中的表示 |
2.3.2 数据流生错误在STG中的传播分析 |
2.3.3 控制流生错误在STG中的传播分析 |
2.3.4 在STG中的并行错误传播分析 |
2.4 基于CFD应用特征的错误传播行为 |
2.4.1 连续CFD模型的错误传播基础 |
2.4.2 基于离散CFD模型的错误传播基础 |
2.4.3 基于统一模板的CFD应用错误传播行为分析 |
2.5 本章小结 |
第三章 面向CFD并行应用框架的容错设计 |
3.1 CFD并行应用容错框架 |
3.1.1 CFD并行应用框架 |
3.1.2 面向CFD并行应用框架的容错需求和基础 |
3.1.3 面向CFD并行应用框架的容错架构 |
3.2 面向CFD并行应用的同步回滚方法 |
3.2.1 基本思想 |
3.2.2 同步checkpoint/restart回滚机制 |
3.2.3 基于FT-MPI的同步回滚设计与实现 |
3.2.4 实验验证与分析 |
3.3 面向CFD并行应用的异步回滚方法 |
3.3.1 基本思想 |
3.3.2 应用框架下的消息日志技术 |
3.3.3 基于用户级消息日志的同步回滚设计与实现 |
3.3.4 实验验证与分析 |
3.4 本章小结 |
第四章 面向模板计算的软错误检测方法——GS-DMR |
4.1 问题提出 |
4.1.1 模板计算与LBM |
4.1.2 双模冗余检错 (DMR) |
4.2 基本思想 |
4.2.1 网格采样GS-DMR |
4.2.2 错误在LBM网格上的传播模式 |
4.2.3 网格采样方法 |
4.2.4 容错框架 |
4.3 设计与优化 |
4.3.1 检测盲区现象 |
4.3.2 检错盲区的解决方案 |
4.3.3 容错参数优化 |
4.4 实验 |
4.4.1 实验平台 |
4.4.2 测试用例 |
4.4.3 实验方法 |
4.4.4 实验结果与分析 |
4.5 本章小结 |
第五章 基于异步流水的检查点I/O优化方法——AP-IO |
5.1 动机 |
5.1.1 基于buffer缓冲的文件I/O |
5.1.2 CFD模拟过程中的快照输出模式 |
5.1.3 传统写文件优化 |
5.2 基本思想 |
5.2.1 AP-IO基本思想 |
5.2.2 可用隐藏时间PST分析 |
5.3 AP-IO框架设计 |
5.3.1 编程模型 |
5.3.2 基本架构 |
5.3.3 计算段流水调度优化 |
5.4 AP-IO实现 |
5.4.1 编译支承层 |
5.4.2 AP-IO库 |
5.5 实验 |
5.5.1 测试用例 |
5.5.2 实验方法 |
5.5.3 实验结果与分析 |
5.6 本章小结 |
第六章 结束语 |
6.1 论文工作总结 |
6.2 课题研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
四、MPI容错问题的研究及实现(论文参考文献)
- [1]基于故障数据预处理的超算系统容错关键技术研究[D]. 黄璜. 国防科技大学, 2019(01)
- [2]面向混合内存的并行重计算方法研究[D]. 李子怡. 华中科技大学, 2019(03)
- [3]基于MPI的数据融合并行化容错技术研究[J]. 张路青. 舰船电子工程, 2018(08)
- [4]一种在复杂环境中支持容错的高性能规约框架[J]. 李超,赵长海,晏海华,刘超,文佳敏,王增波. 北京航空航天大学学报, 2018(10)
- [5]以加速器为中心的异构编程模型关键技术研究[D]. 陈呈. 国防科技大学, 2017(02)
- [6]片上互连网络容错关键技术研究[D]. 王璐. 国防科学技术大学, 2015(04)
- [7]面向分布式集群计算的容错技术研究与设计[D]. 张新洲. 华东师范大学, 2015(04)
- [8]MPI环境下多副本容错技术研究[D]. 吴方军. 东南大学, 2015(08)
- [9]基于MPI的高性能云计算平台的优化与存储系统研究[D]. 朱林. 武汉理工大学, 2015(01)
- [10]面向CFD并行应用框架的容错技术研究[D]. 任小广. 国防科学技术大学, 2014(02)