续跑和容错¶

强化学习任务涉及到多模型的计算和交互，随着模型规模的增大和计算资源的增加，由于依赖的软件栈和硬件环境都有可能出现偶发异常，会导致任务停止运行。为了保障被中断的任务可以恢复状态进行自动续跑，ChatLearn提供了续跑的功能。

配置 ChatLearn 续跑¶

您可以通过配置runtime_args.enable_resume_training=true来打开续跑功能。ChatLearn会将相关信息及模型保存到runtime_args.output_dir中。

当任务中断后，可以直接运行相同命令续跑。

当前该开关已经默认开启