
基本信息:
- 专利标题: 一种基于交错执行的深度学习训练作业组合调度系统
- 申请号:CN202411186916.0 申请日:2024-08-28
- 公开(公告)号:CN119166277A 公开(公告)日:2024-12-20
- 发明人: 杨任宇 , 叶天宇 , 姜维翰 , 沃天宇 , 张艺辉
- 申请人: 北京航空航天大学
- 申请人地址: 北京市海淀区学院路37号
- 专利权人: 北京航空航天大学
- 当前专利权人: 北京航空航天大学
- 当前专利权人地址: 北京市海淀区学院路37号
- 代理机构: 北京中创阳光知识产权代理有限责任公司
- 代理人: 尹振启
- 主分类号: G06F9/455
- IPC分类号: G06F9/455 ; G06F9/50 ; G06N20/00
摘要:
本公开提供一种基于交错执行的深度学习训练作业组合调度系统。包括深度学习训练作业控制器、作业组合调度器、作业组交错执行控制器三个组件,以及作业组交错执行的执行器;对于用户提交的深度学习训练作业,系统首先通过训练作业控制器创建Profile任务采集作业的运行时资源使用特征数据并输入作业组合调度器,作业组合调度器根据资源使用特征经过自定义的组合调度算法输出作业组配置的组合结果以及作业组选择节点类型到作业组交错执行控制器,最后由作业组交错执行控制器根据调度结果创建作业组训练任务控制作业组交错执行的执行器进行作业执行。相比单个训练作业独占资源的分布式训练模式,交错执行共享资源的运行机制,能够显著提升作业的执行效率。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F9/00 | 电数字数据处理的控制单元 |
--------G06F9/06 | .应用存入的程序的,即应用处理设备的内部存储来接收程序并保持程序的 |
----------G06F9/22 | ..微控制或微程序装置 |
------------G06F9/455 | ...仿真;软件模拟 |