随着科技的发展,人工智能已被广泛应用于各个领域,深刻改变着人类的生产生活方式。但人工智能的发展也面临着人才总量大,杰出人才少;应用层面强,硬件算法弱;知识生产集中在高校,产学研转化率低等核心问题。
面对这些问题,西安市联手清华大学姚期智及其团队,共同创建新型研发机构——交叉信息核心技术研究院(以下简称交叉核心院),共同打造政、产、学、研、金结合的新一代人工智能开放创新平台。
除了产业集群培育之外,交叉核心院希望以创新的形式培养一流拔尖AI人才队伍。目前交叉核心院与西安本地五所重点高校合作,共建“交叉信息产学研协同创新人才培养平台”,未来将以交叉核心院的前沿基础研究课题为承载,共同培养出世界一流的AI人才。有了优秀的师资队伍,强大的科研力量,那么,还需要一个先进的AI算力平台来支撑教学和科研。
趋动科技猎户座(OrionX)AI算力资源池化解决方案,为交叉信息核心技术研究院带来创新的资源分配和管理方案:
①引入软件定义GPU概念,将OrionX软件部署在多台GPU服务器上,通过网络互联,为交叉信息核心院构建一个GPU资源池化层;
②北向,为AI应用提供虚拟GPU(OrionX vGPU);
③南向,管理物理 GPU,并将上层的 OrionX vGPU 对应到物理GPU。并为交叉信息核心院设计K8S+OrionX的融合方案,实现通过K8S统一管理GPU资源。
> 支持训练、推理、教学、科研等各种AI应用场景
> 采用GPU资源池方式调度资源,实现快速分配/回 收GPU资源,灵活按需调度GPU资源,动态调整
> 让用户集中精力在AI应用
> 使用OrionX后,相比直接使用物理GPU,性能差距<2%
> 与K8S完美集成,单一用户界面即可调度CPU和GPU资源
> 统一监控,管理GPU资源
人工智能是一个面对未来的学科,有非常大的交叉性,具有连接范围广,应用程度深的特点。因此,能够把不同的学科彼此交叉,相互交流,在技术上跟应用上能够充分合作,这件事情对人工智能非常重要。交叉核心院落户西安,可以圆满的解决这个问题。西安拥有诸多一流大学,人才队伍强大,学习气氛高,有利于开展更广泛的政、产、学、研、金合作互补,把人工智能学科推向一个新的方向。
创新人才是人工智能的核心要素。交叉核心院与西安本地重点高校合作,形成流动、发展的人才培养模式,建设基础人才“蓄水池”,为西安的AI人才梯队培养建立长效机制。
交叉核心院AI算力平台引入趋动科技猎户座(OrionX)解决方案,把传统粗放式的硬件GPU堆砌,变成柔性的软件定义GPU,实现弹性分配。猎户座(OrionX)结合K8S帮助交叉核心院把100+台服务器总共超过200片GPU横向打通,形成统一的GPU资源池,教学、科研全场景覆盖,满足任意大小的算力资源申请,满足不同AI应用实现差异化需求。教师/学生可以采用Jupyter自助申请资源,动态分配与灵活调度,满足人手一个真实实验环境的需求。
原生K8S可以调度虚拟化的CPU、内存、存储、I/O等资源。
GPU虚拟化由猎户座(OrionX)软件实现。OrionX可以对物理GPU进行细颗粒度切分,从显存、算力两个维度实现切分。显存颗粒度细化到1MB,算力颗粒度细化到每个GPU卡1%算力。切分之后的虚拟GPU实现完全隔离,互不干扰。
不同于其他开源方案通过从业务层面对资源大小进行辅助控制,OrionX是基于底层技术的控制,作用于CUDA以及更加底层的位置,通过开放的API调用方式,直接作用于GPU的驱动层面。因此可以做到更精细,隔离性更好。
除了切分外,OrionX还可以实现GPU跨机聚合,实现多机多卡聚合成单机多卡,特别适合于大型科研任务,瞬间就能把零散、空置的算力聚合起来,发挥应有的效能。
从显存、算力2个维度将物理GPU切片为任意大小的虚拟GPU,供多个学生同时使用,互不干扰,充分利用资源,节约成本。
通过与原生K8S的结合,实现对整个AI实训平台的整体管理和优化,提高整个AI实训平台GPU的利用效率,提高教学效率。
· 虚拟GPU资源随AI应用启动时分配,随应用程序退出时自动释放。
· 虚拟GPU资源动态分配和动态释放过程无需重启容器。
自助式服务,简化管理,简化运维,师生只需关注自己专业,不用在意底层。
支Nvidia旗下所有主流GPU卡,有效降低GPU的管理复杂度和成本。
“我们的科研实验环境中部署了OrionX,该产品能够灵活调度GPU资源。在同一平台上,可以实现资源切分与聚合,动态调整、弹性伸缩。节省了大量人力成本及时间成本。这与创新、弹性、灵活、高效的理念是一致的。”
——交叉信息核心技术研究院 尹伟老师