近日,博云公司旗下的人工智能操作系统AIOS成功完成与海光信息技术股份有限公司(以下简称“海光”)自主研发的人工智能加速卡DCU系列的兼容性认证,并获得了海光合作认证书。此次认证标志着博云AIOS与海光DCU系列及海光3000、5000、7000系列CPU的兼容性良好,为双方进一步合作奠定了坚实基础。
海光DCU产品认证及合作认证书
博云AIOS可覆盖深度学习业务全流程,加快模型从研发到上线速度。深度学习训练任务通常包含多个阶段,从数据处理、算法开发、模型训练、超参调整、模型管理与部署等,AIOS提供全流程支持,是一款集成了高效算法和强大算力管理能力的人工智能操作系统,专注于提升人工智能训练和推理过程中的计算效率和稳定性。AIOS通过优化资源调度和任务分配,实现了多任务并行处理和资源最大化利用,能够广泛适用于智能制造、智慧城市、医疗健康、金融科技等多个领域。
海光作为国内知名的信息技术企业,其自主研发的DCU系列人工智能加速卡在深度学习训练场景中表现优异,具备处理复杂神经网络训练的能力,特别适用于电信、金融、教育、科研、人工智能等重要领域。
通过此次联合测试,博云AIOS与海光DCU系列产品展现出良好的兼容性,双方将在多个领域展开深入合作,共同推动人工智能技术的发展。此次认证的通过,将进一步提升博云在人工智能领域的技术实力,为用户提供更优质的产品和服务。
博云与海光的合作意义重大。双方的合作不仅能够提升各自产品的市场竞争力,还能够为客户带来更多价值。在模型开发、模型训练、模型推理、模型微调、算力调度、异构GPU管理、GPU监控和GPU虚拟化等多个方面,博云与海光将发挥各自优势,助力客户提高数据处理速度、增强系统可靠性安全性、实现业务边界的不断扩展,推动各行业的数智化转型升级。
未来,博云将继续深化与海光的合作,探索更多应用场景,为人工智能技术的发展贡献力量。博云AIOS与海光DCU系列产品的成功认证,将成为双方合作的新起点,共同开创人工智能发展的新局面。
合作方介绍
中科可控GPU服务器采用异构解耦合设计架构,搭载国产处理器和国产加速卡,性能强劲,架构灵活,是PCle扩展密度最高的深度学习训练平台,能够针对不同算法引擎提供性能加速。中科可控国产服务器所采用的CPU具备高性能、高扩展、全生态等特点,同时满足中国安全信息测评中心的评测标准。中科可控国产GPU是基于通用 GPGPU 架构设计的全精度加速卡,应用生态完善,覆盖全精度场景。具备完善的软件栈DTK,迁移成本低,基于 PyTorch、TensorFlow、Transformer 等主流框架实现的代码无需转码,可直接使用,是构建AI 算力和科学计算算力的不二之选。
相关产品介绍
AIOS是博云专为AI应用推出的企业级一站式人工智能操作系统,屏蔽底层异构算力差异,面向大规模分布式计算,在计算、网络、存储、调度等基础能力全面增强,为AI应用提供稳定、高效、极简的底层支撑能力。同时AIOS支持主流的分布式AI深度学习框架,可满足算法、模型、组件的可视化开发,覆盖数据标注、算法开发、模型训练、模型推理的全生命周期。AIOS可以帮助企业和开发者自主构建人工智能业务,助力企业保持行业领先能力

强大的底层掌控能力
AIOS的核心在于其强大的ACE算力引擎,支持高达5000个节点的稳定调度,以及异构GPU池化管理,确保了多租户算力的强隔离和全方位监控。

功能特性
覆盖深度学习业务全流程,加快模型从研发到上线速度。
深度学习训练任务通常包含多个阶段,从数据采集、算法开发、模型训练、超参调整、模型管理与部署等,AIOS提供全流程支持。
快速部署计算环境并启动训练任务,提高研发效率
深度学习框架和模型众多,依赖各不相同,对开发环境的要求比较复杂, AIOS可以实现资源和工作环境的隔离及快速部署。
支持数据集统一管理,提升数据标注效率
数据集种类众多,数据标注工具不一。AIOS支持多种标注场景,覆盖文本、图片、音频和视频标注,支持人工标注、协同标注、智能标注等多种业务场景,极大提升数据标注效率。
支持多种建模方式,方便算法工程师快速构建复杂模型
支持交互式建模,内置Jupyter、VScode和Pycharm建模工具,方便算法工程师对代码进行调试;支持通过拖拉拽方式实现可视化建模,平台内置多种算法组件,极大降低建模门槛。
训练过程可视化,掌握训练进度及质量
深度学习模型训练周期较长,训练结束后才发现模型质量问题。借助AIOS,可以实现对训练过程实时监控并可视化训练过程,实时观测损失函数值的日志、训练误差或测试误差等。
动态分配 GPU 资源,充分利用资源,提高资源利用率
支持 GPU 资源细颗粒度调度能力,最低可划分1%资源。同时支持众多国产GPU算力。单一计算集群可以统一管理异构的多种GPU算力。
全面的集群监控管理,实时掌握 CPU/GPU 资源使用情况及运行状态
实时监控集群的使用情况,合理安排训练任务;及时发现运行中的问题,提高集群的可靠性。
方案优势概览
