近日,甲子光年主办的2023甲子引力年终盛典在北京顺利闭幕,大会以“致追风赶月的你”为主题,汇聚行业大咖、专家学者、产业高管、投资大咖、科技企业创始人等,分享行业真知灼见,一起“追风赶月”。大会现场发布了「甲子20」榜单,旨在表彰2023年度在科技产业各细分赛道上拥有核心技术实力,并在商业化上取得卓越成绩的优秀科技企业,博云科技荣登「甲子20」2023中国AI算力领域最具商业潜力榜。
中国工程院院士陈晓红曾在媒体采访中表示,“我国在大模型领域拥有良好基础,具有强烈需求,具备广阔市场。近年来,国产大模型加速发展,大模型数量位居世界第一梯队。”
目前行业存在大模型部署代价高、迁移能力不足等广泛问题,大模型训练数据规模巨大,训练和推理的算力需求量大、算力分配复杂、功耗高且端侧推理存在延迟等问题,都限制了AI技术的落地应用。然而不久的将来,云和AI都将成为企业不可或缺的生产力,这一点已经毋庸置疑。
为推进AI算力领域向更智能、更通用的方向发展,应对更加复杂丰富的环境、场景和任务,作为云原生基础软件领导者的博云率先推出了AIOS人工智能操作系统。
AIOS是博云专为AI应用推出的企业级一站式人工智能操作系统,屏蔽底层异构算力差异,面向大规模分布式计算,在计算、网络、存储、调度等基础能力全面增强,为AI应用提供稳定、高效、极简的底层支撑能力。同时AIOS支持主流的分布式AI深度学习框架,可满足算法、模型、组件的可视化开发,覆盖算法开发、数据管理、模型训练、在线推理的全生命周期。AIOS可以帮助企业和开发者自主构建人工智能业务,助力企业保持行业领先能力。
强大的底层掌控能力
AIOS的核心在于其强大的BKE-Turbo算力引擎,支持高达5000个节点的稳定调度,以及异构GPU池化管理,确保了多租户算力的强隔离和全方位监控。
Kubernetes——社区全球贡献TOP10
Volcano——社区全球贡献TOP2
自研组件——自研计算、网络、存储、负载、GPU池化等
万核级并发——支持10000+核作业调度,快速启动和停止
功能特性
覆盖深度学习业务全流程,加快模型从研发到上线速度
深度学习训练任务通常包含多个阶段,从数据处理、算法开发、模型训练、超参调整、模型管理与部署等,AIOS提供全流程支持。
快速部署计算环境并启动训练任务,提高研发效率
深度学习框架和模型众多,依赖各不相同,对开发环境的要求比较复杂, AIOS可以实现资源和工作环境的隔离及快速部署。
支持数据集统一管理,提升数据标注效率
数据集种类众多,数据标注工具不一。AIOS内置多种数据集标注工具,支持人工标注、协同标注、智能标注等多种业务场景,极大提升数据标注效率。
支持多种建模方式,方便算法工程师快速构建复杂模型
支持Jupyter交互式建模,方便算法工程师对代码进行调试;平台内置多种算法组件,支持通过拖拉拽方式实现可视化建模,极大降低建模门槛。
训练过程可视化,掌握训练进度及质量
深度学习模型训练周期较长,训练结束后才发现模型质量问题。借助AIOS,可以实现对训练过程实时监控并可视化训练过程,实时观测损失函数值的日志、训练误差或测试误差等。
动态分配 GPU 资源,充分利用资源,提高资源利用率
支持 GPU 资源细颗粒度调度能力,最低可划分1%资源。同时支持众多国产GPU算力。单一计算集群可以统一管理异构的多种GPU算力。
全面的集群监控管理,实时掌握 CPU/GPU 资源使用情况及运行状态
实时监控集群的使用情况,合理安排训练任务;及时发现运行中的问题,提高集群的可靠性。

方案优势概览

AIOS不只是一个产品,它是博云科技对于更加智能、高效企业数智化未来的承诺。博云科技期待与全球各行各业的合作伙伴共同探索AIOS带来的无限可能。