传统人工智能、大数据、高性能计算应用,作业任务中存在资源管理复杂、作业调度低效、团队协同困难、运营/维护/安全等难题。针对传统 AI 应用支撑管理的难题,博云推出《 AI 应用支撑解决方案》,基于云原生技术实现作业效率提升、计算时长缩短、资源效率提高、资源隔离健全、安全风险降低等作用,让用户随时掌握训练情况及摆脱繁琐的运维工作,专注于核心业务的研发。
01 传统 AI 应用面临的困境
资源管理复杂:传统 AI 模型训练时,要准备算力,环境搭建,资源整合动作。日常作业运行需要标准的环境、统一的流程和资源调度机制。大规模作业受限于资源不统一、准备周期长、缺乏观测等问题。
作业调度低效:由于标准不规范,环境依赖复杂,造成算法无法快速部署。算法运行周期无法观测,致使处理异常十分困难。算法框架单一,多种框架环境准备和调试困难。作业效率不高,自动化程度低,且多作业资源分配协调差。
团队协同困难:作业中各个部门关注点不一致,目标不够明确,需要全面统一。工作协调困难,算法工程师不关心算力的分配调度与整合。运维人员既关心环境准备就绪,更关心运行效果和故障排查。导致算法验证周期长、效率低、质量差,无法响应业务需求。
运营/维护/安全:无法直观查看算法作业结果,执行不便捷,操作不规范。资源分配不合理,存在抢占、闲置、利用率低等情况。日志追踪不够简易,格式不统一排错时无法整体对比。从业务的运行、作业、资源、运维等维度难以降本提效。
02 AI应用支撑解决方案
博云 AI 应用支撑平台 BCC ( Bocloud Compute Capability Platform ) 面向人工智能、大数据、 高性能计算等应用上容器场景提供应用支撑服务, 实现 CPU/GPU 算力调度, 兼容 linux/windows 应用。核心功能包括程序快速打包、多种作业管理、GPU算力管理、Windows调度、镜像仓库管理、数据服务管理、在线应用调试。
覆盖作业任务全周期, 提供事前准备、 事中调度、 事后展示的能力,让用户随时掌握模型的试验、训练、发布情况,有效降低用户在部署、调试、运维等环节的繁琐工作,专注于业务核心的开发及运维。
03 经典案例分享
案例一:某设计研究院仿真应用模型训练
某设计研究院主要从事多学科综合性研究,是我国现代化科技设计研究的重要基地。其在关键技术领域的研究水平和相关设备的研制能力处于国内领先地位,有的达到国际先进水平。针对仿真应用统一管理、高频执行、执行隔离、结果挖掘、操作规范、知识沉淀等难题,项目基于其容器云平台解决统一基座问题, 基于博云 AI 应用支撑平台BCC 解决用户仿真应用的实际场景使用问题,降低用户学习成本,强化知识体系沉淀,实现全方位的安全管控。通过建设仿真应用管理平台,用户实现了作业调度自动化、提升了作业效率、降低运维复杂度、加强了数据安全,全面拥抱云原生技术。单作业计算规模突破了原有300核上限,达到2000+核计算能力。
目前,气象部门数据管理存在信息资源碎片化、业务应用条块化、各级系统割裂化等问题,气象数据管理由下至上,实际业务运行时,区和市对系统不熟悉,使用门槛高、限制多。博云 AI 应用支撑解决方案有效整合气象业务网和国省集约化资源池等不同设备资源,实现整体调度,减少资源浪费。同时,针对地方上的深度学习模型快速部署,操作便捷,降低了使用门槛和维护成本,实现气象管理的一体化、标准化、精准化、数据资产化、决策智能化。此外,本方案已实现了卫星数据处理及相关模型运行,同时时序数据、雷达回波外推模型等也在进一步镜像打包容器化当中。针对气象部门常用数据处理及相关模型运行,容器云平台具有高可靠性、易维护、操作便捷、复用简单的优势。
扫码可获取《AI应用支撑解决方案》更多案例介绍↓↓↓↓↓↓