近日,BoCloud博云容器云产品 BeyondContainer 发布最新 V3.3版本。版本新增智能算力引擎功能,实现对高性能计算、大数据、人工智能等场景的容器支撑能力,并支持 Kubernetes 1.21 版本管理,增强了平台的存储管理和安全防护能力。
随着 Kubernetes 作为 AI 、大数据和高性能批量计算的下一代基础设施的趋势逐渐清晰,越来越多的企业对 Kubernetes 在深度学习、科学计算、高性能渲染等方面提出了更高的要求。
原生 Kubernetes 作为通用的容器调度方案,仍与高性能计算场景下业务调度诉求存在一定差距,主要体现在:
- 缺少完善作业视角调度能力
- 缺少GPU资源共享切分能力
- 缺少业务应用场景技术基因
- 缺少全面资源隔离管控方案
- 缺少资源弹性按需扩容能力
解决方案
智能算力引擎实现了灵活的作业调度算法、GPU多维调度能力、基于MPI/Spark类作业、实现高性能的容器网络、用户资源深度隔离、资源弹性按需扩容等能力,帮助客户应对调度任务波峰波谷明显、爆发性强、响应要求高、可用性要求高的情况。
智能算力引擎整体由三部分组成:
-
业务层:由业务软件来调用智能算力引擎的接口,达到作业任务的批量计算和编排调度的管理要求;
-
调度层:智能算力引擎采用volcano来提供整体的调度、运算等服务能力;
-
资源层:由大量物理机或虚拟机为的企业级K8S集群提供为计算赋能。
博云智能算力引擎解决方案,基于容器技术实现了高性能计算场景的统一调度管理平台,方案为上层各类超算业务提供了大数据、人工智能及云原生作业编排等技术服务。
加强存储管理能力
本版实现了可视化关联存储资源,解决了过去以命令方式关联存储复杂且繁琐的问题,让平台存储管理更简单。同时,新增可视化创建 StorageClass 功能,实现存储资源的动态供给。目前,支持 NFS、Cephrbd、CephFS、Carina(新增)等多种存储类型。
本次版本升级,不光在存储管理的操作和支持类型上做了提升,并且在存储管理的能力上也做了进一步增强。在原有对存储的查看、扩容等基础能力之上,平台增加了磁盘限额、快照、克隆、快照恢复、监控告警等高级存储管理功能。
图 存储管理列表
图 新建存储表单
增加智能算力引擎
提供底层资源调度算力,为作业任务赋予动态可执行资源,针对于高性能计算、大数据、人工智能等场景,释放研发对底层的性能、调优的工作量,提高对业务的专注性,为数据计算提供强有力的底层支撑能力。
-
部署集群时支持安装算力引擎
-
队列管理,查看队列包含的作业总数、资源用量、我的作业以及作业排队情况
-
作业管理,支持批处理作业、MPI作业、TF作业;支持作业的添加、修改、查询、查看、删除等;批处理作业支持串行运行和并行运行;支持配置作业优先级、尝试重启次数。
图 我的作业
图 作业列表
新增平台安全管理能力
为了保障容器云平台运行的安全性,平台全新增加了集群安全管理能力,包括 CIS 安全扫描、权限扫描、漏洞扫描三类安全监测功能,支持按天、周、月频率配置扫描策略;对扫描报告提供下载导出功能;对扫描报告中发现的安全漏洞提供修复解决方案,提升平台安全能力。
图 集群扫描报告列表
图 集群扫描策略列表
新增多容器能力
通过平台多容器发布的能力,解决过去通过界面只能发布同版本多实例,而无法发布多版本多实例的场景,满足用户一次发布多版本的服务实例需求。
同时,在标准容器基础上,增加对 init 容器的支持,实现在 Pod 内的应用容器启动之前,运行应用镜像中不存在的工具和脚本。
图 多容器发布
图 init容器
平台易用性提升
优化资源使用
当 Master 节点部署在物理机/高配虚拟机时,极大的浪费了主机资源。通过将 Master 节点作为 Node 节点使用,最大化发挥 Master 节点的主机资源,帮助用户节省算力资源,提高资源使用效率。
优化服务发布
过去在服务发布后,还需要创建访问控制(Service和ingress),实现集群内外互访。优化后,服务发布时一次性完成发布工作和访问控制的配置,提升服务发布易用性。
优化流水线
平台流水线支持 Windows 节点的构建功能,提升了平台持续集成能力。另外,通过流水线高可用的支持,避免原来因流水线单点故障降低平台可用性,提升平台运行的可靠性能力。
图 应用发布时选择访问设置
图 流水线构建选择windows节点
关于博云容器云