Stable Diffusion是一个用于将文本转换为图像的深度学习模型,通过输入用户提示词来生成高质量、逼真的图像。本文将展示在AIOS平台上部署Stable Diffusion模型的示例,以及与本地部署效果的对比。
运行环境
Stable Diffusion WebUI:1.5.1
Python:3.11.8
torch:2.1.2+cu121
Xformers:0.0.23
GPU:NVIDIA GeForce RTX 4090 NVIDIA
下载模型:sd3_medium.safetensors
准备工作
将模型文件上传到平台的文件管理,再将模型保存到模型仓库,以便创建推理任务。

创建在线推理任务,根据模型需求自定义镜像,确保具备必要的PyTorch框架和依赖。

像Stable Diffusion这类图像生成模型的要求非常高,因为需要在庞大的数据集上进行大规模的矩阵计算,算力越强大,生成的图像效果越好。针对这一需求,AIOS平台可以对推理任务分配足够的算力和资源。

立即运行推理任务,启动速度可达秒级。
算力调度与性能监控
AIOS平台根据模型的计算需求,智能调度CPU/GPU资源,优化模型的运行效率和响应速度。
如图所示,在本地运行时,模型启动时间要17.5s,而在AIOS平台上,模型启动时间只要9s,时间缩短了将近50%。

本地运行的响应速度

AIOS平台运行的响应速度
同时,在AIOS平台将GPU虚拟化的情况下,运行效果与本地整卡运行的效果相比更佳。如图3和图4所示,输入相同的提示词,本地生成对应图片要19s,而在AIOS平台上生成图片只需要13s,每秒迭代次数更高。

本地运行速度

AIOS平台上运行速度
并且平台的性能监控工具还可以实时监控性能指标。
成果展示
访问WebUI地址,在Prompt框中输入提示词“winne the pooh wearing a christmas hat, walking through the street while it's snowing, close up, 4k, artstation, realistic”,点击“Generate”即可获得相应图片。

图生图功能:上传一张图片,输入提示词,可获得新的图片。

还可以使用API接口调用模型。在推理任务中获取API接口,运行Python脚本,获得相应图片。
脚本代码:
import requests
import base64
url = " http://172.28.100.21:80/aios/serve-3a2181fe5025d7c154b367ee24085585/"
payload = {
"prompt": " Impressionist painting Dreamscape starry night painting by van gogh . Surreal, ethereal, dreamy, mysterious, fantasy, highly detailed . Loose brushwork, vibrant color, light and shadow play, captures feeling over form",
"steps": 5
}
response = requests.post(url=f'{url}/sdAPI" target="_blank">api/v1/txt2img', json=payload)
r = response.json()
with open("out.png", 'wb') as f:
f.write(base64.b64decode(r['images'][0]))
得到图片效果
亮点:模型市场模块
AIOS具备模型市场模块,可以将模型仓库的模型发布到模型市场中,不仅可以直接部署模型,还便于团队成员之间共享模型,提高协作效率。
AIOS平台为Stable Diffusion模型提供了一个强大的运行和扩展环境。平台的容器化技术为模型提供了一个既安全又独立的运行空间,确保了模型运行所需的依赖和配置的一致性,从而避免了因环境差异造成的影响;同时,通过与本地运行效果的对比,可以发现平台对于资源的精细管理,能够根据模型的实际需求动态分配资源,提高资源利用率和运行效率,这种灵活性和智能性也能适应各种规模和复杂度的模型部署,满足不同用户的需求。
总之,AIOS平台不仅提高了模型的运行效率,还增强了模型部署的灵活性和易操作性,为AI应用的稳定运行提供了有力支持,为人工智能技术的广泛应用和深入发展提供了坚实基础。
相关产品介绍
AIOS是博云专为AI应用推出的企业级一站式人工智能操作系统,屏蔽底层异构算力差异,面向大规模分布式计算,在计算、网络、存储、调度等基础能力全面增强,为AI应用提供稳定、高效、极简的底层支撑能力。同时AIOS支持主流的分布式AI深度学习框架,可满足算法、模型、组件的可视化开发,覆盖数据标注、算法开发、模型训练、模型推理的全生命周期。AIOS可以帮助企业和开发者自主构建人工智能业务,助力企业保持行业领先能力。

强大的底层掌控能力
AIOS的核心在于其强大的ACE算力引擎,支持高达5000个节点的稳定调度,以及异构GPU池化管理,确保了多租户算力的强隔离和全方位监控。
功能特性
覆盖深度学习业务全流程,加快模型从研发到上线速度。
深度学习训练任务通常包含多个阶段,从数据采集、算法开发、模型训练、超参调整、模型管理与部署等,AIOS提供全流程支持。
快速部署计算环境并启动训练任务,提高研发效率
深度学习框架和模型众多,依赖各不相同,对开发环境的要求比较复杂, AIOS可以实现资源和工作环境的隔离及快速部署。
支持数据集统一管理,提升数据标注效率
数据集种类众多,数据标注工具不一。AIOS支持多种标注场景,覆盖文本、图片、音频和视频标注,支持人工标注、协同标注、智能标注等多种业务场景,极大提升数据标注效率。
支持多种建模方式,方便算法工程师快速构建复杂模型
支持交互式建模,内置Jupyter、VScode和Pycharm建模工具,方便算法工程师对代码进行调试;支持通过拖拉拽方式实现可视化建模,平台内置多种算法组件,极大降低建模门槛。
训练过程可视化,掌握训练进度及质量
深度学习模型训练周期较长,训练结束后才发现模型质量问题。借助AIOS,可以实现对训练过程实时监控并可视化训练过程,实时观测损失函数值的日志、训练误差或测试误差等。
动态分配 GPU 资源,充分利用资源,提高资源利用率
支持 GPU 资源细颗粒度调度能力,最低可划分1%资源。同时支持众多国产GPU算力。单一计算集群可以统一管理异构的多种GPU算力。
全面的集群监控管理,实时掌握 CPU/GPU 资源使用情况及运行状态
实时监控集群的使用情况,合理安排训练任务;及时发现运行中的问题,提高集群的可靠性。
方案优势概览
