Stable Diffusion模型在AIOS平台的应用

Stable Diffusion是一个用于将文本转换为图像的深度学习模型，通过输入用户提示词来生成高质量、逼真的图像。本文将展示在 AIOS平台上部署Stable Diffusion模型的示例，以及与本地部署效果的对比。

运行环境

Stable Diffusion WebUI：1.5.1

Python：3.11.8

torch：2.1.2+cu121

Xformers：0.0.23

GPU：NVIDIA GeForce RTX 4090 NVIDIA

下载模型：sd3_medium.safetensors

准备工作

将模型文件上传到平台的文件管理，再将模型保存到模型仓库，以便创建推理任务。

创建在线推理任务，根据模型需求自定义镜像，确保具备必要的PyTorch框架和依赖。

像Stable Diffusion这类图像生成模型的要求非常高，因为需要在庞大的数据集上进行大规模的矩阵计算，算力越强大，生成的图像效果越好。针对这一需求，AIOS平台可以对推理任务分配足够的算力和资源。

立即运行推理任务，启动速度可达秒级。

算力调度与性能监控

AIOS平台根据模型的计算需求，智能调度CPU/GPU资源，优化模型的运行效率和响应速度。

如图所示，在本地运行时，模型启动时间要17.5s，而在AIOS平台上，模型启动时间只要9s，时间缩短了将近50%。

本地运行的响应速度

AIOS平台运行的响应速度

同时，在AIOS平台将GPU虚拟化的情况下，运行效果与本地整卡运行的效果相比更佳。如图3和图4所示，输入相同的提示词，本地生成对应图片要19s，而在AIOS平台上生成图片只需要13s，每秒迭代次数更高。

本地运行速度

AIOS平台上运行速度

并且平台的性能监控工具还可以实时监控性能指标。

成果展示

访问WebUI地址，在Prompt框中输入提示词“winne the pooh wearing a christmas hat, walking through the street while it's snowing, close up, 4k, artstation, realistic”，点击“Generate”即可获得相应图片。

图生图功能：上传一张图片，输入提示词，可获得新的图片。

还可以使用API接口调用模型。在推理任务中获取API接口，运行Python脚本，获得相应图片。

脚本代码：

import requests

import base64

url = " http://172.28.100.21:80/aios/serve-3a2181fe5025d7c154b367ee24085585/"

payload = {

"prompt": " Impressionist painting Dreamscape starry night painting by van gogh . Surreal, ethereal, dreamy, mysterious, fantasy, highly detailed . Loose brushwork, vibrant color, light and shadow play, captures feeling over form",

"steps": 5

}

response = requests.post(url=f'{url}/sdAPI" target="_blank">api/v1/txt2img', json=payload)

r = response.json()

with open("out.png", 'wb') as f:

f.write(base64.b64decode(r['images'][0]))

得到图片效果

亮点：模型市场模块

AIOS具备模型市场模块，可以将模型仓库的模型发布到模型市场中，不仅可以直接部署模型，还便于团队成员之间共享模型，提高协作效率。

AIOS平台为Stable Diffusion模型提供了一个强大的运行和扩展环境。平台的容器化技术为模型提供了一个既安全又独立的运行空间，确保了模型运行所需的依赖和配置的一致性，从而避免了因环境差异造成的影响；同时，通过与本地运行效果的对比，可以发现平台对于资源的精细管理，能够根据模型的实际需求动态分配资源，提高资源利用率和运行效率，这种灵活性和智能性也能适应各种规模和复杂度的模型部署，满足不同用户的需求。

总之，AIOS平台不仅提高了模型的运行效率，还增强了模型部署的灵活性和易操作性，为AI应用的稳定运行提供了有力支持，为人工智能技术的广泛应用和深入发展提供了坚实基础。

相关产品介绍

AIOS是博云专为AI应用推出的企业级一站式人工智能操作系统，屏蔽底层异构算力差异，面向大规模分布式计算，在计算、网络、存储、调度等基础能力全面增强，为AI应用提供稳定、高效、极简的底层支撑能力。同时AIOS支持主流的分布式AI深度学习框架，可满足算法、模型、组件的可视化开发，覆盖数据标注、算法开发、模型训练、模型推理的全生命周期。AIOS可以帮助企业和开发者自主构建人工智能业务，助力企业保持行业领先能力。

强大的底层掌控能力

AIOS的核心在于其强大的ACE算力引擎，支持高达5000个节点的稳定调度，以及异构GPU池化管理，确保了多租户算力的强隔离和全方位监控。

功能特性

覆盖深度学习业务全流程，加快模型从研发到上线速度。

深度学习训练任务通常包含多个阶段，从数据采集、算法开发、模型训练、超参调整、模型管理与部署等，AIOS提供全流程支持。

快速部署计算环境并启动训练任务，提高研发效率

深度学习框架和模型众多，依赖各不相同，对开发环境的要求比较复杂， AIOS可以实现资源和工作环境的隔离及快速部署。

支持数据集统一管理，提升数据标注效率

数据集种类众多，数据标注工具不一。AIOS支持多种标注场景，覆盖文本、图片、音频和视频标注，支持人工标注、协同标注、智能标注等多种业务场景，极大提升数据标注效率。

支持多种建模方式，方便算法工程师快速构建复杂模型

支持交互式建模，内置Jupyter、VScode和Pycharm建模工具，方便算法工程师对代码进行调试；支持通过拖拉拽方式实现可视化建模，平台内置多种算法组件，极大降低建模门槛。

训练过程可视化，掌握训练进度及质量

深度学习模型训练周期较长，训练结束后才发现模型质量问题。借助AIOS，可以实现对训练过程实时监控并可视化训练过程，实时观测损失函数值的日志、训练误差或测试误差等。

动态分配 GPU 资源，充分利用资源，提高资源利用率

支持 GPU 资源细颗粒度调度能力，最低可划分1%资源。同时支持众多国产GPU算力。单一计算集群可以统一管理异构的多种GPU算力。

全面的集群监控管理，实时掌握 CPU/GPU 资源使用情况及运行状态

实时监控集群的使用情况，合理安排训练任务；及时发现运行中的问题，提高集群的可靠性。

方案优势概览