【AIOS实践】ACE平台部署easy-dataset
分类:技术社区 发布时间:2025/6/13 14:55:56

相关背景

Easy Dataset 是一款专为大型语言模型(LLM)微调设计的开源数据集生成工具,由开发者 ConardLi 主导开发,支持 Windows、MacOS 和 Linux 系统,提供客户端、NPM 和 Docker 三种部署方式,核心功能聚焦于将领域知识转化为结构化训练数据,兼容所有遵循 OpenAI 格式的 LLM API

Easy Dataset 的核心功能是生成垂直领域的对话数据集,因此,他可以产生很多种应用场景,例如:企业文档助手,智能客服助手,医疗对话助手等等。Easy Dataset的具体流程就是通过将用户上传的文档分段,之后利用大模型来生成对应这个分段的问题以及答案。


功能介绍:

l 智能文档处理:支持 PDF、Markdown、DOCX 等多种格式智能识别和处理

l 智能文本分割:支持多种智能文本分割算法、支持自定义可视化分段

l 智能问题生成:从每个文本片段中提取相关问题

l 领域标签:为数据集智能构建全局领域标签,具备全局理解能力

l 答案生成:使用 LLM API 为每个问题生成全面的答案、思维链(COT

l 灵活编辑:在流程的任何阶段编辑问题、答案和数据集

l 多种导出格式:以各种格式(Alpaca、ShareGPT)和文件类型(JSON、JSONL)导出数据集

l 广泛的模型支持:兼容所有遵循 OpenAI 格式的 LLM API

l 用户友好界面:为技术和非技术用户设计的直观 UI

l 自定义系统提示:添加自定义系统提示以引导模型响应


相关环境配置

01本地安装docker

1.1本地打开hyper-v

通过设置启用Hyper-V功能

打开 控制面板 -> 程序和功能 -> 启用或关闭Windows功能,勾选Hyper-V相关选项,确认,等待配置,提示重启,添加完成。

图片图片图片

等待重启完成后,在菜单中就可以看到Hyper-V管理器的选项了


1.2安装docker镜像

可以在官网中安装docker桌面版之后输入如下命令来启动easy-dataset服务:

1.2.1获取easy-dataset项目:

git clone https://github.com/ConardLi/easy-dataset.git

cd easy-dataset

1.2.2创建docker image

docker build -t easy-dataset .


1.3将创建好的docker镜像上传到阿里云平台

具体步骤在如下这个链接中

https://cr.console.aliyun.com/repository/cn-beijing/easy-dataset/easy-dataset-bocloud/details


1.4将运行的docker image保存到本地

图片

之后由于导出的镜像过大,因此我们需要将tar文件压缩至tar.gz:

这里可以采用7-zip

图片


1.5上传文件至镜像仓库

图片


1.6在bmp平台上部署服务:

图片

选择刚才上传的镜像文件路径

图片

设置相应的服务端口

图片

设置资源配额(演示时可多给些资源)

图片

之后确认发布即可

图片

最终即可在对应的网址找到我们部署的easy-dataset服务

图片



easy-dataset操作指南

02配置easy-dataset相关项目设置

图片图片图片

这里需要上传对应的接口地址和密钥,这里我使用bmp平台的deepseek14b的模型

图片

复制完成api后需要创建相关的api-key:

图片

之后将对应的api和key填入到deepseek的模板中即可,如下图所示

图片


2. easy-dataset的使用

可以通过这样的方式上传本地的markdown文件(如果是pdf文件的话可以使用MinerU来实现转化)

图片

之后选择需要的节段进行问题生成(也可以批量生成所有的问题)

图片

之后我们可以选择生成所有问题的答案

图片

选择导出数据集即可:

图片

之后可以选择合适的格式和system prompt来进行操作:

图片


关于博云AIOS


AIOS博云专为AI应用推出的企业级一站式人工智能操作系统,屏蔽底层异构算力差异,面向AI大模型、生信、仿真渲染、气象、智能控制、图像视频处理等领域的分布式计算提供调度器管理,在网络、存储等基础能力方面增强高性能适配,为AI应用提供稳定、高效、可观测的部署与服务运行时管理能力。

同时AIOS提供轻量化多框架AI训推工具链平台,支持多种分布式AI深度学习框架,模型推理框架,IDE工具,算法、模型仓库,以及模型量化和转化能力,覆盖数据标注、算法开发、模型训练、模型推理的全生命周期。

AIOS可以帮助企业和开发者自主构建人工智能业务,助力企业保持行业领先能力。


体验创新云技术带来核心业务效率显著提升
立即预约,加速企业数字化转型进程
Copyright ⓒ 2022 苏州博纳讯动软件有限公司 国徽 苏ICP备13004761号 法律声明及隐私政策