相关背景
Easy Dataset 是一款专为大型语言模型(LLM)微调设计的开源数据集生成工具,由开发者 ConardLi 主导开发,支持 Windows、MacOS 和 Linux 系统,提供客户端、NPM 和 Docker 三种部署方式,核心功能聚焦于将领域知识转化为结构化训练数据,兼容所有遵循 OpenAI 格式的 LLM API。
Easy Dataset 的核心功能是生成垂直领域的对话数据集,因此,他可以产生很多种应用场景,例如:企业文档助手,智能客服助手,医疗对话助手等等。Easy Dataset的具体流程就是通过将用户上传的文档分段,之后利用大模型来生成对应这个分段的问题以及答案。
功能介绍:
l 智能文档处理:支持 PDF、Markdown、DOCX 等多种格式智能识别和处理
l 智能文本分割:支持多种智能文本分割算法、支持自定义可视化分段
l 智能问题生成:从每个文本片段中提取相关问题
l 领域标签:为数据集智能构建全局领域标签,具备全局理解能力
l 答案生成:使用 LLM API 为每个问题生成全面的答案、思维链(COT)
l 灵活编辑:在流程的任何阶段编辑问题、答案和数据集
l 多种导出格式:以各种格式(Alpaca、ShareGPT)和文件类型(JSON、JSONL)导出数据集
l 广泛的模型支持:兼容所有遵循 OpenAI 格式的 LLM API
l 用户友好界面:为技术和非技术用户设计的直观 UI
l 自定义系统提示:添加自定义系统提示以引导模型响应
相关环境配置
01本地安装docker
1.1本地打开hyper-v
通过设置启用Hyper-V功能
打开 控制面板 -> 程序和功能 -> 启用或关闭Windows功能,勾选Hyper-V相关选项,确认,等待配置,提示重启,添加完成。



等待重启完成后,在菜单中就可以看到Hyper-V管理器的选项了
1.2安装docker镜像
可以在官网中安装docker桌面版之后输入如下命令来启动easy-dataset服务:
1.2.1获取easy-dataset项目:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
1.2.2创建docker image
docker build -t easy-dataset .
具体步骤在如下这个链接中
https://cr.console.aliyun.com/repository/cn-beijing/easy-dataset/easy-dataset-bocloud/details
1.4将运行的docker image保存到本地

之后由于导出的镜像过大,因此我们需要将tar文件压缩至tar.gz:
这里可以采用7-zip
1.5上传文件至镜像仓库
1.6在bmp平台上部署服务:

选择刚才上传的镜像文件路径

设置相应的服务端口

设置资源配额(演示时可多给些资源)

之后确认发布即可

最终即可在对应的网址找到我们部署的easy-dataset服务
easy-dataset操作指南
02配置easy-dataset相关项目设置



这里需要上传对应的接口地址和密钥,这里我使用bmp平台的deepseek14b的模型


之后将对应的api和key填入到deepseek的模板中即可,如下图所示
2. easy-dataset的使用
可以通过这样的方式上传本地的markdown文件(如果是pdf文件的话可以使用MinerU来实现转化)

之后选择需要的节段进行问题生成(也可以批量生成所有的问题)

之后我们可以选择生成所有问题的答案

选择导出数据集即可:

之后可以选择合适的格式和system prompt来进行操作:
AIOS是博云专为AI应用推出的企业级一站式人工智能操作系统,屏蔽底层异构算力差异,面向AI大模型、生信、仿真渲染、气象、智能控制、图像视频处理等领域的分布式计算提供调度器管理,在网络、存储等基础能力方面增强高性能适配,为AI应用提供稳定、高效、可观测的部署与服务运行时管理能力。
同时AIOS提供轻量化多框架AI训推工具链平台,支持多种分布式AI深度学习框架,模型推理框架,IDE工具,算法、模型仓库,以及模型量化和转化能力,覆盖数据标注、算法开发、模型训练、模型推理的全生命周期。
AIOS可以帮助企业和开发者自主构建人工智能业务,助力企业保持行业领先能力。
