星辰MaaS平台支持文本生成、文生图、图像分类等多模态微调任务,以下为各类微调任务所需数据的详细格式说明:
当前平台支持星火大模型以及第三方开源大模型,数据集支持Alpaca格式和ShareGPT格式,涵盖了行业所有主流的数据格式,以下为详细格式说明:
在Alpaca格式下的指令监督微调中,instruction列对应的内容会与input列对应的内容拼接后作为人类指令,即人类指令为instructioninput。而output列对应的内容为模型回答。如果指定,system列对应的内容将被作为系统提示词。history列是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。
注: 历史消息中的回答内容也会被用于模型学习。
- 对于上述格式的数据,dataset_info.json中的数据集描述应为:
- Alpaca格式数据具体示例如下:
相比Alpaca格式的数据集,ShareGPT格式支持更多的角色种类,例如human、gpt、observation、function等。它们构成一个对象列表呈现在conversations列中。
注: 其中human和observation必须出现在奇数位置,gpt和function必须出现在偶数位置。
- 对于上述格式的数据,dataset_info.json中的数据集描述应为:
- ShareGPT格式数据具体示例如下:
在文本生成任务中,推理集用于检测模型微调效果,平台支持jsonl格式和csv格式。
- jsonl格式文件要求如下:
- jsonl文件内每条数据格式要求为 。
- 每一行表示一组数据,每组数据中的input和target加起来之和字符数不超过4000个字符(包括中英文、数字、符号等),超出部分将被截断。
- 支持文本文件类型为JSONL,编码仅支持UTF-8,单次上传限制1个文件。
- 训练集数量spark pro≥1500条,sparklite≥100条,文件<500M;测试集数量范围为10-200条。
- jsonl具体数据格式示例如下:
- csv格式文件要求如下:
- 文件内单组数据表格一行代表一组数据,第一列为input,第二列为target。
- 每一行表示一组数据,每组数据中的input和target加起来之和字符数不超过4000个字符(包括中英文、数字、符号等),超出部分将被截断。
- 支持文本文件类型为 csv,编码仅支持UTF-8,单次上传限制1个文件。
- 训练集数量spark pro≥1500条,sparklite>100条,文件<500M;测试集数量范围为10-200条。
- csv具体数据格式示例如下:
评测集用于评估模型效果,平台支持jsonl格式和xlsx格式,单次任务仅支持上传单个文件,条数≤20000条,文件≤500M,多次上传仅保留最新文件。 数据格式:input(请求输入)必填,target(输出参考)选填,label(标签)选填,model_output(模型推理结果)选填
- jsonl格式文件要求如下:
- jsonl文件内每条数据格式要求为 。
- 每一行表示一组数据,每组数据中的input和target加起来之和字符数不超过4000个字符(包括中英文、数字、符号等),超出部分将被截断。
- 支持文本文件类型为JSONL,编码仅支持UTF-8,单次上传限制1个文件。
- jsonl具体数据格式示例如下:
- xlsx格式文件要求如下:
- 文件内单组数据表格一行代表一组数据,第一列为input,第二列为target。
- 每一行表示一组数据,每组数据中的input和target加起来之和字符数不超过4000个字符(包括中英文、数字、符号等),超出部分将被截断。
- 支持文本文件类型为 xlsx,编码仅支持UTF-8,单次上传限制1个文件。
- xlsx具体数据格式示例如下:
当前平台支持第三方Stable-Diffusion模型,微调数据集为图片+Prompt,图片格式支持jpg、jpeg、png、bmp等,Prompt为jsonl格式,图片比例为1:1,单张图片大小需限制在4MB以内,一个数据集总图片数不少于20张,不大于1000张,仅支持zip压缩上传。

- 具体数据格式示例如下:
{"file_name": "000.jpeg", "text": "a drawing of a green pokemon with red eyes"} … …
注: Prompt支持中文和英文两种语言,英文Prompt效果更佳。
当前平台支持第三方Vision Transformer(ViT)模型,微调数据集为图片,图片格式支持jpg、jpeg、png、bmp等,图片大小在4M内,一个数据集总图片数不少于100张,不大于20000张,压缩包不大于500M,压缩包内应至少包含两个文件夹,文件夹名为标签名需以英文命名,图片文件可中英文命名仅支持zip压缩上传。

- 具体数据格式示例如下:
… … … …
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/224869.html