用 bayes 上传数据
这里我们介绍如何使用 bayes
创建一个数据集,上传一个 tiny imagenet 数据集到 大模型算力管理平台,将一些额外的数据合并到 tiny imagenet 的已有数据集版本中,以及从命令行打开 web 界面。
创建一个新的数据集
$ bayes data create tiny-imagenet -m "稍微说明一下这个 tiny-imagenet 数据集" -o
数据集 tiny-imagenet (tiQXU5Z5DIy) 创建成功
打开网页 https://openbayes.com/console/username/datasets/tiQXU5Z5DIy 可查看数据集 tiny-imagenet (tiQXU5Z5DIy) 的详细信息
正在跳转到浏览器...
已成功打开浏览器
介绍一下几个可用的参数:
-m
或--message
数据集描述信息,可留空-o
或--open
将会在数据集创建成功后,在浏览器打开相应的 web 界面
同时你也可以在终端的打印信息中看到在数据集的 URL 和 ID。
通过命令行直接上传文件夹
在 web 页面我们需要将数据集打包成 zip 压缩包才能进行上传,而通过命令行工具则没有这个限制,命令行工具会帮我 们自动打包压缩包并上传,在上传成功后会自动将压缩包删除。
$ bayes data upload tiQXU5Z5DIy -p ~/Downloads/tiny-imagenet-200 -o
正在读取文件列表,请稍候...
剔除在 .openbayesignore 中忽略的文件及文件夹...
共有文件 120,205 个
正在压缩数据集...
压缩数据集完成
正在向服务器发送上传请求...
服务器已响应
正在初始化上传中...
正在上传压缩包。总共上传大小: 245.9 MiB
124.25 MiB / 245.90 MiB [============================>-----------------------------] 51 % 4.29 MiB/s
正在进行清理工作
数据集 tiny-imagenet (RsUdt11TEwb) 上传成功
打开网页 https://openbayes.com/console/username/datasets/RsUdt11TEwb 可查看数据集 tiny-imagenet (RsUdt11TEwb) 的详细信息
正在跳转到浏览器...
已成功打开浏览器
命令行上传支持断点续传,如果在上传过程中因为意外请求中断了,再次输入上传命令可以选择从上一次上传继续:
$ bayes data upload tiQXU5Z5DIy -p ~/Downloads/tiny-imagenet-200
openbayes 数据集上传
存在一个尚未完成的上传,是否需要继续? [y/N]: y
正在上传压缩包。总共上传大小: 245.9 MiB
245.90 MiB / 245.90 MiB [=================================] 100 % 8.87 MiB/s
正在进行清理工作
数据集 tiny-imagenet (tiQXU5Z5DIy) 上传成功
打开网页 https://openbayes.com/console/username/datasets/tiQXU5Z5DIy 可查看数据集 tiny-imagenet (tiQXU5Z5DIy) 的详细信息
介绍一下几个可用的参数:
-p
或--path
数据集文件的本地路径,不填则使用当前目录-o
或--open
将会在数据集上传完成后,在浏览器打开相应的 web 界面
稍等服务器端数据同步可以看到数据集已经上传好了:
备注
如果你已经有一个现成的压缩包需要上传到 openbayes,你可以通过命令 bayes data upload tiQXU5Z5DIy -p abc.zip
直接上传,openbayes 将会在接收到压缩包后进行解压。
备注
如果你只有一个单一文件需要上传到 openbayes ,你同样可以通过命令 bayes data upload tiQXU5Z5DIy -p afile.xy
上传到 openbayes。
通过命令行合并数据到数据集的指定版本和路径
通过以下命令,我们可以将一些额外的数据合并到指定据集版本的指定文件夹中
bayes data merge tiQXU5Z5DIy --version 1 -d /merge-dir/ -p ~/Downloads/data-to-be-merged -m both -o
正在读取文件列表,请稍候...
剔除在 .openbayesignore 中忽略的文件及文件夹...
共有文件 102 个
正在压缩数据集...
压缩数据集完成
正在向服务器发送合并请求...
服务器已 响应
正在初始化上传中...
正在上传需要合并的压缩包。总共合并大小: 877.44 KiB
877.44 KiB / 877.44 KiB [==========================================================] 100 % 971.38 KiB/s
正在进行清理工作
数据集 tiny-imagenet (RsUdt11TEwb) 合并成功
打开网页 https://openbayes.com/console/username/datasets/RsUdt11TEwb 可查看数据集 tiny-imagenet (RsUdt11TEwb) 的详细信息
正在跳转到浏览器...
已成功打开浏览器
介绍一下几个可用的参数:
--version
需要合并的数据集版本号,必填-m
或--mode
合并方式,支持skip
(跳过) ,both
(并存),replace
(替换), 不填则默认使用replace
(替换)-d
或--directory
数据集文件合并的指定路径,不填则默认使用根目录-p
或--path
数据集文件的本地路径,不填则使用当前目录-o
或--open
将会在数据集合并成功后,在浏览器打开相应的 web 界面
稍等服务器端数据同步,就可以看到数据集已经合并到指定版本,点击进入指定文件夹,就可以看到新增的数据。
通过命令行打开数据集 web 界面
通过以下命令我们可以直接从命令行打开 web 界面:
$ bayes data open tiQXU5Z5DIy
正在打开数据集 https://openbayes.com/console/username/datasets/tiQXU5Z5DIy
正在跳转到浏览器...
或者,在上传或合并命令最后加入 -o 参数,命令行工具将会在上传或合并完成后立即打开相应的 web 界面:
$ bayes data upload tiQXU5Z5DIy -p ~/Downloads/tiny-imagenet-200 -o
正在读取文件列表,请稍候...
剔除在 .openbayesignore 中忽略的文件及文件夹...
共有文件 120,205 个
正在压缩数据集...
压缩数据集完成
正在向服务器发送上传请求...
服务器已响应
正在初始化上传中...
正在上传压缩包。总共上传大小: 245.9 MiB
124.25 MiB / 245.90 MiB [============================>-----------------------------] 51 % 4.29 MiB/s
正在进行清理工作
数据集 tiny-imagenet (RsUdt11TEwb) 上传成功
打开网页 https://openbayes.com/console/username/datasets/RsUdt11TEwb 可查看数据集 tiny-imagenet (RsUdt11TEwb) 的详细信息
正在跳转到浏览器...
已成功打开浏览器