[DISCUSS]:  Discuss about enhance the dataset manager capability

To enhance the fluid dataset manager capability, i summary our commany dataset usage:

Unisound Atlas AI Platform(网络隔离)：

数据存储方式：
非对象存储，为分布式文件系统存储，分布式文件挂载到所有物理节点的固定目录，所有组和用户有统一的入口

数据的来源：
1. 公开数据集， 例如 [ImageNet](http://www.image-net.org/)、[MS-Celeb-1M](https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/)、[LibriSpeech](http://www.openslr.org/12/)
2. 针对业务场景，算法科学家指导数据标注部门进行数据采集
3. 算法工程师自己拿设备（摄像头、麦克风、或者真实场景会用到的设备）进行符合业务场景环境采集
4. 爬虫在网络爬取数据

数据的备份：
1. 针对上述的1和2会进行数据入库，并进行备份（注：通过原始数据能够生成的数据（比如特征等）不会入库）

数据的使用场景和使用方式：
1. 针对数据1一般为复现模型和实验 Baseline
2. 针对数据2一般为针对业务场景在 Basline 优化
3. 数据3一般会作为测试集或针对业务优化
4. 看情况，可能是上面3种任意一种

使用数据的痛点:
1. 入库数据非面向用户（数据科学家）使用，虽然可查但是从申请数据到数据到自己的目录需要手动的拷贝
2. 各个用户(每个用户一个 namespace)的文件目录下有很多重复的数据集（对存储是一种浪费）
3. 数据来源 2、3、4 的大量数据没有入库，用户间无法感知，复用较复杂（需要用户和用户之间沟通，并授权或拷贝）
4. 模型复现依赖于数据（原始数据或者前处理后数据），无法管理如此零散的数据

@cheyang @TrafalgarZZZ @wsxiaozhang

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[DISCUSS]: Discuss about enhance the dataset manager capability #11

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Uh oh!

[DISCUSS]: Discuss about enhance the dataset manager capability #11

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions