Skip to content

[DISCUSS]: Discuss about enhance the dataset manager capability #11

Description

@xieydd

To enhance the fluid dataset manager capability, i summary our commany dataset usage:

Unisound Atlas AI Platform(网络隔离):

数据存储方式:
非对象存储,为分布式文件系统存储,分布式文件挂载到所有物理节点的固定目录,所有组和用户有统一的入口

数据的来源:

  1. 公开数据集, 例如 ImageNetMS-Celeb-1MLibriSpeech
  2. 针对业务场景,算法科学家指导数据标注部门进行数据采集
  3. 算法工程师自己拿设备(摄像头、麦克风、或者真实场景会用到的设备)进行符合业务场景环境采集
  4. 爬虫在网络爬取数据

数据的备份:

  1. 针对上述的1和2会进行数据入库,并进行备份(注:通过原始数据能够生成的数据(比如特征等)不会入库)

数据的使用场景和使用方式:

  1. 针对数据1一般为复现模型和实验 Baseline
  2. 针对数据2一般为针对业务场景在 Basline 优化
  3. 数据3一般会作为测试集或针对业务优化
  4. 看情况,可能是上面3种任意一种

使用数据的痛点:

  1. 入库数据非面向用户(数据科学家)使用,虽然可查但是从申请数据到数据到自己的目录需要手动的拷贝
  2. 各个用户(每个用户一个 namespace)的文件目录下有很多重复的数据集(对存储是一种浪费)
  3. 数据来源 2、3、4 的大量数据没有入库,用户间无法感知,复用较复杂(需要用户和用户之间沟通,并授权或拷贝)
  4. 模型复现依赖于数据(原始数据或者前处理后数据),无法管理如此零散的数据

@cheyang @TrafalgarZZZ @wsxiaozhang

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Fields

    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions