Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

    xiaoxiao2022-07-07  154

    Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

     

     

     

    目录

    WebVision数据集简介

    1、WebVision数据集挑战

    WebVision数据集下载

    WebVision数据集使用方法


     

     

     

     

    WebVision数据集简介

            WebVision数据集主要有Google和Flickr两个数据源。主要是利用ImageNet1000个类的文本信息 从网站上爬数据,所以它的数据类别与}mageNet完全一样,为1000类别,由240万幅图片构成训练 数据。比}mageNet的两倍还多,分别由5万张图片构成验证集和测试集(均带有人工标注)。 

    1、WebVision数据集挑战

    (1)、数据分布不平衡

          WebVision数据集主要有两个挑战。 第一个挑战,数据分布非常不平衡。 如图横坐标代表1000个类别,纵坐标代表每个类别的图片数量。如图浅蓝色的平稳曲线是ImageNet的 数据分布,每一个类别大概有1200张图片。而深蓝色曲线为Web Vision数据分布,可以看出有的类别高达11000张,而最少的小于400张图片,这种极度不平衡的分布对训练模型影响非常大。 

    (2)、数据集含有大量错误或歧义的标签

              第二个挑战,数据集含有大量错误或歧义的标签。 数据集中含有大量与类别标签不相关或歧义的图片,也就是所谓的噪声,这也是最主要的一个难点。比如Willet可以是一种鸟,但也可以是人名,也可以是建筑物的名字。

     

    WebVision数据集下载

    后期更新……

     

     

     

    WebVision数据集使用方法

    后期更新……

     

     

    一个处女座的程序猿 认证博客专家 华为杯研电赛一等 华为研数模一等奖 国内外AI竞十 人工智能硕博生,目前兼职国内外多家头部人工智能公司的AI技术顾问。拥有十多项发明专利(6项)和软件著作权(9项),多个国家级证书(2个国三级、3个国四级),先后获得国内外“人工智能算法”竞赛(包括国家级、省市级等,一等奖5项、二等奖4项、三等奖2项)相关证书十多个,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。正在撰写《人工智算法最新实战》一书,目前已37万字。
    最新回复(0)