资源 | AI Challenger 2018 即将进入决赛,八大数据集抢先看

2018-11-03 19:40:23 来源:网络整理 作者:管理员

原标题:资源 | AI Challenger 2018 即将进入决赛,八大数据集抢先看

AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实世界的问题」,主办方提供超过 300 万人民币奖金。

8 月 29 日至 11 月 4 日是第一阶段比赛,参赛队基于训练集、验证集、测试集 A,进行算法设计、模型训练及评估,并提交预测结果,并将于 2018 年 11 月 6 至 8 日开始第二阶段比赛,开放测试集 B。竞赛总决赛答辩和颁奖将于 12 月 18、19 日进行。(个别竞赛时间不一致,以大赛官网为准。)

资源 | AI Challenger 2018 即将进入决赛,八大数据集抢先看

今年比赛与去年一样,分为主赛道和实验赛道,目前,数据集也陆陆续续发布,接下来,雷锋网 AI 科技评论将会带来这些数据集的介绍,大家可以挑选合适的数据集下载,用于自己的模型训练。

  • 观点型问题阅读理解数据集

本数据集针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题,构造了 30 万组由问题、篇章、候选答案组成的训练和测试集合。是目前为止全球难度最大的中文阅读理解公开数据集,全球最大的观点型机器阅读理解公开数据集。

训练集:25 万

验证集:3 万

测试集A:1 万

测试集B:1 万

每条数据为<问题,篇章,候选答案> 三元组组成,每个问题对应一个篇章(500 字以内),以及包含正确答案的三个候选答案。

问题:真实用户自然语言问题,从搜索日志中随机选取并由机器初判后人工筛选

篇章:与问题对应的文本段,从问题相关的网页中人工选取

候选答案:人工生成的答案,提供若干(三个)选项,并标注正确答案

地址:https://challenger.ai/dataset/oqmrcd2018

  • 细粒度用户评论情感分析数据集

用户评论对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。为了促进情感分析技术的发展,主办方提供了一个面向餐饮领域的细粒度用户评论情感分析数据集,包含 33.5 万条自大众点评的真实公开用户评论,依据其粒度不同构建双层标注体系,共包含 6 大类 20 个细粒度要素。

训练集:105,000 条

验证集:15,000 条

测试集 A:15,000 条

测试集 B:200,000 条

数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。每个细粒度要素的情感倾向有四种状态:正向、中性、负向、未提及。使用[1,0,-1,-2]四个值对情感倾向进行描述。

地址:https://challenger.ai/dataset/fsaouord2018

  • 英中翻译数据集

随着深度学习技术的不断发展,近年来机器翻译研究研究受到了越来越多的关注。主办方提供了一个英中机器翻译数据集,包含了 1000 万英中对照的句子对作为数据集合。数据主要来源于英语学习网站和电影字幕,领域为口语领域。另外,还提供 300 万带有上下文情景的英中双语口语数据。所有双语句对经过人工检查,数据集从规模、相关度、质量上都有保障。

训练集:1300 万

验证集:8000

测试集 A:8000

测试集 B:8000

地址:https://challenger.ai/dataset/ectd2018

  • 多标签短视频分类数据集

数据集共包含 20 万条短视频,涵盖舞蹈、健身、唱歌等 63 类流行元素,分为训练集(12 万)、验证集(3 万)、测试集 A(3 万)、测试集 B(3 万)。大部分视频的长度为5-15秒。

本数据集采用多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息将尽量包含视频中展现的所有元素,每条视频有1-3个标签。

相较于传统视频数据集来说,本数据集更具特色。本数据集视频采集设备多为手机且比例多为竖屏;数据集中的很多视频使用了短视频特效,并包含更多视频快进、剪辑等操作;从视频内容上讲,本数据集包含了更多人物中心化的自拍短视频内容。

地址:https://challenger.ai/dataset/mlsvd2018

  • 天气预报数据集

天气预报数据集由北京市 10 个气象站点,共 3 年多的逐小时历史「观测」和「睿图」数据组成。这是中国气象局北京城市气象研究所公开发布的气象数据集,其时间跨度长且密度高,包含气象要素的实况和预报两部分,对提高天气预报准确性具有重要作用。

数据连续性较好,缺失样本(-9999.)很少,并通过 NetCDF4 格式共同存储于单个 nc 文件中。「观测」集逐时记录当前气象观测站点的 9 个地面气象要素,通过气象仪器实时监测得到;「睿图」集包含地面和特征气压层共计 29 个气象要素,由数值预报模式在超级计算机上运算产生。

训练集:1188 天样本

验证集:89 天样本

测试 A 集:包含两个数据集,分别为 2018 年 8 月 29 日至 9 月 24 日和 2018 年 8 月 29 日至 10 月 15 日,分别有 27 天和 48 天样本

测试 B 集:包含 7 个数据集,全部以 2018 年 8 月 29 日为起始日期,以 10 月 28 日至 11 月 3 日分别为结束日期,分别有 61–67 天样本

地址:https://challenger.ai/dataset/wfd2018

  • 农作物病害数据集

标注图片 50,000 张、包含 10 种植物的 27 种病害。

本数据集合由上海新客科技和创新工场联合打造。数据集有 61 个分类(按「物种-病害-程度」分),10 个物种,27 种病害(其中 24 个病害有分一般和严重两种程度),10 个健康分类,47393 张图片。每张图包含一片农作物的叶子,叶子占据图片主要位置。数据集随机分为训练(70%)、验证(10%)、测试 A(10%)与测试 B(10%)四个子数据集。其中,训练集有 32,739 张图片,验证集有 4,982 张图片,测试集 A 有 4,959 张图片,测试集 B 有 4,957 张图片。

地址:https://challenger.ai/dataset/pdd2018

  • 眼底病变数据集

视网膜水肿是一种常见的眼部病理改变,会导致不同程度的视力下降,从而影响正常的生活。尽早的发现水肿症状,能够对疾病的诊断和治疗起到重要的作用。如今临床上使用 OCT(光学相干断层成像)辅助医生对视网膜水肿进行判断。

主办方提供了眼部 OCT 样本的图像数据集,由专业眼科医生分别对三种类型的水肿进行标注,数据量达到 100 个 OCT 体数据,每个体数据 128 张图片。这是国内首个眼底病变医学图像检测竞赛,使用了目前最大的眼底病变数据集,是一次 AI 与医学技术的结合

  • 训练数据包括 cube OCT 数据和水肿标记数据,每个 cube 含有 128 张图片。
  • 验证数据除了 cube OCT 数据和水肿标记数据,还包括提交标准即水肿类型标记和体素标记。
  • 水肿类型标记为 [128,3] 的 01 矩阵,分别标记 128 张图片中对应水肿类型。
  • 体素标记为 [128,1024,512] 矩阵,0、1、2、3 分别代表 Background、REA、SRF、PED。
  • 测试数据为 cube OCT 数据。

地址:https://challenger.ai/dataset/fld2018

  • 图像属性数据集

本数据集由创新工场、北京大学王亦洲教授和复旦大学付彦伟教授联合构造。属性标注对于实现图像理解、知识迁移具有重要意义。

本数据集共 78,017 张图片,可划分为 5 个超类(super-class),分别是动物(Animals)、水果(Fruits)、交通工具(Vehicles)、电子产品(Electronics)、发型(Hairstyles)。其中,动物和水果属于自然产物,交通工具和电子产品属于人造物,发型属于抽象概念。每个超类分别包含 A: 50, F: 50, V: 50, E: 50, H: 30 个类别,总计 230 个类别。对于每个超类(super-class),分别设计了 A: 123, F: 58, V: 81, E: 75, H: 22 个属性,共 359 个属性。每张图片只包含一个前景物体,标注了标签和物体包围框。对于每个类别,随机挑选了 20 张图片进行属性标注。

  • 训练集(seen classes):80% 类别
  • 测试集(unseen classes):20% 类别

训练集所有图片均标注了标签和包围框。对于部分图片(20 张/类),标注了二值属性,属性值为 0 或 1,表示属性「存在」或「不存在」。

地址:https://challenger.ai/dataset/lad2018

更多信息,欢迎参见比赛官网:http://challenger.ai

显示全文
为您推荐
钱姓起源和来历:活了八百岁的彭祖竟然是钱氏祖先
钱姓起源和来历:活了八百岁的彭祖竟然是钱氏祖先

钱姓排于百家姓中的第二位,虽然起源和来历并不多,但是钱姓人却分布广泛,成为了中国姓氏中的第二大姓。钱姓的主要来源就是彭祖的儿子篯孚,彭祖的真名叫做篯铿,是因为被尧封于大彭而得姓-彭,而他的儿子篯孚因为掌管着钱财,任职钱府上士,所以便为“钱”姓,所以彭钱是一家。...

发布时间:2024-09-20 20:03:27

胡服最早由谁引入中原?赵武灵王为推行骑射改革服饰
胡服最早由谁引入中原?赵武灵王为推行骑射改革服饰

胡服最早是由春秋战国时的赵武灵王-赵雍引入中原的,因为当时赵国的地形和地理位置都非常不好,常年深受战争威胁,加上赵武灵王继位之后,时局不稳,周边国家都想要攻打赵国,所以赵武灵王便下令让全员都推行胡服,并且学习骑射,相较于宽大的汉服更加便于行动。...

发布时间:2024-09-20 19:05:44

赛艇运动起源于哪里?英国船工无聊时竞赛(造就贵族运动)
赛艇运动起源于哪里?英国船工无聊时竞赛(造就贵族运动)

赛艇运动起源于英国的泰晤士河上,当时还是17世纪,英国泰晤士河上的船工在工作之余经常会举办一些赛船,久而久之就形成了一种习俗,在1715年的时候,为了庆祝英王的卫冕,所以第一次正式举办了赛艇比赛,最终在1775年发展为一个正式的运动项目,并且成立了相应的运动俱乐部。...

发布时间:2024-09-20 18:04:28

为什么不能用宸字取名?哪些名字普通人扛不起
为什么不能用宸字取名?哪些名字普通人扛不起

人们之所以不愿意或者不敢以“宸”为名,主要是因为在古时候“宸”有着“深邃的房屋”的意思,也就是专指皇帝的居住场所,象征着无上的权力,所以“宸”字自然也就成为了禁忌,不过现代人大多是害怕这个字的气势,普通人的命格扛不住。...

发布时间:2024-09-20 17:00:53

商细蕊原型是谁?原来四位京剧名旦都是灵感来源
商细蕊原型是谁?原来四位京剧名旦都是灵感来源

商细蕊是电视剧《鬓边不是海棠红》中的京剧名旦,很多人都为他和海归商人程凤台的知己故事而动容,但遗憾的是在历史长河中并没有商细蕊真正的原型,只能说他可能是作者根据历史上著名的京剧名旦构建的一个角色,因为他和梅兰芳、程砚秋、尚小云以及徐碧云等四人的经历和性格都有着极为相似之处。...

发布时间:2024-09-20 16:05:01

历史上著名的美女有哪些:杨玉环,君王不早朝(绝世美女)
历史上著名的美女有哪些:杨玉环,君王不早朝(绝世美女)

在中华上下五千年的历史长河中,除了王朝更替的政治生活与文化生活,还有一些美貌的女子点缀着历史的绘卷,那么在悠悠岁月中有哪些著名的美女呢?下面小编就来为大家盘点一下吧!...

发布时间:2024-09-20 15:04:04

历史上妃嫔最少的皇帝:明孝宗朱佑樘,独爱张皇后(童年不幸)
历史上妃嫔最少的皇帝:明孝宗朱佑樘,独爱张皇后(童年不幸)

谈及古代帝王,最让人津津乐道的当属那后宫佳丽三千,不过也不是所有的帝王都有那么充实的后宫,比如历史上有一位皇帝就只有一位妻子,是不是让人有点不敢相信,下面小编就带大家一起了解下吧!...

发布时间:2024-09-20 14:01:05

历史上最长情的皇帝:顺治皇帝,挚爱董鄂妃(为爱出家)
历史上最长情的皇帝:顺治皇帝,挚爱董鄂妃(为爱出家)

自古无情帝王家,说到帝王的爱情多是奢望,很多帝王后宫的妃子换了一个又一个,几乎都是薄情寡义的,但是漫长的历史长河中也有例外,有的皇帝便与众不同,特别的长情,下面小编来为大家介绍一下历史上最长情的皇帝吧!...

发布时间:2024-09-20 13:03:24

武侠剧中的绝世高手有哪些:扫地僧,化险为夷(秒杀高手)
武侠剧中的绝世高手有哪些:扫地僧,化险为夷(秒杀高手)

可以说人的成长伴随着无数的武侠剧,尤其是电视剧中的那些绝世高手更是让人影响深刻,有不少人小时候都幻想过可以武功盖世,一统江湖,那么有人知道武侠剧中有哪些绝世高手吗?下面小编为大家盘点一下吧!...

发布时间:2024-09-20 12:02:19

电视剧中的古装美女:刘亦菲,举止摇曳生姿(天仙下凡)
电视剧中的古装美女:刘亦菲,举止摇曳生姿(天仙下凡)

古装电视剧中有许多的美丽的女子,她们身着美丽的衣裳,一举一动摇曳生姿,美得让人挪不开双眼,可以说是一场视觉盛宴,下面就让小编为大家盘点一下那些古装美女吧!...

发布时间:2024-09-20 11:09:01

清朝古装剧中的美人:刘诗诗,若曦无人超越(顾盼生姿)
清朝古装剧中的美人:刘诗诗,若曦无人超越(顾盼生姿)

近年清朝古装剧收视率暴涨,这些电视剧不仅剧情引人入胜,身着清装的美人也同样吸引了不少目光,有着让人过目不忘的美貌,那么清朝古装剧中有哪些美人呢?下面小编就来为大家盘点一下吧!...

发布时间:2024-09-20 11:02:08

小青龟能长多大:背甲14厘米,体色会变化(濒危物种)
小青龟能长多大:背甲14厘米,体色会变化(濒危物种)

养龟市场上经常可以看到小青龟,这种乌龟乖巧可爱以及性情温顺,所以很多人都会选择小青龟来饲养,不过一直都是见到小青龟都比较小,这不禁令人好奇这种乌龟能长多大?下面小编就带大家一起了解一下小青龟吧!...

发布时间:2024-09-20 10:01:47