无人机视觉挑战赛(Vision Meets Drones: A Challenge,VisDrone2024)
近年来,基于无人机的视觉技术在航空巡检等领域的应用越来越受到人们的关注。尽管通用计算机视觉算法取得了很大的进步,但这些算法在无人机平台上通常不是最优的。因此,开发和评估无人机视觉数据的新视觉算法成为基于无人机的应用中的关键问题。然而,这一目标受到无人机平台上缺乏大规模专用基准和视觉算法评估的严重限制。VisDrone2024提供了具有丰富注释的大规模无人机视觉数据集。该数据集用于无人机平台上的各种核心视觉任务。最新算法在该数据集上的性能将被严格评估和讨论。参加竞赛的研究人员将被邀请在研讨会上讨论和展示他们的研究成果VisDrone2024旨在推进与计算机视觉、大规模学习和视觉监控等许多主题相关的无人机视觉数据分析的研究。
天津大学
西北工业大学
浙江大学
国防科技大学
1.各培养单位正式注册教师、在读研究生以及博士生。
2.国内各研究团体、企事业单位。
以个人或团队方式均可通过邮件方式报名参赛,每个参赛队伍人员不超过8人,每名参赛选手只能参加1个参赛队。每个参赛队伍在竞赛截止时间之前最多可更新10次结果,截止时间之后不能再更新结果。参赛队伍前往http://aiskyeye.com/home/进行注册报名。
拟采用的组织方式为主办方提供样本数据,参赛队提交测试结果和可执行程序。由主办方利用对外公布的测试数据集,通过验证运行可执行程序的输出结果,判定有效的测试精度,评出名次(为防止手工标注作弊,主办方会对同一份测试集,乱序排序后,进行测试)。
赛程如下:
时间 | 任务 |
5月20日- 7月1日 | 组委会在网站公布比赛信息,参赛队伍注册报名。 |
6月1日- 7月1日 | 参赛队伍下载数据集和提交比赛结果。 |
7月2日- 7月9日 | 参赛队伍提交最终解决方案的代码和技术报告。 |
7月15日 | 组委会公布最终排名并宣布获胜队伍。 |
7月28日-7月30日 | 在中国数据挖掘会议举办期间,召开研讨会介绍比赛方法,颁奖。 |
本次比赛共计2个赛道,数据来源于VisDrone和GZSD setting,数据集具有如下特点:
目标检测任务:
训练样本:
由专家手工标记的JPG图像,共6471张,数据格式为:TXT;
验证样本:
专家选择548张JPG图像,数据格式为:TXT;
测试样本:
专家选择3190张JPG图像,数据格式为:TXT。
零样本目标检测任务:
同时考虑可见和不可见目标的检测;
数据集具有21个类别,其中包括背景、可见的类别(“飞机”、“棒球场”、“桥梁”、“烟囱”、“水坝”、“高速公路服务区”、“高速公路收费站”、“高尔夫球场”、“港口”、“立交桥”、“船舶”、“体育场”、“储罐”、“网球场”、“火车站”、“车辆”)和不可见的类别(“机场”、“篮球场”、“地面跑道”、“风车”);
数据集包括超2万张遥感静态图像;
测试样本具有3337张图像;
语义描述符是21×1024的词向量。
VisDrone2024技术挑战赛共计2个赛道,具体任务设置如下所示:
目标检测任务:
参赛选手通过训练样本对目标检测模型进行建模,然后对测试样本3190张图像中人、车等多类目标进行识别检测。
零样本目标检测任务:
参赛选手通过训练样本对目标检测模型进行建模,然后对测试样本3337张图像中的可见类目标和不可见类目标进行识别检测。
VisDrone2024技术挑战赛共计2个赛道,具体性能评价方法如下所示:
目标检测任务:
针对比赛任务中目标检测的要求,在给定的测试集中对人、车等目标进行识别检测,同时以TXT文件输出结果文件。
性能评价分为两部分:
1. 平均精确率(AP, AP50,AP75):TP/(TP+FP)即模型预测目标中预测正确的比例,数值指的是IOU(交并比);
2. 平均召回率(AR1, AR10, AR100, AR500):TP/(TP+FN)即所有真实目标中,模型预测正确的目标比例。
零样本目标检测任务:
针对比赛任务中零样本目标检测的要求,在给定的测试集中对可见类目标和不可见类目标进行识别检测,同时以TXT文件输出结果文件。
性能评价分为两部分:
1. 平均精确率(AP, AP50,AP75):TP/(TP+FP)即模型预测目标中预测正确的比例,数值指的是IOU(交并比);
平均召回率(AR1, AR10, AR100, AR500):TP/(TP+FN)即所有真实目标中,模型预测正确的目标比例。
VisDrone2024技术挑战赛共计2个赛道,具体提交格式如下所示:
目标检测任务:
对测试集每幅图,对图像中的人、公交车、小轿车、自行车、卡车、摩托车、三轮车等对象进行目标检测,同时提交TXT文件,文件中每一行是包含图像中的一个对象实例,示例如下:
<左上角x>,<左上角y>,<宽度>,<高度>,<得分>,<类别>,<截断>,<遮挡>
具体解释:
<左上角x>:预测边界框的左上角的x坐标;
<左上角y>:预测对象边界框的左上角的y坐标;
<宽度>:预测对象包围框的宽度(以像素为单位);
<高度>:预测对象包围框的像素高度;
<得分>:检测结果文件中的分数表明了包围一个对象实例的预测边界框的置信度。“GROUNDTRUTH”文件中的分数设置为1或0。1表示计算时考虑包围盒,0表示忽略包围盒;
<类别>:对象类别表示标注对象的类型,(即忽略区域(0),行人(1),人(2),自行车(3),轿车(4),货车(5),卡车(6),三轮车(7),遮阳三轮车(8),公共汽车(9),马达(10),其他(11)));
<截断>:检测结果文件中的分数应该设置为常数-1。GROUNDTRUTH文件中的分数表示物体部分出现在帧外的程度(即,没有截断= 0(截断率0%),部分截断= 1(截断率1%~50%));
<遮挡>:检测结果文件中的分数应该设置为常数-1。GROUNDTRUTH文件中的分数表示物体被遮挡的比例(即没有遮挡=0(遮挡率0%),部分遮挡=1(遮挡率1%~50%),重度遮挡= 2(遮挡率50%~100%))。
零样本目标检测任务:
对测试集每幅图,对图像中的飞机、棒球场、桥梁、烟囱、水坝、高速公路服务区、高速公路收费站、高尔夫球场等可见类别对象和机场、篮球场、地面跑道等不可见类别对象进行目标检测,同时提交TXT文件,文件中每一行是包含图像中的一个对象实例,示例如下:
<左上角x>,<左上角y>,<宽度>,<高度>,<得分>,<类别>,<截断>,<遮挡>
具体解释:
<左上角x>:预测边界框的左上角的x坐标;
<左上角y>:预测对象边界框的左上角的y坐标;
<宽度>:预测对象包围框的宽度(以像素为单位);
<高度>:预测对象包围框的像素高度;
<得分>:检测结果文件中的分数表明了包围一个对象实例的预测边界框的置信度。“GROUNDTRUTH”文件中的分数设置为1或0。1表示计算时考虑包围盒,0表示忽略包围盒;
<类别>:对象类别表示标注对象的类型;
<截断>:检测结果文件中的分数应该设置为常数-1。GROUNDTRUTH文件中的分数表示物体部分出现在帧外的程度(即,没有截断= 0(截断率0%),部分截断= 1(截断率1%~50%));
<遮挡>:检测结果文件中的分数应该设置为常数-1。GROUNDTRUTH文件中的分数表示物体被遮挡的比例(即没有遮挡=0(遮挡率0%),部分遮挡=1(遮挡率1%~50%),重度遮挡= 2(遮挡率50%~100%))。
每项任务设一等奖1名,二等奖1名,三等奖1名。
各参赛队伍根据比赛成绩均可获得由VisDrone组委会颁发的获奖证书。
在中国数据挖掘会议举办期间(7月28日- 7月30日),组委会将举办挑战赛技术论坛,邀请每项任务获得一等奖的参赛队伍参加作特邀技术报告。
1. 各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,主办方保留追究法律责任的权利。
2. 各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。
3. 参赛队伍应保证所提供的方案、算法属于自有知识产权。组织方对参赛队伍因使用本队提供/完成的算法和结果而产生的任何实际侵权或者被任何第三方指控侵权概不负责。一旦上述情况和事件发生参赛队伍必须承担一切相关法律责任和经济赔偿责任并保护组织方免于承担该等责任。
参赛个人或团队请前往http://aiskyeye.com/home/注册报名。
报名截止日期为:2024年7月1日。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn