多模态智能及应用研究中心在国际顶级会议ACM MM上举办首届视觉文本问答挑战赛(VTQA 2023)

发布时间:2023-05-16来源:软件学院作者:动态浏览次数:39

ACM MM 2023 Grand Challenge

第一届视觉文本问答挑战赛(VTQA 2023)


视觉问答是一项具有挑战性的多媒体任务。哈尔滨工业大学计算学部多模态智能及应用研究中心邬向前教授团队在国际顶级人工智能学术会议ACM MM2023上举办首届视觉文本问答挑战赛Visual Text Question Answering Challenge, VTQA 2023),旨在进一步扩展视觉问答任务,对模型的多模态实体对齐、多步推理和开放域答案生成等能力提出更高的要求。

挑战赛任务:

如图所示

给定一张图像和文本对以及一个问题,模型需要使用自然语言回答问题。重要的是,该模型需要:

(1)分析问题并找出关键实体

(2)将图像和文本之间的关键实体对齐

(3)根据问题和对齐的实体生成答案

例如,图中Q1的关键实体是“爱莲娜”。根据文本“金色头发”,可以确定图像中右数第二人是“爱莲娜”。最后,根据图像信息进一步得到答案“西装外套”。而Q2是一个更复杂的问题,需要多次重复前面的步骤才能回答它。

参加挑战赛

VTQA 2023挑战赛包括中英文两个赛道,英文数据集为中文原始标注数据集的翻译结果。VTQA 2023挑战赛将分为2个阶段进行。

阶段1

本阶段为挑战赛的训练阶段。本阶段发布训练数据集,包括train、val、test_dev三部分,其中test_dev不包含答案。参赛者可提交test_dev的预测结果来评估模型性能。

阶段2

本阶段为挑战赛的评估阶段。参赛者需要提交Docker镜像文件来在不公开的test数据上进行评测。阶段2持续4周,每周评测一次,最后一周的评测结果排名作为VTQA 2023挑战赛的最终排名。

欢迎各界研究者踊跃参加报名!

参赛网址https://visual-text-qa.github.io/

基线论文https://arxiv.org/abs/2303.02635

联系方式:chenkangcs@stu.hit.edu.cn

重要日期:

开放注册

03.04, 2023(AOE时间)

数据集发布

03.04, 2023(AOE时间)

阶段1启动

03.04, 2023(AOE时间)

阶段2启动

05.29, 2023(AOE时间)

提交截止

06.25, 2023(AOE时间)

竞赛结果公开

07.04, 2023(AOE时间)

论文提交截止

07.14, 2023‍‍(AOE时间)


Organizers:

邬向前 哈尔滨工业大学

陈康  哈尔滨工业大学

赵添立 哈尔滨工业大学


Programme Committee(按姓氏排序):

车万翔 哈尔滨工业大学

陈康  哈尔滨工业大学

崔一鸣 哈工大讯飞联合实验室

邓柯  清华大学

丁效  哈尔滨工业大学

范晓鹏 哈尔滨工业大学

冯骁骋 哈尔滨工业大学

付瑞吉 快手

高扬  北京理工大学

洪晓鹏 哈尔滨工业大学

李涓子 清华大学

李丕绩 南京航天航空大学

李洋  东北林业大学

聂礼强 哈尔滨工业大学

苏劲松 厦门大学

孙茂松 清华大学

唐都钰 腾讯人工智能实验室

邬向前 哈尔滨工业大学

夏睿  南京理工大学

徐童  中国科学技术大学

杨亮  大连理工大学

杨敏  中国科学院深圳先进技术研究院

昝红英 郑州大学

赵添立 哈尔滨工业大学