5月认识的，VQG的一些概念

xiaoxiao2022-06-27 358

##1. 什么是视觉问答VQA（Visual Question Answering）

给定一幅图片及与图片相关的问题，系统通过理解图片回答这个问题，它涉及到图像识别和自然语言理解。

比如这些例子：

它是计算机视觉和自然语言处理问题的高级综合，目前该技术对盲人世界有很大的帮助。

##2. 相关数据集：

textVQA ： https://textvqa.org/

VQA-v2数据集：https://visualqa.org/

VizWiz数据集：http://vizwiz.org/data/

视觉对话VisualDialog 数据集： https://visualdialog.org/

##3.相关模型

Pythia模型（VQA 的冠军），Pythia是一个深度学习框架，支持视觉和语言领域的多任务处理。基于开源PyTorch框架，模块化即插即用设计使研究人员能够快速构建，复制和基准测试AI模型。Pythia专为视觉和语言任务而设计，例如回答与视觉数据相关的问题并自动生成图像标题。

https://learnpythia.readthedocs.io/en/latest/index.html

https://github.com/facebookresearch/pythia

##4.相关挑战赛

VQA 2019 Challenge，https://visualqa.org/challenge.html

Vizwiz Challenge 2018，http://vizwiz.org/data/#challenge

专利

最新回复(0)