视觉问答demo已上线

大家好,视觉问答demo已经在CogDL网页上线展示了,链接:visualMGN demo.
视觉问答(visual MGN)项目是利用图神经网络模型进行训练,达到提取分析所给图片的信息,进而回答提出的相关问题的目的。目前我们的demo项目支持CLEVR和GQA两个数据集。 CLEVR是一个人工合成数据集,重在测试模型的视觉推理能力。模型需要在图片给出的几何体的基础上,完成问题所要求的复杂推理。

GQA是一个综合数据集,对模型的场景理解能力和视觉推理能力均有比较高的要求。数据集由110,000张真实图片和约22,000,000个自然语言问题组成。

本demo提供对CLEVR和GQA两个数据集上的VQA任务展示,主页为CLEVR,点击按钮进入GQA数据集。首页展示从数据集的test集选取的部分图片,点击图片进入提问界面,输入问题后,跳转到结果界面。此过程中后端将图片的id和问题作为参数传到mgn模型下游构造的executor中,将得到的答案传回前端展示。

1 个赞