跳转至

海滨的Blog

图文多模态数据集归纳（一）

图文多模态数据集归纳（一）¶

本文写于2025年7月24号晚11点

前言¶

在当今人工智能快速发展的时代，图文多模态技术正日益成为连接视觉与语言的重要桥梁。

为了帮助研究者系统梳理现有数据资源，本归纳从十二大应用场景入手：从基础的图像描述（Caption）、通用问答（General QA）、数学题推理（Mathematics），到专注文字识别的 OCR，以及涵盖知识推理、视觉定位（Grounding）、文档解析、科学问答、对话系统、医疗影像、界面交互（GUI）与评估方法等方向。每一章节均汇集代表性数据集，深入剖析其特点与适用场景，助力大家快速定位所需资源、对比方法优劣，并为后续的模型设计与创新提供坚实的基石。

之所以写一是因为后面还会有，本文中的数据集仅关注于单图QA，后续会增加多图和视频的总结放到二三。

本文资料会一直更新，欢迎批评指正

1. Caption¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	是否包含 Caption 数据	是否包含多模态 QA Instructtion 数据	训练还是评估
TextCaps	使用包含文字内容的图像进行图像描述的数据集，每张图像有 5 个描述，旨在提高模型对图像中文字的理解和描述能力	计算机视觉、自然语言处理	2020	英文	28408 张图像，142040 条描述	Facebook AI Research 团队	评估多模态模型的图像描述和阅读理解能力	Hugging Face	是	否	训练/评估
ShareGPT4o	一个大规模的多模态数据集，包含20万张图像、1万段视频和1万份音频的详细描述，利用GPT-4o的多模态能力生成注释。	自然语言处理、多模态	2025	中文、英文	图像：20万张；视频：1万段；音频：1万份（即将推出）	OpenGVLab、上海人工智能实验室等机构	用于增强大型多模态模型的模态对齐和整体性能，提供高质量的图像、视频和音频描述。	Hugging Face	是	是	训练
ShareGPT4V	基于ShareGPT和GPT-4V的多模态对话数据集，包含图像与文本交互指令及回复。	多模态、视觉语言	2023	中文/英文	数百万对话样本	华科	视觉语言模型训练	https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md	是	是	训练
OpenImages-Caption	基于 OpenImages 数据集的图像描述数据集，提供了丰富的图像和对应的描述，涵盖多种物体类别和场景	计算机视觉、自然语言处理	2018	英文	训练集 500 万张图像，验证集 25000 张图像，测试集 100000 张图像，每张图像有多个描述	Google	用于图像描述生成任务，帮助模型理解复杂场景中的物体和关系	OpenImages	是	否	训练和评估
NewYorkerCaptionContest	以《纽约客》杂志的卡通图片为素材，收集用户生成的幽默标题，用于研究幽默和创造力在图像描述中的应用	计算机视觉、自然语言处理、幽默计算	-	英文	约 2400 张图像，每张图像有多个用户生成的标题	《纽约客》杂志及研究机构	用于探索图像描述中的幽默元素和创造力，评估模型生成幽默描述的能力	https://huggingface.co/datasets/jmhessel/newyorker_caption_contest	是	否	评估
LAION-400-M	大规模图像-文本对数据集，包含4亿个图文对，用于训练视觉语言模型。	图像与文本	2021	多语言	4亿图文对	LAION组织	视觉语言模型训练	HuggingFace	是	否	训练
LAION-COCO	LAION-COCO 是基于 COCO 数据集扩展的一个多模态数据集，包含图像与文本描述的配对，专注于大规模的图像-文本对生成任务。该数据集将 COCO 图像集与更多图像-文本对进行组合。	多模态学习，图像描述，计算机视觉	2022	英文	包含超过600万张图像与其文本描述	LAION（德国）	图像描述生成，图像-文本对匹配	Hugging Face LAION-COCO	是	否	训练和评估
LAION-5B	LAION-5B 是一个超大规模多模态数据集，包含 58.5 亿个图像-文本对，涵盖多种语言，广泛用于多模态模型的预训练。	一般	2022	多语言	58.5亿个图像-文本对	LAION	预训练	https://arxiv.org/abs/2210.08402	是	否	训练
LLaVAR	基于 LAION 数据集，专注于提升模型对含文本的图像（如电影海报、书籍封面等）的理解能力，使用 OCR 工具收集 422K 文本丰富图像的预训练数据，并通过与仅文本的 GPT-4 交互生成 16K 高质量指令遵循数据用于微调	计算机视觉、自然语言处理	2023	中文、英文	包括 422K 预训练数据和 16K（或 20K 更多样本的扩展集）微调数据点	Georgia Tech、Adobe Research、Stanford University	用于增强视觉指令调整模型对图像中文本细节的理解，在文本基础的视觉问答数据集（如 ST-VQA、OCR-VQA、TextVQA 和 DocVQA）和 ScienceQA 上显著提升模型性能	https://llavar.github.io/#data	是	是	训练和评估
MMInstruct	MMInstruct包含 973K 条来自 24 个领域的指令，旨在解决现有视觉指令微调数据集在指令注释质量、图像和指令多样性方面的不足，以提升视觉大型语言模型（VLLMs）的性能。	知识、多学科	2024	英语	指令数量为 973K 条	上海AILab	指令微调	https://huggingface.co/datasets/yuecao0119/MMInstruct-GPT4V	是	是	训练
CC12M	CC12M 是一个包含 1200 万图像文本对的多模态数据集，与CC3M 相比，它更大，涵盖了更多的视觉概念集，该概念集广泛用于图像字幕模型的预训练和端到端训练。	Caption	2021	英语	1200万图像文本对	Google	预训练	https://github.com/google-research-datasets/conceptual-12m	是	否	训练
CC3M	CC3M 提供了 300 万图像文本对，用于多模态预训练，帮助模型学习图像和文本之间的关联。	一般	2021	英语	300万图像文本对	Google	预训练	https://huggingface.co/datasets/pixparse/cc3m-wds	是	否	训练
SBU	SBU 数据集包含 80 万张图像和 100 万条文本描述，广泛用于图像描述生成任务的训练和评估。	Caption	2011	英语	80万张图像，100万条描述	纽约州立大学石溪分校	图像描述	https://opendatalab.com/OpenDataLab/SBU_Captions_Dataset/tree/main	是	否	训练/评估
WuKong	WuKong是一个大规模的中文跨模态预训练数据集，包含 100 万对 < 图像，文本 >，图像和文本均经过过滤处理，考虑了隐私和敏感词等因素。	Caption	2022	中文	100 万对 < 图像，文本	华为诺亚方舟实验室与昇思 MindSpore 社区	预训练	https://wukong-dataset.github.io/wukong-dataset/	是	否	训练
InternVL-SA-1B-Caption	InternVL-SA-1B-Caption 是一个高质量的多模态交错数据集，包含 10 亿文本令牌和 30 亿图像，用于多模态模型的预训练。	一般	2024	英语	10亿文本令牌和30亿图像	OpenGVLab	预训练	https://huggingface.co/datasets/OpenGVLab/InternVL-SA-1B-Caption	是	否	训练
Multimodal C4	Multimodal C4 是一个基于 C4 的多模态数据集，从 Common Crawl 数据中提取的多模态数据集，包含图文对等多种多模态内容。	多领域，涵盖互联网上的各种主题和内容	2023	主要为英语，也有其他语言的数据	-	Google	预训练	https://github.com/allenai/mmc4	是	否	训练
MINT-1T	MINT-1T 是一个大规模多模态交错数据集，包含 1 万亿个文本token和34图片，用于多模态模型的预训练，提升模型的泛化能力。	一般	2024	英语	1万亿个图像和文本对	新加坡管理学院 Green AI 实验室和韩国科学技术院（KAIST）等	预训练	https://github.com/mlfoundations/MINT-1T	是	否	训练
Flickr30k	Flickr30k 提供了 31,783 张图像，每张图像配有 5 个文本描述，广泛用于图像描述生成任务的评估。	看图说话	2014	英语	31,783张图像，158,915条描述	-	图像描述评估	https://huggingface.co/datasets/nlphuji/flickr30k	是	否	评估

2. General QA¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	是否包含 Caption 数据	是否包含多模态 QA Instructtion 数据	训练还是评估
VQAv2	VQAv2 是一个大规模的视觉问答数据集，包含超过 20 万张图像和 110 万个问题，用于训练和评估模型的视觉问答能力。	一般 QA	2017	英语	超过20万张图像，110万个问题，1100万个答案（单个问题十个答案）	弗吉尼亚理工大学	视觉问答	VQAv2 链接	否	是	训练/评估
OK-VQA/A-OKVQA	OK-VQA/A-OKVQA 是一个开放式视觉问答数据集，包含复杂的问答对，用于评估模型在视觉问答任务中的表现。	一般 QA	2019	英语	-	CMU	视觉问答评估	https://okvqa.allenai.org/download.html https://github.com/allenai/aokvqa?tab=readme-ov-file#downloading-the-dataset	否	是	评估
GQA	GQA 着重真实世界图像的推理和组合式问题回答，包含复杂的问题和答案，用于提升模型的推理能力。	推理	2019	英语	113K images and 22M questions	斯坦福大学	视觉问答	GQA 链接	否	是	训练
IconQA	IconQA 是一个抽象图表视觉问答基准，包含图表和相关问题，用于评估模型在图表理解方面的能力。	图表理解	2021	英语	10万个图表及相关问题	新加坡科技设计大学	图标理解评估	https://opendatalab.com/OpenDataLab/IconQA	否	是	评估
Visual7W	一个大规模的视觉问答（QA）数据集，具有对象级基础和多模态答案。每个问题都以七个 W 之一开始。	计算机视觉	2015	英语	327,929 个 QA 对，1,311,756 个人工生成的多项选择，561,459 个对象基础	斯坦福大学	视觉问答任务的研究与评估	OpenDataLab	否	是	评估
VisText	VisText是一个包含12,441个图表及其描述的数据集，用于生成语义丰富的图表标题。	数据可视化	2023	英语	12,441对图表和标题	MIT CSAIL	图表描述生成、语义分析	Hugging Face	是	否	评估
VSR	VSR（Visual Spatial Reasoning）是一个包含超过 10k 自然文本 - 图像对的数据集，涵盖 66 种空间关系，用于测试视觉 - 语言模型（VLMs）在理解图像中的空间关系方面的能力。	机器学习、计算机视觉、自然语言处理	2022 年	英语	包含超过 10k 数据点，使用 6,940 张来自 MS COCO 的图片，涵盖 66 种空间关系	剑桥大学	在理解图像中两个对象之间空间关系方面的能力	https://huggingface.co/datasets/juletxara/visual-spatial-reasoning	是	否	评估
TallyQA	世界上最大的开放性计数问题数据集，包含简单和复杂计数问题，用于研究视觉问答中的计数问题	计算机视觉	2019	英语	287K问题/165K图像	Rochester Institute of Technology	训练和评估复杂计数问题的视觉问答模型	GitHub	否	是	训练和评估
VisDial	VisDial 数据集基于 MS COCO 图像数据集，精心筛选了 120 000 张多样化的日常场景图片，并通过 Amazon Mechanical Turk 平台收集了对应的对话数据。每张图片对应一条对话，对话长度固定为 10 轮，包含提问与回答两部分，总计约 1.2 百万 (1,200,000) 个问答对，既涵盖了对显而易见视觉属性（如颜色、位置、物体类别）的提问，也涉及对场景语义、物体关系甚至主体意图的深入追问	计算机视觉	2017	英语	1.2 百万 (1,200,000) 个问答对	Georgia Institute of Technology	训练和评估视觉对话模型	GitHub	是	是	训练和评估
Hateful-Memes	用于检测多模态仇恨言论的数据集，包含带有文本的图像（网络迷因）	计算机视觉、自然语言处理	2020	英语	约10,000个样本	Facebook AI、DrivenData	训练和评估多模态仇恨言论检测模型	GitHub	是	否	训练和评估
FSC147	用于少样本目标计数任务的数据集，包含147个类别、6,135张图像，提供点注释和示例框	计算机视觉	2021	英语	6,135图像/147类别	VinAI Research、石溪大学	训练和评估少样本目标计数模型	GitHub	否	是	训练和评估
MMInstruct	MMInstruct包含 973K 条来自 24 个领域的指令，旨在解决现有视觉指令微调数据集在指令注释质量、图像和指令多样性方面的不足，以提升视觉大型语言模型（VLLMs）的性能。	知识、多学科	2024	英语	指令数量为 973K 条	上海AILab	指令微调	https://huggingface.co/datasets/yuecao0119/MMInstruct-GPT4V	是	是	训练
VisualGenome	VisualGenome 是一个大规模的视觉数据集，包含了图像、对象、属性和关系等信息，目的是为计算机视觉和语言理解任务提供支持。	计算机视觉，图像理解，语言理解	2016	英文	包含超过10万张图像，超过500万个标注	VisualGenome团队	视觉推理、视觉问答、图像描述生成	https://huggingface.co/datasets/ranjaykrishna/visual_genome	是	是	训练和评估
ShareGPT4V	基于ShareGPT和GPT-4V的多模态对话数据集，包含图像与文本交互指令及回复。	多模态、视觉语言	2023	中文/英文	数百万对话样本	华科	视觉语言模型训练	https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md	否	是	训练
LLaVa	LLaVa 是一个用于多模态视觉问答和推理的大型数据集，结合了语言和视觉信息，支持大规模的视觉语言理解。	多模态学习，视觉问答，语言理解	2023	英文	包含约150,000个问答对和图像数据	LLaVa团队	视觉问答，视觉推理，语言理解	https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K	否	是	训练和评估
CogVLM-SFT-311K	CogVLM‑SFT‑311K 是用于 CogVLM v1.0 初始训练的主对齐语料，包含中英文双语的视觉指令–响应对。它旨在提升模型的视觉理解与多轮对话能力，尤其针对图像描述和图像问答场景。	多模态预训练模型	2023	中英双语	总计约 31 万样本，包括图片和描述、多轮对话、单轮对话等数据	清华大学	视觉语言模型的监督微调、多模态对话系统开发等	huggingface	是	是	主要用于训练
LVIS-Instruct4V	包含通过使用 LVIS 中的图像提示强大的 GPT-4V 生成的 22 万个视觉对齐和上下文感知的指令	计算机视觉等	2023	未明确	包含 22 万个视觉对齐和上下文感知的指令	复旦大学、马里兰大学等	用于多模态模型的指令微调，提升模型在视觉问答等任务中的性能	github	否	是	用于训练和评估
MMIF-23k	一个大规模的多模态指令跟随训练数据集，包含高质量的图像-指令对，用于提升多模态大语言模型的指令跟随能力。	多模态（图像、文本）	2025	中文、英文	23,000 条数据	上海人工智能实验室等机构	用于多模态指令跟随任务的监督式微调（SFT）和直接偏好优化（DPO）	GitHub	是	是	训练
M3IT	一个大规模的多模态多语言指令微调数据集，包含 240 万条数据和 400 条手动编写的任务指令，覆盖 40 种任务类型。	多模态（图像、文本、视频）	2023	英语、中文、80 种语言	240 万条数据	北京大学、香港大学、上海人工智能实验室	用于多模态指令微调，提升模型在多语言和多任务上的表现	Hugging Face	是	是	训练
Infinity-MM	一个大规模的多模态指令数据集，包含超过 4000 万条数据，涵盖图像描述、视觉问答、推理等多种任务，支持多语言和数据合成。	多模态（图像、文本）	2024	英语、中文	4000 万条数据	北京人工智能研究院	用于训练多模态大语言模型，提升其在多任务上的表现	Hugging Face	是	是	训练

3. Mathematics¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
Super-CLEVR	Super‑CLEVR 是一个合成视觉问答诊断基准，通过可控的视觉复杂度、问题冗余、概念分布和概念组合性四个域偏移因素，评估模型的泛化能力。	视觉推理	2022	英文	30k 图像，10k 问题	Johns Hopkins University	用于视觉问答模型的测试和研究	Hugging Face	否	是	评估
CMM-Math	用于评估和增强大型多模态模型数学推理能力的中文多模态数学数据集	数学推理	2024	中文	28k+ 训练样本，5k+ 评估样本	华东师范大学	用于数学问题的多模态推理研究	Hugging Face	否	是	训练和评估
MAVIS	用于多模态大语言模型的数学视觉指令微调数据集，包含数学视觉问题和解决方案	数学视觉问题解决	2024	中文	MAVIS-Caption 558k 图像-标题对，MAVIS-Instruct 834k 问题	中国科学技术大学等	用于数学视觉问题的多模态推理研究	GitHub	是	是	训练和评估
GeomVerse	一个用于评估视觉数学问题解决能力的多模态基准数据集，包含几何问题和图表	数学	2023	英语	2612个高质量数学问题，每个问题有6种不同版本，总计约15000个测试样本	AI4Math	评估多模态大语言模型的数学推理能力	Hugging Face	否	是	评估
MetaMath-Rendered	MetaMathQA 数据集通过答案增强、问题重述、自我验证与正反向推理等多视角自举策略，生成近 39.5 万条格式化 JSON 数学问答对	数学	2023	英语	39.5 万	MetaMath	提高大语言模型的数学推理能力	Hugging Face	否	是	训练和评估
MapQA	一个用于问答的地理信息图表数据集，包含多种地图风格和问题类型	地理信息	2022	英语	约800K问题-答案对，覆盖约60K地图图像，分为3个子集（MapQA-U、MapQA-R、MapQA-S）	The Ohio State University	评估模型对地理信息图表的理解能力	GitHub	是	是	训练和评估
GeoQA+	基于 GeoQA 的增强型几何问题解答基准数据集，包含更丰富类型和更高难度的问题	几何问题解答	2022	英文	训练集 6,027 个问题，测试集 7,528 个问题，数据增强后训练集扩展到 12,054	SCNU203 团队	用于几何问题的自动解答研究，支持模型训练和评估	GitHub	否	否	训练 + 评估
Geometry3K	大规模几何问题解答数据集，包含多选几何问题及图表和文本的形式语言注释	几何问题解答	2021	英文	3,002 个多选几何问题，27,213 个图表逻辑形式，6,293 个文本逻辑形式	InterGPS 团队	用于几何问题的自动解答研究，支持模型训练和评估	Hugging Face	是	是	训练 + 评估
UniGeo	统一几何问题基准，包含计算和证明问题，支持多任务几何问题解答	几何问题解答	2022	英文	4,998 个计算问题和 9,543 个证明问题	中山大学	用于几何问题的统一逻辑推理研究，支持多任务模型训练和评估	GitHub	否	是	训练 + 评估
GeoS	用于自动解决数学问题的数据集，包含 SAT 平面几何问题，每个问题有英文文本描述、图表和多项选择	数学	2015	英语	未明确具体规模，包含一定数量的 SAT 几何问题	University of Washington	训练和评估自动解题模型	OpenDataLab	否	是	训练 + 评估
CLEVR-Math	用于组合语言、视觉和数学推理的多模态数学问题数据集，包含简单的加减法问题，部分由文本描述，部分由图像展示	数学	2022	英语	包含约 5000 个测试场景（多模态问题）	Umeå University 和 Örebro University	训练和评估多模态推理模型	Hugging Face	是	是（包含文本和图像的多模态问题）	训练 + 评估
TallyQA	世界上最大的开放性计数问题数据集，包含简单和复杂计数问题，用于研究视觉问答中的计数问题	计算机视觉	2019	英语	287K问题/165K图像	Rochester Institute of Technology	训练和评估复杂计数问题的视觉问答模型	GitHub	否	是	训练和评估

4. OCR¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
LaionCOCO-OCR	从Laion-5B-en数据集中生成的6亿条高质量合成图像描述数据，用于视觉文档理解	计算机视觉	2022	英语	6亿条描述	LAION	训练视觉文档理解模型	Hugging Face	是	否	训练
ParsynthOCR	20万条合成OCR数据，用于多语言OCR任务	计算机视觉	2024	多语言	20万条数据	HezarAI	训练OCR模型	Hugging Face	是	否	训练
SynthDoG-EN	用于视觉文档理解的合成文档数据集，包含图像和文本对	OCR	2024	英语	未明确	Naver Clova IX	训练视觉文档理解模型	Hugging Face	是	否	训练
SynthDoG-ZH	用于OCR训练的合成中文文档图像数据集，包含多种文档样式和文本内容	OCR	2024	中文	50万样本	Naver Clova	用于OCR模型训练和文档理解	Hugging Face	否	否	训练
SynthDoG-RU	用于OCR训练的合成俄语文档图像数据集，包含多种文档样式和文本内容	OCR	2022	俄语	50万样本	Naver Clova	用于OCR模型训练和文档理解	Hugging Face	否	否	训练
SynthDoG-JP	用于OCR训练的合成日语文档图像数据集，包含多种文档样式和文本内容	OCR	2022	日语	50万样本	Naver Clova	用于OCR模型训练和文档理解	Hugging Face	否	否	训练
SynthDoG-KO	用于OCR训练的合成韩语文档图像数据集，包含多种文档样式和文本内容	OCR	2022	韩语	50万样本	Naver Clova	用于OCR模型训练和文档理解	Hugging Face	否	否	训练
IAM	包含13,353张手写文本行图像，由657名作者书写，标注到句子、行和单词级别	手写文本识别	2021	英语	13,353张图像	IAM团队	用于手写文本识别研究	https://fki.tic.heia-fr.ch/databases/iam-handwriting-database	否	否	评估
EST-VQA	用于双语场景文本视觉问答的数据集，包含中英文问题和答案，强调多模态信息融合	计算机视觉与自然语言处理	2020	中英双语	25,239图像/28,062问题	University of Adelaide	视觉问答、模型评估	GitHub	否	是	训练 + 评估
ST-VQA	强调利用图像中的文本信息进行视觉问答，包含场景文本问答任务	计算机视觉与自然语言处理	2019	英语	23,038 张图片，31,791 个问答对	西班牙巴塞罗那自治大学	视觉问答、模型评估	Hugging Face	否	是	训练 + 评估
NAF	提供表单图像数据集，包含文本边界框、类别、关系和转录信息	文档分析与表单理解	2019	英语	708 张训练图像，75 张验证图像，77 张测试图像；	美国国家档案馆、FamilySearch、Brian Davis（个人研究者）	表单解析、文档理解	GitHub	否	是	训练 + 评估
InfoVQA	用于信息图表视觉问答的数据集，包含多样化信息图表及问答注释	信息可视化与问答	2021	英语	5,485 张图片，30,035 个问答对（训练集 4,406 张图片，23,946 个问答对；验证集 500 张图片，2,801 个问答对；测试集 579 张图片，3,288 个问答对）	Minesh Mathew 等研究者	信息图表理解、视觉问答	DocVQA	否	是	训练 + 评估
HME100K	大规模手写数学表达式数据集，用于评估手写数学表达式识别任务	数学表达式识别	2022	中英双语	10 万张手写数学表达式图像，包含 245 个符号类别（训练集 74,502 张图像，测试集 24,607 张图像）	Ye Yuan	手写数学表达式识别	GitHub	是	否	训练 + 评估
OCRVQA	OCR‑VQA‑200K含20万封面和100万问答，模板生成改写问题，标注文本块并划分训练验证测试	场景文本理解	2019	英文	207k QA对/92k图像	佐治亚理工学院	OCR问答、视觉推理	https://ocr-vqa.github.io/	否	是	训练/评估
SROIE	扫描收据文本检测与识别任务	文档理解	2019	英文/中文	1k 收据图像	ICDAR竞赛	KIE (关键信息抽取)	HuggingFace 论文	否	是	评估基准
POIE	面向POI-Query的新颖文档级信息抽取数据集	地理文本理解	2023	英文+多语言	72k 图像	阿里/中山大学	文档信息抽取	GitHub 论文	否	是	训练/评估
CTW	中文街景文本检测数据集	场景文本检测	2017	中文	32.5k 图像 1M+字符	华中科技大学	端到端文本识别	官网论文	是	否	评估基准
SynthText	合成场景文本图像数据集	场景文本检测	2016	英文	80万张合成图像	牛津大学VGG	文本检测预训练	GitHub 论文	是	否	训练
Art	包含与艺术相关的故事性问题和答案对，涉及艺术作品的视觉和知识理解	艺术	2020	英语	QA对数量：训练集69,812对，验证集5,124对，测试集4,912对	Allen Institute for AI	视觉问答任务研究	Hugging Face	否	是	训练和评估
LSVT	大规模街景视图文本数据集，包含部分标注的文本检测和识别挑战数据	场景文本识别	2019	中文	450,000张图像，其中30,000张全标注，400,000张弱标注	华为诺亚方舟实验室、华中科技大学	场景文本检测和识别研究	Hugging Face	是	否	训练和评估
RCTW-17	用于读取图像中中文文本的竞赛数据集，包含街景、海报、菜单等多种场景图像	场景文本识别	2017	中文	12,263张标注图像	华中科技大学、Megvii Technology Inc.、Cornell University等	中文场景文本检测和识别	RCTW官网	否	否	训练和评估
ReCTS	多方向自然场景文本数据集，包含招牌上的文本行和字符位置及字符代码标注	场景文本识别	2019	中文	25,000张图像，约200,000条文本行和600,000个字符标注	华中科技大学、加州大学洛杉矶分校、微软亚洲研究院	中文场景文本检测和识别	OpenDataLab	否	否	训练和评估
MTWI	多样式网络图像文字检测与识别数据集，包含中英文标注	场景文本识别	2022	中英	10万+图像，包含中英文标注，训练集和测试集划分	阿里巴巴	OCR检测与识别研究	ModelScope	否	否	训练和评估
TextVQA	需要模型读取图像中的文字以回答问题的数据集	视觉问答	2019	英语	45,336个问题，28,408张图像	Facebook AI Research	视觉问答任务研究	Hugging Face	是	是	训练和评估
CASIA	图像篡改检测数据集，包含真实和篡改图像的标注	图像篡改检测	2013	中英	5,123张篡改图像，1,701张真实图像	CASIA实验室	图像篡改检测研究	GitHub	否	否	训练和评估
TextOCR	针对任意形状场景文本的检测和识别数据集	场景文本识别	2021	英语	28,000张图像，900,000个单词标注	Facebook AI Research	OCR检测与识别研究	Kaggle	否	否	训练和评估
Chinese-OCR	包含丰富拍摄场景的中文OCR数据集，涵盖杂志、报纸等多种采集环境	自然语言处理、OCR	2024	中文	5027 张图片	北京安捷智合科技有限公司	中文OCR识别	Hugging Face	否	否	评估
EATEN	提供实体感知的单次视觉文本提取数据集，包含真实和合成票据、护照等图像	自然语言处理、OCR	2019	中/英/数字	60 万合成图像，300k 真实图像	百度视觉技术部	实体提取、OCR后校正	GitHub	否	否	训练/评估
COCO-Text	大规模自然场景文本检测和识别数据集，标注了文本的细粒度分类和转录信息	计算机视觉、OCR	2016	英文	63,686 张图片，173,589 个标注文本实例	Microsoft COCO	场景文本检测与识别	COCO-Text	否	否	训练/评估
Synthetic Arxiv OCR	从arXiv挖掘的科学文献合成OCR数据集，用于OCR后校正模型训练	自然语言处理、OCR	2023	英文	2.03 亿字符对	University of Illinois	OCR后校正	GitHub	否	否	训练
ChartQA	用于图表问答的数据集，包含视觉和逻辑推理问题，涵盖柱状图、折线图等	数据可视化、问答	2022	英文	20,882 张图表，32,719 个问答对	York University, Nanyang Technological University	图表问答、视觉推理	Hugging Face	是	是	训练/评估
MMTab	学术文档中表格图像与其结构化LaTeX源码的对齐数据集	表格图像处理	2024	英文	22,081 table images	复旦大学	表格图像识别、表格结构重建	HuggingFace	否	否	训练 + 评估
PlotQA	含复杂真实世界图表（折线/柱状/饼图）的可视化问答数据集	图表理解	2019	英文	224,377 图表 (28.9M QA pairs)	IBM Research	评估模型对图表内容的理解与推理能力	GitHub	否	否	主要评估
FigureQA	基于合成图表的二分类视觉问答数据集	图表理解	2017	英文	1,327,368 QA pairs (100k+ images)	Maluuba/Microsoft	测试模型对基本图表元素（条形图/折线图）的理解	Official	否	否	主要评估
VisText	文本密集型图像（海报、截图、文档）的端到端文本识别 & 图文问答数据集	文本识别 & 视觉问答	2023	英文	646,605 图像（3.2M QA pairs）	MIT & Google	场景文本识别(VQA)、端到端文档理解	HuggingFace	是	是	训练 + 评估
LRV-Instruction	文档密集型多模态指令调优数据集（文档、图表、表格、图示等）	多模态指令微调	2023	多语言	738k 视觉文档指令样本	苏黎世联邦理工学院	提升大模型在视觉文档理解任务中的指令遵循与推理能力	HuggingFace	是	是	训练（指令微调）
ArxivQA	从arXiv论文提取的图表问答数据集，包含科学图表理解任务	多模态科学图表理解	2024	英文	60万+图像/问题	香港中文大学、微软等	训练与评估大模型对科学图表的理解能力	Hugging Face	否	是	训练/评估
TabMWP	表格数学推理数据集，需结合表格和文本进行数学推理	半结构化数学推理	2023	英文	3.8万问题	UCLA、艾伦人工智能研究所等	评估模型对表格数据的数学推理能力	GitHub	否	否	评估
MMC-Inst	大规模多模态图表指令数据集，覆盖多种图表类型和任务	通用图表理解	2024	英文	60万指令样本	微软、华盛顿大学等	训练图表多模态大模型（如MMCA）	Hugging Face	是	是	训练
DVQA	柱状图问答数据集，测试图表结构理解能力	计算机视觉/图表理解	2018	英文	3.5万图像/问答	罗切斯特理工学院等	评估图表解析算法的鲁棒性	GitHub	否	是	评估
UniChart	通用图表理解预训练模型，支持多种下游任务（QA/摘要/表格提取等）	多模态图表理解	2023	英文	未公开具体规模	科克大学、西蒙菲莎大学等	提供预训练模型和微调能力	Gitging Face	是	是	训练/评估
SimChart9K	合成的图表数据集，通过LLM生成统计数据和绘图代码，用于增强图表感知和推理	图表理解、多模态	2024	英文为主	9,536张图表	上海人工智能实验室、上海交通大学	图表预训练/微调	GitHub	否	否	预训练
Chart2Text	从Statista抓取的统计图表数据集，用于自动生成图表摘要	图表摘要、自然语言生成	2019	英文	8,305张图表	滑铁卢大学	图表摘要生成训练与评估	GitHub	是	否	训练/评估
FinTabNet	针对表格识别的合成数据集，含复杂表格结构	表格识别、OCR	2024	中英双语	112,332张表格	华南理工大学、腾讯优图	表格结构识别训练与评估	HuggingFace	否	否	训练/评估
SciTSR	用于复杂表格结构识别的数据集，包含PDF格式的表格及其结构标签，从LaTeX源文件中获取	文档分析	2019	英文	15,000 (训练12,000/测试3,000)	北京理工大学计算机科学技术系	表格结构识别和模型训练	GitHub	否	否	训练/评估

5. Kownledge¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
KVQA	世界上第一个基于世界知识的视觉问答数据集，包含 183K 问答对，涉及 18K 命名实体和 24K 图像	计算机视觉、自然语言处理、人工智能	2019	英语	183K 问答对，24K 图像	IISC	用于视觉问答任务，特别是需要世界知识的问答	KVQA 官方网站	是	是	用于训练和评估
A-OKVQA	一个需要广泛常识和世界知识来回答的视觉问答数据集，包含约 25K 问题，要求模型进行常识推理	计算机视觉、自然语言处理	2022	英语	约 25K 问题，23.7K 图像	Allen Institute for AI	用于视觉问答任务，特别是需要常识和世界知识的问答	Hugging Face A-OKVQA	是	是	用于训练和评估
ViQuAE	一个关于命名实体的知识型视觉问答数据集，包含 1190 个训练样本、1250 个验证样本和 1257 个测试样本	计算机视觉、自然语言处理	2022	英语	1190 训练样本，1250 验证样本，1257 测试样本	Paul Lerner 等人	用于知识型视觉问答任务，特别是关于命名实体的问答	GitHub ViQuAE	是	是	用于训练和评估
IconQA	IconQA 是一个抽象图表视觉问答基准，包含图表和相关问题，用于评估模型在图表理解方面的能力。	图表理解	2021	英语	10万个图表及相关问题	新加坡科技设计大学	图标理解评估	https://opendatalab.com/OpenDataLab/IconQA	否	是	评估
VisualMRC	机器阅读理解任务，给定问题和文档图像，模型需生成自然语言答案	文档理解	2021	中/英	10,197张图像，30,562个问答对	NTT Media Intelligence Laboratories	用于机器阅读理解和文档理解研究	HuggingFace	是	是	训练和评估
ChemVLM Data	用于化学领域的多模态语言模型，包含化学图像和文本信息	化学	2024	中/英	数据规模未明确，包含多种化学图像和文本数据	Shanghai Artificial Intelligence Laboratory 等	用于化学领域的多模态理解和推理	GitHub	是	是	训练和评估
ScienceQA	包含科学主题的多模态多项选择题，涵盖自然科学、社会科学和语言科学	科学教育	2022	英文	21,208个问题，涵盖多种科学主题和多模态上下文	UCLA 和 Allen Institute for AI	用于科学问题解答和多模态推理研究	HuggingFace	是	是	训练和评估
AI2D	包含超过5000张小学科学图表和超过150000个丰富注释的多模态数据集	科学教育	2016	英文	5000+张图像，150000+个注释，15000+个多项选择题	Allen Institute for AI	用于视觉问答和图表理解研究	HuggingFace	是	是	训练和评估
TQA	用于解决教科书问答任务的数据集，包含文本和图像的多模态输入。	教育/科学	2017	英语	1076 课，26,260 个问题，78,338 个句子，3,455 张图像	AI2 (Allen Institute for AI)	训练和评估多模态问答模型	Hugging Face	是	是	训练/评估
Wikipedia-QA	用于开放域问答研究的问答语料库，从维基百科中收集的问题和句子对。	开放域问答	2015	英语	训练集 20,360 个样本，验证集 2,733 个样本，测试集 6,165 个样本	Microsoft Research	训练和评估开放域问答模型	Hugging Face	否	否	训练/评估

6. Grounding¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
GRIT	GRIT是一个大规模的多模态数据集，支持多种位置感知的单模态/多模态任务，如短语定位、指代表达式理解和生成等。	计算机视觉、自然语言处理	2024	中文、英文	约9061万张图像，1.15亿个文本片段，1.37亿个关联的边界框	Microsoft Research	用于提升模型在细粒度多模态理解和生成任务中的表现	Hugging Face	是	否	训练和评估
gRefCOCO	gRefCOCO 数据集主要用于图像中对象的引用表达，包含了图像和自然语言中的指令，通过这些指令来定位图像中的对象。	计算机视觉，图像检索，视觉问答	2016	英文	约20,000张图像，包含超过142,000条引用	UC Berkeley	对象定位，图像检索，视觉问答	链接	否	是	训练和评估
Objects365	一个大规模、高质量的目标检测数据集，包含365个类别、200万张图片和3000万个边界框	计算机视觉	2019	中文/英文	365个类别，200万张图片，3000万个边界框	Objects365 Consortium	目标检测、特征学习等	Objects365官网	否	否	训练/评估
RefCOCO	一个自然语言引用表达数据集，包含19,894张照片中的96,654个对象的130,525个表达	计算机视觉	2014	英文	19,894张照片，96,654个对象，130,525个表达	UNC（北卡罗来纳大学教堂山分校）	自然语言引用表达研究等	Hugging Face	是	否	评估
RefCOCO+/g	RefCOCO的扩展版本，排除了位置介词，包含更丰富语义的表达	计算机视觉	2015	英文	基于RefCOCO扩展，具体规模未明确，但包含更复杂的语义表达	UNC（北卡罗来纳大学教堂山分校）	自然语言引用表达研究等	GitHub - refer	是	否	评估
GPT4Gen-RD-BoxCoT	用于多模态对话和指代任务的数据集，包含指代对话和带框的CoT数据	多模态对话、视觉问答	2023	英语	未明确具体规模，但包含指代对话和带框的CoT数据	-	用于训练和评估多模态对话模型，支持指代理解和生成任务	GitHub	是	是	训练和评估
All-Seeing-V1	用于泛视觉识别和理解的大规模数据集，包含超过10亿个区域的语义标签等	泛视觉识别、多模态理解	2023	英语	超过10亿个区域标注，1100万张图像，350万概念，1322亿个标记的语义信息	OpenGVLab	用于训练和评估多模态视觉语言模型，支持多种视觉语言任务	Hugging Face	是	是	训练和评估
All-Seeing-V2	提供关系对话（ReC）数据集，用于理解和生成图像中对象之间的关系	泛视觉识别、关系理解	2024	英语	包含127K高质量关系对话样本，涵盖详细描述、区域描述和对话任务	OpenGVLab	用于训练和评估多模态模型在关系理解任务上的性能	Hugging Face	是	是	训练和评估
V3Det	大规模视觉检测数据集，包含13204个类别的精确标注的边界框	视觉目标检测	2023	英语	243k图像，13204个类别，1753k边界框，提供类别描述和示例图像	上海人工智能实验室等	用于训练和评估大规模词汇量的视觉检测模型，支持开放词汇检测任务	GitHub	否	否	训练和评估
TolokaVQA	一个众包的多模态数据集，用于评估机器学习系统在视觉问答任务中的表现，给定图像和文本问题，需要绘制包围框作为答案	计算机视觉与自然语言处理	2023	英语	45,199 张图像和问题对，分为训练集、公共测试集和私有测试集	Toloka	用于评估机器学习模型在视觉问答任务中的表现，也可用于视觉搜索、增强现实、机器人等领域	Hugging Face	是（通过 BLIP-2 生成）	是	既有训练也有评估
DsLMF	用于智能识别地下长壁采矿工作面异常工况的图像数据集，包含 6 类目标的标注	采矿业	2024	无（图像数据集）	138,004 张图像	未明确提及具体发布机构，但由相关研究人员开发	支持地下采矿中异常状态的智能识别与分类研究	figshare	否	否	主要用于评估
COCO-ReM	对 COCO 数据集的实例标注进行了改进，提供了更高质量的掩码标注	计算机视觉	2024	无（图像数据集）	约 118 万张训练图像和 5,000 张验证图像，带有更精细的实例掩码	由相关研究人员开发	用于目标检测和实例分割任务的基准测试	Hugging Face	否	否	主要用于评估，也可用于训练

7. Document¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
DocReason25K	用于文档领域推理的指令微调训练集，包含详细推理解释，由 GPT3.5 或 GPT4V 产生	文档	2024	英语	2.5 万样本	Institute for Intelligent Computing	多模态指令微调、推理能力提升	Hugging Face	否	是	训练
DocVQA	文档图像上的视觉问答数据集，包含 5 万个问题，覆盖多种文档类型和内容	文档	2020	英语	12,767 图像，50,000 问题	CVIT, IIIT Hyderabad 等	文档图像的视觉问答研究	Hugging Face	否	是	评估
Docmatix	大规模文档视觉问答数据集，包含 240 万图像和 950 万问答对	文档	2024	英语	240 万图像，950 万问答对	Hugging Face M4 等	文档视觉问答模型的微调	Hugging Face	否	是	训练
Sujet-Finance-QA-Vision	该数据集包含超过 10 万个基于 9,800 多张金融文档图像的问答对，用于金融文档分析和视觉问答研究	金融	2024	英语	9,801 张图像，107,050 个问答对	Sujet AI	训练和评估视觉问答模型	Hugging Face	是，包含图像描述	是，包含基于图像的问答对	训练和评估
BigDocs-7.5M	一个大型文档级数据集，适用于文本分类和信息检索任务。	信息检索、文本分类	2022	英语	7.5M 文档	Microsoft	文档分类、信息检索、文本处理	https://bigdocs.github.io/	否	否	训练

8. Science¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
AI2D	包含超过5000张小学科学图表和超过150000个丰富注释的多模态数据集	科学教育	2016	英文	5000+张图像，150000+个注释，15000+个多项选择题	Allen Institute for AI	用于视觉问答和图表理解研究	HuggingFace	是	是	训练和评估
ScienceQA	包含科学主题的多模态多项选择题，涵盖自然科学、社会科学和语言科学	科学教育	2022	英文	21,208个问题，涵盖多种科学主题和多模态上下文	UCLA 和 Allen Institute for AI	用于科学问题解答和多模态推理研究	HuggingFace	是	是	训练和评估
TQA	用于解决教科书问答任务的数据集，包含文本和图像的多模态输入。	教育/科学	2017	英语	1076 课，26,260 个问题，78,338 个句子，3,455 张图像	AI2 (Allen Institute for AI)	训练和评估多模态问答模型	Hugging Face	是	是	训练/评估
ChemVLM Data	用于化学领域的多模态语言模型，包含化学图像和文本信息	化学	2024	中/英	数据规模未明确，包含多种化学图像和文本数据	Shanghai Artificial Intelligence Laboratory 等	用于化学领域的多模态理解和推理	GitHub	是	是	训练和评估

9. Conversation¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
ALiLaVA	提供了140万条由GPT-4V合成的高质量数据，用于训练轻量级视觉语言模型	视觉语言模型	2024	英语	1.4M	Freedom Intelligence	训练轻量级视觉语言模型	Hugging Face	是	是	训练
SVIT	提供了420万条视觉指令调优数据，包括对话问答、复杂推理问答等	视觉指令调优	2023	英语	4.2M	Beijing Academy of Artificial Intelligence	视觉指令调优研究	Hugging Face	是	是	训练
Cambrian-10M	提供了1000万条多模态数据，包括图像和对应的文本描述	多模态语言模型	2024	英语	10M	NYU VisionX	训练多模态语言模型	Hugging Face	是	是	训练
TextOCR-GPT4V	提供了基于GPT-4V的文本OCR数据，包含场景文本识别、手写文本识别等任务	光学字符识别（OCR）	2023	多语言	规模未明确	Jimmy Carter	OCR任务研究	Hugging Face	是	是	评估
MMDU	多轮多图像对话理解基准，用于评估和改进 LVLM 的多轮对话能力	人工智能、对话系统	2024	英语	110个对话，421张图片，1645个问答对，最大20张图片、17轮对话，18k tokens	上海人工智能实验室等	用于评估和改进 LVLM 在多轮多图像对话中的理解能力	GitHub	是	是	评估
Viet-ShareGPT4o	用于视觉问答任务的越南语数据集，包含图像和相关问题及答案	人工智能、视觉问答	2024	越南语	未明确具体规模，但包含图像和问答对	5CD-AI	用于视觉问答任务，提升模型对越南语的理解和生成能力	Hugging Face	是	是	未明确
RLAIF-V	通过开源 AI 反馈提升 MLLM 的可信度，包含高质量反馈数据和推理学习算法	人工智能、多模态语言模型	2024	英语	包含83,132个高质量比较对，涵盖多种任务和领域	RLHF-V 团队	用于提升 MLLM 的可信度，减少幻觉，增强推理能力	GitHub	是	是	训练和评估
Laion-GPT4V	由 GPT-4V 生成的视觉语言合成数据集，包含高质量的描述、指令和答案	人工智能、视觉语言模型	2024	英语	130万样本，涵盖多种视觉任务和指令对	Freedom Intelligence	用于训练轻量级视觉语言模型，提升其性能和效率	Hugging Face	是	是	训练
WildVision-GPT4o	用于评估视觉语言模型 (VLMs) 在真实场景中的表现，基于人类偏好的在线平台	多领域	2024	英语	20k+ 聊天记录，8k+ 投票	Allen Institute of AI 等	评估视觉语言模型性能	Hugging Face	是	是	评估

10. Medical¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
PMC-VQA	一个大规模医学视觉问答数据集，包含227k问答对，涉及149k张图像，涵盖多种模态和疾病	医学	2023	英文	包含227k问答对，149k张图像，覆盖多种模态和疾病	上海交通大学、上海人工智能实验室	医学视觉问答模型训练与评估	Hugging Face	是	是	训练、评估
VQA-RAD	一个关于放射学图像的视觉问答数据集，包含2248个问答对，315张图像	医学	2018	英文	包含2248个问答对，315张图像，分为训练集和测试集	Open Science Framework	医学视觉问答模型训练与评估	Hugging Face	是	是	训练、评估
ImageCLEF	包含多个图像检索和分类任务的数据集，用于多模态信息检索研究	医学	2008-2011	多语言	包含多个子数据集，如VCDT、Wikipedia图像检索等	ImageCLEF/LifeCLEF	图像检索、分类等任务研究	ImageCLEF官网	部分子数据集包含	部分子数据集包含	训练、评估
SLAKE	一个双语的医学视觉问答数据集，包含14k问答对，642张图像，涵盖多种模态和疾病	医学	2021	中英双语	包含14k问答对，642张图像，涵盖多种模态和疾病	香港理工大学、四川大学华西医院	医学视觉问答模型训练与评估	Hugging Face	是	是	训练、评估
Medical-Diff-VQA	用于胸部X光图像差异视觉问答的大型医学数据集，包含164,324对图像和700,703个问答对	医学影像	2025	英文	164,324对图像，700,703个问答对	PhysioNet	用于医学视觉问答任务，特别是比较同一患者不同时间的胸部X光图像的变化	PhysioNet	是	是	训练和评估
PMC-CaseReport	基于PubMed Central的病例报告数据集，包含317K训练对和121K测试图像的VQA对	医学文本	2023	英文	317K训练对，121K测试图像的VQA对	Hugging Face	用于医学视觉问答任务，基于病例报告生成问题和答案	Hugging Face	是	是	训练和评估
GMAI-VL (subset)	用于通用医学AI的大型视觉语言模型和多模态数据集，包含5.5M样本的子集	医学多模态	2024	英文/中文	5.5M样本的子集	上海交通大学、上海人工智能实验室等机构	用于医学视觉问答、医学图像诊断等多模态任务	GitHub	是	是	训练
PMC	包含1.65M图像-文本对的大型数据集，涵盖多种模态和疾病类型	医学多模态	2023	英文	1.65M图像-文本对	上海交通大学、上海人工智能实验室等机构	用于医学视觉问答、图像分类、图像-文本检索等任务	GitHub	是	是	训练和评估
VQA-Med	专注于放射学图像的医学视觉问答数据集，包含模态、平面、器官系统和异常等类别问题	医疗	2019	英语	包含 4,200 张放射学图像和 15,292 个问答对，分为训练集、验证集和测试集	ImageCLEF 2019 组织团队，由 Asma Ben Abacha 等人创建	训练和评估医学视觉问答系统	Hugging Face（无） GitHub	是	是	训练和评估
PathVQA	基于病理图像的视觉问答数据集，旨在开发能够通过美国病理学委员会考试的 AI 系统	医疗	2020	英语	包含 4,998 张病理图像和 32,799 个问答对，分为训练集、验证集和测试集	University of California San Diego 等机构，由 Xuehai He 等人创建	训练和评估医学视觉问答系统	Hugging Face	是	是	训练和评估
MedTrinity-25M	MedTrinity-25M 是一个医学多模态数据集，包含 2500 万对高质量的医学图像和文本，用于医学领域的多模态研究和应用。	医学Caption	2024	英语	2500万对医学图像和文本	-	医学多模态研究	-	是	是	训练/评估

11. GUI¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
Screen2Words	自动生成移动 UI 屏幕的功能性语言描述，用于语言交互和屏幕理解任务。	移动 UI	2021	英语	22,417 个 Android UI 屏幕，112,085 个语言描述	Google Research	训练和评估自动屏幕总结模型，用于语言交互、屏幕阅读器增强等应用	Hugging Face	是	否	训练和评估
WebSight	将网页截图转换为 HTML 代码，用于简化网页开发过程。	网页开发	2024	英语	200 万对 HTML 代码和对应的截图	Hugging Face	训练视觉语言模型，将网页设计快速转换为功能代码，支持无代码开发工具	Hugging Face	是	否	训练和评估
Widget-Caption	自动生成移动 UI 元素的语言描述，用于提高移动应用的无障碍性和语言交互能力。	移动 UI	2020	英语	21,750 个独特屏幕，61,285 个 UI 元素，162,859 个语言描述	Google Research	训练和评估用于生成移动 UI 元素描述的模型，提高无障碍性	Hugging Face	是	否	训练和评估
RICOSCA	用于移动 UI 自动化和无障碍技术研究的合成数据集，包含 UI 元素的描述和截图。	移动 UI	2017	英语	18,000 个屏幕，70,000 个 UI 元素，170,000 个描述	Google Research	训练模型以理解屏幕、解释移动界面，并在自动化和无障碍技术中应用	Hugging Face	是	否	训练和评估
SeeClick	一个基于视觉的GUI代理，仅依赖于界面截图来执行点击和输入等操作。	GUI代理	2024	英文	包含约600张截图、1200条指令，涵盖iOS、Android、macOS、Windows和网页环境	南京大学、上海AI实验室	用于训练和评估视觉GUI代理，提升GUI元素定位能力。	Hugging Face	是	是	训练和评估
ScreenQA	一个大规模的移动应用截图问答数据集，包含约86K问答对和35K截图。	移动应用	2022	英文	包含约86,025个问答对，35,352张截图。	Google Research	用于训练和评估屏幕内容理解模型，通过问答验证理解能力。	GitHub	是	是	训练和评估
AMEX	一个大规模的Android设备控制数据集，包含多层级注释和复杂任务指令。	移动设备控制	2024	英文	包含约104K截图、711K元素功能描述、3K复杂指令。	中科大、上海AI实验室	用于训练和评估通用移动GUI代理，提升对复杂任务的理解和执行能力。	Hugging Face	是	是	训练和评估
AITW	一个大规模的Android设备控制数据集，包含人类演示的设备交互和指令。	移动设备控制	2023	英文	包含715k演示，30k唯一指令，涵盖多种Android版本和设备类型。	Google Research	用于训练和评估设备控制模型，支持多步任务和复杂交互。	Hugging Face	是	是	训练和评估
Odyssey	用于训练和评估跨应用导航代理的综合性数据集，涵盖多种跨应用任务	移动设备GUI	2024	英语	包含7,735个来自6种移动设备的导航序列，涉及201个应用和1,399种应用组合	OpenGVLab	训练和评估跨应用导航代理，提升用户体验	Hugging Face	否	否	训练和评估
UIBert	用于学习通用多模态UI表示的数据集，包含UI元素的图像、文本和结构化元数据	用户界面	2021	英语	包含72k移动应用UI数据，扩展为相似UI组件检索和引用表达式组件检索任务	Google Research	学习通用多模态UI表示，提升UI理解和任务性能	GitHub	是	否	训练和评估
AndroidControl	用于训练和评估Android设备控制代理的数据集，包含真实用户任务演示	移动设备控制	2024	英语	包含15,283个Android应用任务演示，涵盖833个应用和14,548个独特任务	Google DeepMind	训练和评估基于LLM的UI控制代理，提升任务执行性能	Hugging Face	否	是	训练和评估
Mind2Web	用于开发和评估能够遵循语言指令在任何网站上完成复杂任务的通用网络代理	网络自动化	2023	英语	包含2,000个来自137个网站的任务，涵盖31个领域，提供众包动作序列	The Ohio State University	开发和评估通用网络代理，提升网络可访问性和任务执行能力	Hugging Face	否	是	训练和评估
OmniACT	用于评估多模态自主代理执行计算机任务能力的数据集，包含桌面和网页应用	人机交互	2024	英语	9802 数据点	Carnegie Mellon University, Writer.com	评估多模态自主代理的执行能力	Hugging Face	是	是	评估
WaveUI	包含 25k 标注的 UI 元素，用于增强视觉 UI 理解和交互任务	人机交互	2024	英语	25k 数据点	AgentSea	研究 UI 理解和交互任务	Hugging Face	是	否	训练/评估

12. Evaluation¶

数据集名称	简介	领域	年份	语言	规模	发布机构	用途	数据集链接	包含多模态Caption数据	包含多模态QA数据	训练/评估
MME	MME 是一个多模态视频评估基准，包含视频、字幕和音频，用于评估模型在视频分析任务中的表现。	视频	2024	英语	900个视频，256小时时长	北京大学、香港大学等	视频分析评估	MME 链接	是	是	训练/评估
MMBench	MMBench 是一个多模态大模型评估基准，包含多种任务类型，用于全面评估多模态模型的性能。	知识、多学科	2023	英语	-	-	多模态模型评估	https://github.com/open-compass/MMBench	是	是	评估
SEED-Bench-1	SEED-Bench-1 是一个多模态模型评估基准，包含多种任务类型，用于评估多模态模型的性能和能力。	知识、多学科	2024	英语	-	-	多模态模型评估	https://github.com/AILab-CVC/SEED-Bench	是	是	评估
MMMU	MMMU 是一个多学科多模态理解与推理评估基准，包含各种问题类型，用于评估模型的多学科理解和推理能力。	知识、多学科	2023	英语	11500个问题	-	多学科理解评估	https://mmmu-benchmark.github.io/	是	是	评估
POPE	POPE 是一个多模态视觉语言模型评估基准，包含各种任务类型，用于评估模型在多模态任务中的表现。	知识、多学科	2024	英语	-	-	多模态模型评估	https://huggingface.co/datasets/lmms-lab/POPE	是	是	评估
MMBench-Chinese	MMBench-Chinese 是一个中文多模态大模型评估基准，包含多种任务类型，用于评估中文多模态模型的性能。	知识、多学科	2023	中文	-	-	中文多模态模型评估	https://huggingface.co/datasets/lmms-lab/MMBench_CN	是	是	评估
MMSci	MMSci 是一个多模态科学数据集，包含科学文章和图表，用于科学理解和图表生成任务。	知识、多学科	2024	英语	131,393篇文章，742,273个图表	加利福尼亚大学等	科学理解和图表生成	MMSci 链接	是	是	评估

评论