跳转至

图文多模态数据集归纳(一)

本文写于2025年7月24号 晚11点

前言

在当今人工智能快速发展的时代,图文多模态技术正日益成为连接视觉与语言的重要桥梁。

为了帮助研究者系统梳理现有数据资源,本归纳从十二大应用场景入手:从基础的图像描述(Caption)、通用问答(General QA)、数学题推理(Mathematics),到专注文字识别的 OCR,以及涵盖知识推理、视觉定位(Grounding)、文档解析、科学问答、对话系统、医疗影像、界面交互(GUI)与评估方法等方向。每一章节均汇集代表性数据集,深入剖析其特点与适用场景,助力大家快速定位所需资源、对比方法优劣,并为后续的模型设计与创新提供坚实的基石。

之所以写一是因为后面还会有,本文中的数据集仅关注于单图QA,后续会增加多图和视频的总结放到二三。

本文资料会一直更新,欢迎批评指正

1. Caption

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 是否包含 Caption 数据 是否包含多模态 QA Instructtion 数据 训练还是评估
TextCaps 使用包含文字内容的图像进行图像描述的数据集,每张图像有 5 个描述,旨在提高模型对图像中文字的理解和描述能力 计算机视觉、自然语言处理 2020 英文 28408 张图像,142040 条描述 Facebook AI Research 团队 评估多模态模型的图像描述和阅读理解能力 Hugging Face 训练/评估
ShareGPT4o 一个大规模的多模态数据集,包含20万张图像、1万段视频和1万份音频的详细描述,利用GPT-4o的多模态能力生成注释。 自然语言处理、多模态 2025 中文、英文 图像:20万张;视频:1万段;音频:1万份(即将推出) OpenGVLab、上海人工智能实验室等机构 用于增强大型多模态模型的模态对齐和整体性能,提供高质量的图像、视频和音频描述。 Hugging Face 训练
ShareGPT4V 基于ShareGPT和GPT-4V的多模态对话数据集,包含图像与文本交互指令及回复。 多模态、视觉语言 2023 中文/英文 数百万对话样本 华科 视觉语言模型训练 https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md 训练
OpenImages-Caption 基于 OpenImages 数据集的图像描述数据集,提供了丰富的图像和对应的描述,涵盖多种物体类别和场景 计算机视觉、自然语言处理 2018 英文 训练集 500 万张图像,验证集 25000 张图像,测试集 100000 张图像,每张图像有多个描述 Google 用于图像描述生成任务,帮助模型理解复杂场景中的物体和关系 OpenImages 训练和评估
NewYorkerCaptionContest 以《纽约客》杂志的卡通图片为素材,收集用户生成的幽默标题,用于研究幽默和创造力在图像描述中的应用 计算机视觉、自然语言处理、幽默计算 - 英文 约 2400 张图像,每张图像有多个用户生成的标题 《纽约客》杂志及研究机构 用于探索图像描述中的幽默元素和创造力,评估模型生成幽默描述的能力 https://huggingface.co/datasets/jmhessel/newyorker_caption_contest 评估
LAION-400-M 大规模图像-文本对数据集,包含4亿个图文对,用于训练视觉语言模型。 图像与文本 2021 多语言 4亿图文对 LAION组织 视觉语言模型训练 HuggingFace 训练
LAION-COCO LAION-COCO 是基于 COCO 数据集扩展的一个多模态数据集,包含图像与文本描述的配对,专注于大规模的图像-文本对生成任务。该数据集将 COCO 图像集与更多图像-文本对进行组合。 多模态学习,图像描述,计算机视觉 2022 英文 包含超过600万张图像与其文本描述 LAION(德国) 图像描述生成,图像-文本对匹配 Hugging Face LAION-COCO 训练和评估
LAION-5B LAION-5B 是一个超大规模多模态数据集,包含 58.5 亿个图像-文本对,涵盖多种语言,广泛用于多模态模型的预训练。 一般 2022 多语言 58.5亿个图像-文本对 LAION 预训练 https://arxiv.org/abs/2210.08402 训练
LLaVAR 基于 LAION 数据集,专注于提升模型对含文本的图像(如电影海报、书籍封面等)的理解能力,使用 OCR 工具收集 422K 文本丰富图像的预训练数据,并通过与仅文本的 GPT-4 交互生成 16K 高质量指令遵循数据用于微调 计算机视觉、自然语言处理 2023 中文、英文 包括 422K 预训练数据和 16K(或 20K 更多样本的扩展集)微调数据点 Georgia Tech、Adobe Research、Stanford University 用于增强视觉指令调整模型对图像中文本细节的理解,在文本基础的视觉问答数据集(如 ST-VQA、OCR-VQA、TextVQA 和 DocVQA)和 ScienceQA 上显著提升模型性能 https://llavar.github.io/#data 训练和评估
MMInstruct MMInstruct包含 973K 条来自 24 个领域的指令,旨在解决现有视觉指令微调数据集在指令注释质量、图像和指令多样性方面的不足,以提升视觉大型语言模型(VLLMs)的性能。 知识、多学科 2024 英语 指令数量为 973K 条 上海AILab 指令微调 https://huggingface.co/datasets/yuecao0119/MMInstruct-GPT4V 训练
CC12M CC12M 是一个包含 1200 万图像文本对的多模态数据集,与CC3M 相比,它更大,涵盖了更多的视觉概念集,该概念集广泛用于图像字幕模型的预训练和端到端训练。 Caption 2021 英语 1200万图像文本对 Google 预训练 https://github.com/google-research-datasets/conceptual-12m 训练
CC3M CC3M 提供了 300 万图像文本对,用于多模态预训练,帮助模型学习图像和文本之间的关联。 一般 2021 英语 300万图像文本对 Google 预训练 https://huggingface.co/datasets/pixparse/cc3m-wds 训练
SBU SBU 数据集包含 80 万张图像和 100 万条文本描述,广泛用于图像描述生成任务的训练和评估。 Caption 2011 英语 80万张图像,100万条描述 纽约州立大学石溪分校 图像描述 https://opendatalab.com/OpenDataLab/SBU_Captions_Dataset/tree/main 训练/评估
WuKong WuKong是一个大规模的中文跨模态预训练数据集,包含 100 万对 < 图像,文本 >,图像和文本均经过过滤处理,考虑了隐私和敏感词等因素。 Caption 2022 中文 100 万对 < 图像,文本 华为诺亚方舟实验室与昇思 MindSpore 社区 预训练 https://wukong-dataset.github.io/wukong-dataset/ 训练
InternVL-SA-1B-Caption InternVL-SA-1B-Caption 是一个高质量的多模态交错数据集,包含 10 亿文本令牌和 30 亿图像,用于多模态模型的预训练。 一般 2024 英语 10亿文本令牌和30亿图像 OpenGVLab 预训练 https://huggingface.co/datasets/OpenGVLab/InternVL-SA-1B-Caption 训练
Multimodal C4 Multimodal C4 是一个基于 C4 的多模态数据集,从 Common Crawl 数据中提取的多模态数据集,包含图文对等多种多模态内容。 多领域,涵盖互联网上的各种主题和内容 2023 主要为英语,也有其他语言的数据 - Google 预训练 https://github.com/allenai/mmc4 训练
MINT-1T MINT-1T 是一个大规模多模态交错数据集,包含 1 万亿个文本token和34图片,用于多模态模型的预训练,提升模型的泛化能力。 一般 2024 英语 1万亿个图像和文本对 新加坡管理学院 Green AI 实验室和韩国科学技术院(KAIST)等 预训练 https://github.com/mlfoundations/MINT-1T 训练
Flickr30k Flickr30k 提供了 31,783 张图像,每张图像配有 5 个文本描述,广泛用于图像描述生成任务的评估。 看图说话 2014 英语 31,783张图像,158,915条描述 - 图像描述评估 https://huggingface.co/datasets/nlphuji/flickr30k 评估

2. General QA

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 是否包含 Caption 数据 是否包含多模态 QA Instructtion 数据 训练还是评估
VQAv2 VQAv2 是一个大规模的视觉问答数据集,包含超过 20 万张图像和 110 万个问题,用于训练和评估模型的视觉问答能力。 一般 QA 2017 英语 超过20万张图像,110万个问题,1100万个答案(单个问题十个答案) 弗吉尼亚理工大学 视觉问答 VQAv2 链接 训练/评估
OK-VQA/A-OKVQA OK-VQA/A-OKVQA 是一个开放式视觉问答数据集,包含复杂的问答对,用于评估模型在视觉问答任务中的表现。 一般 QA 2019 英语 - CMU 视觉问答评估 https://okvqa.allenai.org/download.html
https://github.com/allenai/aokvqa?tab=readme-ov-file#downloading-the-dataset
评估
GQA GQA 着重真实世界图像的推理和组合式问题回答,包含复杂的问题和答案,用于提升模型的推理能力。 推理 2019 英语 113K images and 22M questions 斯坦福大学 视觉问答 GQA 链接 训练
IconQA IconQA 是一个抽象图表视觉问答基准,包含图表和相关问题,用于评估模型在图表理解方面的能力。 图表理解 2021 英语 10万个图表及相关问题 新加坡科技设计大学 图标理解评估 https://opendatalab.com/OpenDataLab/IconQA 评估
Visual7W 一个大规模的视觉问答(QA)数据集,具有对象级基础和多模态答案。每个问题都以七个 W 之一开始。 计算机视觉 2015 英语 327,929 个 QA 对,1,311,756 个人工生成的多项选择,561,459 个对象基础 斯坦福大学 视觉问答任务的研究与评估 OpenDataLab 评估
VisText VisText是一个包含12,441个图表及其描述的数据集,用于生成语义丰富的图表标题。 数据可视化 2023 英语 12,441对图表和标题 MIT CSAIL 图表描述生成、语义分析 Hugging Face 评估
VSR VSR(Visual Spatial Reasoning)是一个包含超过 10k 自然文本 - 图像对的数据集,涵盖 66 种空间关系,用于测试视觉 - 语言模型(VLMs)在理解图像中的空间关系方面的能力。 机器学习、计算机视觉、自然语言处理 2022 年 英语 包含超过 10k 数据点,使用 6,940 张来自 MS COCO 的图片,涵盖 66 种空间关系 剑桥大学 在理解图像中两个对象之间空间关系方面的能力 https://huggingface.co/datasets/juletxara/visual-spatial-reasoning 评估
TallyQA 世界上最大的开放性计数问题数据集,包含简单和复杂计数问题,用于研究视觉问答中的计数问题 计算机视觉 2019 英语 287K问题/165K图像 Rochester Institute of Technology 训练和评估复杂计数问题的视觉问答模型 GitHub 训练和评估
VisDial VisDial 数据集基于 MS COCO 图像数据集,精心筛选了 120 000 张多样化的日常场景图片,并通过 Amazon Mechanical Turk 平台收集了对应的对话数据。每张图片对应一条对话,对话长度固定为 10 轮,包含提问与回答两部分,总计约 1.2 百万 (1,200,000) 个问答对,既涵盖了对显而易见视觉属性(如颜色、位置、物体类别)的提问,也涉及对场景语义、物体关系甚至主体意图的深入追问 计算机视觉 2017 英语 1.2 百万 (1,200,000) 个问答对 Georgia Institute of Technology 训练和评估视觉对话模型 GitHub 训练和评估
Hateful-Memes 用于检测多模态仇恨言论的数据集,包含带有文本的图像(网络迷因) 计算机视觉、自然语言处理 2020 英语 约10,000个样本 Facebook AI、DrivenData 训练和评估多模态仇恨言论检测模型 GitHub 训练和评估
FSC147 用于少样本目标计数任务的数据集,包含147个类别、6,135张图像,提供点注释和示例框 计算机视觉 2021 英语 6,135图像/147类别 VinAI Research、石溪大学 训练和评估少样本目标计数模型 GitHub 训练和评估
MMInstruct MMInstruct包含 973K 条来自 24 个领域的指令,旨在解决现有视觉指令微调数据集在指令注释质量、图像和指令多样性方面的不足,以提升视觉大型语言模型(VLLMs)的性能。 知识、多学科 2024 英语 指令数量为 973K 条 上海AILab 指令微调 https://huggingface.co/datasets/yuecao0119/MMInstruct-GPT4V 训练
VisualGenome VisualGenome 是一个大规模的视觉数据集,包含了图像、对象、属性和关系等信息,目的是为计算机视觉和语言理解任务提供支持。 计算机视觉,图像理解,语言理解 2016 英文 包含超过10万张图像,超过500万个标注 VisualGenome团队 视觉推理、视觉问答、图像描述生成 https://huggingface.co/datasets/ranjaykrishna/visual_genome 训练和评估
ShareGPT4V 基于ShareGPT和GPT-4V的多模态对话数据集,包含图像与文本交互指令及回复。 多模态、视觉语言 2023 中文/英文 数百万对话样本 华科 视觉语言模型训练 https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md 训练
LLaVa LLaVa 是一个用于多模态视觉问答和推理的大型数据集,结合了语言和视觉信息,支持大规模的视觉语言理解。 多模态学习,视觉问答,语言理解 2023 英文 包含约150,000个问答对和图像数据 LLaVa团队 视觉问答,视觉推理,语言理解 https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K 训练和评估
CogVLM-SFT-311K CogVLM‑SFT‑311K 是用于 CogVLM v1.0 初始训练的主对齐语料,包含中英文双语的视觉指令–响应对。它旨在提升模型的视觉理解与多轮对话能力,尤其针对图像描述和图像问答场景。 多模态预训练模型 2023 中英双语 总计约 31 万样本,包括图片和描述、多轮对话、单轮对话等数据 清华大学 视觉语言模型的监督微调、多模态对话系统开发等 huggingface 主要用于训练
LVIS-Instruct4V 包含通过使用 LVIS 中的图像提示强大的 GPT-4V 生成的 22 万个视觉对齐和上下文感知的指令 计算机视觉等 2023 未明确 包含 22 万个视觉对齐和上下文感知的指令 复旦大学、马里兰大学等 用于多模态模型的指令微调,提升模型在视觉问答等任务中的性能 github 用于训练和评估
MMIF-23k 一个大规模的多模态指令跟随训练数据集,包含高质量的图像-指令对,用于提升多模态大语言模型的指令跟随能力。 多模态(图像、文本) 2025 中文、英文 23,000 条数据 上海人工智能实验室等机构 用于多模态指令跟随任务的监督式微调(SFT)和直接偏好优化(DPO) GitHub 训练
M3IT 一个大规模的多模态多语言指令微调数据集,包含 240 万条数据和 400 条手动编写的任务指令,覆盖 40 种任务类型。 多模态(图像、文本、视频) 2023 英语、中文、80 种语言 240 万条数据 北京大学、香港大学、上海人工智能实验室 用于多模态指令微调,提升模型在多语言和多任务上的表现 Hugging Face 训练
Infinity-MM 一个大规模的多模态指令数据集,包含超过 4000 万条数据,涵盖图像描述、视觉问答、推理等多种任务,支持多语言和数据合成。 多模态(图像、文本) 2024 英语、中文 4000 万条数据 北京人工智能研究院 用于训练多模态大语言模型,提升其在多任务上的表现 Hugging Face 训练

3. Mathematics

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
Super-CLEVR Super‑CLEVR 是一个合成视觉问答诊断基准,通过可控的视觉复杂度、问题冗余、概念分布和概念组合性四个域偏移因素,评估模型的泛化能力。 视觉推理 2022 英文 30k 图像,10k 问题 Johns Hopkins University 用于视觉问答模型的测试和研究 Hugging Face 评估
CMM-Math 用于评估和增强大型多模态模型数学推理能力的中文多模态数学数据集 数学推理 2024 中文 28k+ 训练样本,5k+ 评估样本 华东师范大学 用于数学问题的多模态推理研究 Hugging Face 训练和评估
MAVIS 用于多模态大语言模型的数学视觉指令微调数据集,包含数学视觉问题和解决方案 数学视觉问题解决 2024 中文 MAVIS-Caption 558k 图像-标题对,MAVIS-Instruct 834k 问题 中国科学技术大学等 用于数学视觉问题的多模态推理研究 GitHub 训练和评估
GeomVerse 一个用于评估视觉数学问题解决能力的多模态基准数据集,包含几何问题和图表 数学 2023 英语 2612个高质量数学问题,每个问题有6种不同版本,总计约15000个测试样本 AI4Math 评估多模态大语言模型的数学推理能力 Hugging Face 评估
MetaMath-Rendered MetaMathQA 数据集通过答案增强、问题重述、自我验证与正反向推理等多视角自举策略,生成近 39.5 万条格式化 JSON 数学问答对 数学 2023 英语 39.5 万 MetaMath 提高大语言模型的数学推理能力 Hugging Face 训练和评估
MapQA 一个用于问答的地理信息图表数据集,包含多种地图风格和问题类型 地理信息 2022 英语 约800K问题-答案对,覆盖约60K地图图像,分为3个子集(MapQA-U、MapQA-R、MapQA-S) The Ohio State University 评估模型对地理信息图表的理解能力 GitHub 训练和评估
GeoQA+ 基于 GeoQA 的增强型几何问题解答基准数据集,包含更丰富类型和更高难度的问题 几何问题解答 2022 英文 训练集 6,027 个问题,测试集 7,528 个问题,数据增强后训练集扩展到 12,054 SCNU203 团队 用于几何问题的自动解答研究,支持模型训练和评估 GitHub 训练 + 评估
Geometry3K 大规模几何问题解答数据集,包含多选几何问题及图表和文本的形式语言注释 几何问题解答 2021 英文 3,002 个多选几何问题,27,213 个图表逻辑形式,6,293 个文本逻辑形式 InterGPS 团队 用于几何问题的自动解答研究,支持模型训练和评估 Hugging Face 训练 + 评估
UniGeo 统一几何问题基准,包含计算和证明问题,支持多任务几何问题解答 几何问题解答 2022 英文 4,998 个计算问题和 9,543 个证明问题 中山大学 用于几何问题的统一逻辑推理研究,支持多任务模型训练和评估 GitHub 训练 + 评估
GeoS 用于自动解决数学问题的数据集,包含 SAT 平面几何问题,每个问题有英文文本描述、图表和多项选择 数学 2015 英语 未明确具体规模,包含一定数量的 SAT 几何问题 University of Washington 训练和评估自动解题模型 OpenDataLab 训练 + 评估
CLEVR-Math 用于组合语言、视觉和数学推理的多模态数学问题数据集,包含简单的加减法问题,部分由文本描述,部分由图像展示 数学 2022 英语 包含约 5000 个测试场景(多模态问题) Umeå University 和 Örebro University 训练和评估多模态推理模型 Hugging Face 是(包含文本和图像的多模态问题) 训练 + 评估
TallyQA 世界上最大的开放性计数问题数据集,包含简单和复杂计数问题,用于研究视觉问答中的计数问题 计算机视觉 2019 英语 287K问题/165K图像 Rochester Institute of Technology 训练和评估复杂计数问题的视觉问答模型 GitHub 训练和评估

4. OCR

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
LaionCOCO-OCR 从Laion-5B-en数据集中生成的6亿条高质量合成图像描述数据,用于视觉文档理解 计算机视觉 2022 英语 6亿条描述 LAION 训练视觉文档理解模型 Hugging Face 训练
ParsynthOCR 20万条合成OCR数据,用于多语言OCR任务 计算机视觉 2024 多语言 20万条数据 HezarAI 训练OCR模型 Hugging Face 训练
SynthDoG-EN 用于视觉文档理解的合成文档数据集,包含图像和文本对 OCR 2024 英语 未明确 Naver Clova IX 训练视觉文档理解模型 Hugging Face 训练
SynthDoG-ZH 用于OCR训练的合成中文文档图像数据集,包含多种文档样式和文本内容 OCR 2024 中文 50万样本 Naver Clova 用于OCR模型训练和文档理解 Hugging Face 训练
SynthDoG-RU 用于OCR训练的合成俄语文档图像数据集,包含多种文档样式和文本内容 OCR 2022 俄语 50万样本 Naver Clova 用于OCR模型训练和文档理解 Hugging Face 训练
SynthDoG-JP 用于OCR训练的合成日语文档图像数据集,包含多种文档样式和文本内容 OCR 2022 日语 50万样本 Naver Clova 用于OCR模型训练和文档理解 Hugging Face 训练
SynthDoG-KO 用于OCR训练的合成韩语文档图像数据集,包含多种文档样式和文本内容 OCR 2022 韩语 50万样本 Naver Clova 用于OCR模型训练和文档理解 Hugging Face 训练
IAM 包含13,353张手写文本行图像,由657名作者书写,标注到句子、行和单词级别 手写文本识别 2021 英语 13,353张图像 IAM团队 用于手写文本识别研究 https://fki.tic.heia-fr.ch/databases/iam-handwriting-database 评估
EST-VQA 用于双语场景文本视觉问答的数据集,包含中英文问题和答案,强调多模态信息融合 计算机视觉与自然语言处理 2020 中英双语 25,239图像/28,062问题 University of Adelaide 视觉问答、模型评估 GitHub 训练 + 评估
ST-VQA 强调利用图像中的文本信息进行视觉问答,包含场景文本问答任务 计算机视觉与自然语言处理 2019 英语 23,038 张图片,31,791 个问答对 西班牙巴塞罗那自治大学 视觉问答、模型评估 Hugging Face 训练 + 评估
NAF 提供表单图像数据集,包含文本边界框、类别、关系和转录信息 文档分析与表单理解 2019 英语 708 张训练图像,75 张验证图像,77 张测试图像; 美国国家档案馆、FamilySearch、Brian Davis(个人研究者) 表单解析、文档理解 GitHub 训练 + 评估
InfoVQA 用于信息图表视觉问答的数据集,包含多样化信息图表及问答注释 信息可视化与问答 2021 英语 5,485 张图片,30,035 个问答对(训练集 4,406 张图片,23,946 个问答对;验证集 500 张图片,2,801 个问答对;测试集 579 张图片,3,288 个问答对) Minesh Mathew 等研究者 信息图表理解、视觉问答 DocVQA 训练 + 评估
HME100K 大规模手写数学表达式数据集,用于评估手写数学表达式识别任务 数学表达式识别 2022 中英双语 10 万张手写数学表达式图像,包含 245 个符号类别(训练集 74,502 张图像,测试集 24,607 张图像) Ye Yuan 手写数学表达式识别 GitHub 训练 + 评估
OCRVQA OCR‑VQA‑200K含20万封面和100万问答,模板生成改写问题,标注文本块并划分训练验证测试 场景文本理解 2019 英文 207k QA对/92k图像 佐治亚理工学院 OCR问答、视觉推理 https://ocr-vqa.github.io/ 训练/评估
SROIE 扫描收据文本检测与识别任务 文档理解 2019 英文/中文 1k 收据图像 ICDAR竞赛 KIE (关键信息抽取) HuggingFace 论文 评估基准
POIE 面向POI-Query的新颖文档级信息抽取数据集 地理文本理解 2023 英文+多语言 72k 图像 阿里/中山大学 文档信息抽取 GitHub 论文 训练/评估
CTW 中文街景文本检测数据集 场景文本检测 2017 中文 32.5k 图像 1M+字符 华中科技大学 端到端文本识别 官网 论文 评估基准
SynthText 合成场景文本图像数据集 场景文本检测 2016 英文 80万张合成图像 牛津大学VGG 文本检测预训练 GitHub 论文 训练
Art 包含与艺术相关的故事性问题和答案对,涉及艺术作品的视觉和知识理解 艺术 2020 英语 QA对数量:训练集69,812对,验证集5,124对,测试集4,912对 Allen Institute for AI 视觉问答任务研究 Hugging Face 训练和评估
LSVT 大规模街景视图文本数据集,包含部分标注的文本检测和识别挑战数据 场景文本识别 2019 中文 450,000张图像,其中30,000张全标注,400,000张弱标注 华为诺亚方舟实验室、华中科技大学 场景文本检测和识别研究 Hugging Face 训练和评估
RCTW-17 用于读取图像中中文文本的竞赛数据集,包含街景、海报、菜单等多种场景图像 场景文本识别 2017 中文 12,263张标注图像 华中科技大学、Megvii Technology Inc.、Cornell University等 中文场景文本检测和识别 RCTW官网 训练和评估
ReCTS 多方向自然场景文本数据集,包含招牌上的文本行和字符位置及字符代码标注 场景文本识别 2019 中文 25,000张图像,约200,000条文本行和600,000个字符标注 华中科技大学、加州大学洛杉矶分校、微软亚洲研究院 中文场景文本检测和识别 OpenDataLab 训练和评估
MTWI 多样式网络图像文字检测与识别数据集,包含中英文标注 场景文本识别 2022 中英 10万+图像,包含中英文标注,训练集和测试集划分 阿里巴巴 OCR检测与识别研究 ModelScope 训练和评估
TextVQA 需要模型读取图像中的文字以回答问题的数据集 视觉问答 2019 英语 45,336个问题,28,408张图像 Facebook AI Research 视觉问答任务研究 Hugging Face 训练和评估
CASIA 图像篡改检测数据集,包含真实和篡改图像的标注 图像篡改检测 2013 中英 5,123张篡改图像,1,701张真实图像 CASIA实验室 图像篡改检测研究 GitHub 训练和评估
TextOCR 针对任意形状场景文本的检测和识别数据集 场景文本识别 2021 英语 28,000张图像,900,000个单词标注 Facebook AI Research OCR检测与识别研究 Kaggle 训练和评估
Chinese-OCR 包含丰富拍摄场景的中文OCR数据集,涵盖杂志、报纸等多种采集环境 自然语言处理、OCR 2024 中文 5027 张图片 北京安捷智合科技有限公司 中文OCR识别 Hugging Face 评估
EATEN 提供实体感知的单次视觉文本提取数据集,包含真实和合成票据、护照等图像 自然语言处理、OCR 2019 中/英/数字 60 万合成图像,300k 真实图像 百度视觉技术部 实体提取、OCR后校正 GitHub 训练/评估
COCO-Text 大规模自然场景文本检测和识别数据集,标注了文本的细粒度分类和转录信息 计算机视觉、OCR 2016 英文 63,686 张图片,173,589 个标注文本实例 Microsoft COCO 场景文本检测与识别 COCO-Text 训练/评估
Synthetic Arxiv OCR 从arXiv挖掘的科学文献合成OCR数据集,用于OCR后校正模型训练 自然语言处理、OCR 2023 英文 2.03 亿字符对 University of Illinois OCR后校正 GitHub 训练
ChartQA 用于图表问答的数据集,包含视觉和逻辑推理问题,涵盖柱状图、折线图等 数据可视化、问答 2022 英文 20,882 张图表,32,719 个问答对 York University, Nanyang Technological University 图表问答、视觉推理 Hugging Face 训练/评估
MMTab 学术文档中表格图像与其结构化LaTeX源码的对齐数据集 表格图像处理 2024 英文 22,081 table images 复旦大学 表格图像识别、表格结构重建 HuggingFace 训练 + 评估
PlotQA 含复杂真实世界图表(折线/柱状/饼图)的可视化问答数据集 图表理解 2019 英文 224,377 图表 (28.9M QA pairs) IBM Research 评估模型对图表内容的理解与推理能力 GitHub 主要评估
FigureQA 基于合成图表的二分类视觉问答数据集 图表理解 2017 英文 1,327,368 QA pairs (100k+ images) Maluuba/Microsoft 测试模型对基本图表元素(条形图/折线图)的理解 Official 主要评估
VisText 文本密集型图像(海报、截图、文档)的端到端文本识别 & 图文问答数据集 文本识别 & 视觉问答 2023 英文 646,605 图像(3.2M QA pairs) MIT & Google 场景文本识别(VQA)、端到端文档理解 HuggingFace 训练 + 评估
LRV-Instruction 文档密集型多模态指令调优数据集(文档、图表、表格、图示等) 多模态指令微调 2023 多语言 738k 视觉文档指令样本 苏黎世联邦理工学院 提升大模型在视觉文档理解任务中的指令遵循与推理能力 HuggingFace 训练(指令微调)
ArxivQA 从arXiv论文提取的图表问答数据集,包含科学图表理解任务 多模态科学图表理解 2024 英文 60万+图像/问题 香港中文大学、微软等 训练与评估大模型对科学图表的理解能力 Hugging Face 训练/评估
TabMWP 表格数学推理数据集,需结合表格和文本进行数学推理 半结构化数学推理 2023 英文 3.8万问题 UCLA、艾伦人工智能研究所等 评估模型对表格数据的数学推理能力 GitHub 评估
MMC-Inst 大规模多模态图表指令数据集,覆盖多种图表类型和任务 通用图表理解 2024 英文 60万指令样本 微软、华盛顿大学等 训练图表多模态大模型(如MMCA) Hugging Face 训练
DVQA 柱状图问答数据集,测试图表结构理解能力 计算机视觉/图表理解 2018 英文 3.5万图像/问答 罗切斯特理工学院等 评估图表解析算法的鲁棒性 GitHub 评估
UniChart 通用图表理解预训练模型,支持多种下游任务(QA/摘要/表格提取等) 多模态图表理解 2023 英文 未公开具体规模 科克大学、西蒙菲莎大学等 提供预训练模型和微调能力 Gitging Face 训练/评估
SimChart9K 合成的图表数据集,通过LLM生成统计数据和绘图代码,用于增强图表感知和推理 图表理解、多模态 2024 英文为主 9,536张图表 上海人工智能实验室、上海交通大学 图表预训练/微调 GitHub 预训练
Chart2Text 从Statista抓取的统计图表数据集,用于自动生成图表摘要 图表摘要、自然语言生成 2019 英文 8,305张图表 滑铁卢大学 图表摘要生成训练与评估 GitHub 训练/评估
FinTabNet 针对表格识别的合成数据集,含复杂表格结构 表格识别、OCR 2024 中英双语 112,332张表格 华南理工大学、腾讯优图 表格结构识别训练与评估 HuggingFace 训练/评估
SciTSR 用于复杂表格结构识别的数据集,包含PDF格式的表格及其结构标签,从LaTeX源文件中获取 文档分析 2019 英文 15,000 (训练12,000/测试3,000) 北京理工大学计算机科学技术系 表格结构识别和模型训练 GitHub 训练/评估

5. Kownledge

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
KVQA 世界上第一个基于世界知识的视觉问答数据集,包含 183K 问答对,涉及 18K 命名实体和 24K 图像 计算机视觉、自然语言处理、人工智能 2019 英语 183K 问答对,24K 图像 IISC 用于视觉问答任务,特别是需要世界知识的问答 KVQA 官方网站 用于训练和评估
A-OKVQA 一个需要广泛常识和世界知识来回答的视觉问答数据集,包含约 25K 问题,要求模型进行常识推理 计算机视觉、自然语言处理 2022 英语 约 25K 问题,23.7K 图像 Allen Institute for AI 用于视觉问答任务,特别是需要常识和世界知识的问答 Hugging Face A-OKVQA 用于训练和评估
ViQuAE 一个关于命名实体的知识型视觉问答数据集,包含 1190 个训练样本、1250 个验证样本和 1257 个测试样本 计算机视觉、自然语言处理 2022 英语 1190 训练样本,1250 验证样本,1257 测试样本 Paul Lerner 等人 用于知识型视觉问答任务,特别是关于命名实体的问答 GitHub ViQuAE 用于训练和评估
IconQA IconQA 是一个抽象图表视觉问答基准,包含图表和相关问题,用于评估模型在图表理解方面的能力。 图表理解 2021 英语 10万个图表及相关问题 新加坡科技设计大学 图标理解评估 https://opendatalab.com/OpenDataLab/IconQA 评估
VisualMRC 机器阅读理解任务,给定问题和文档图像,模型需生成自然语言答案 文档理解 2021 中/英 10,197张图像,30,562个问答对 NTT Media Intelligence Laboratories 用于机器阅读理解和文档理解研究 HuggingFace 训练和评估
ChemVLM Data 用于化学领域的多模态语言模型,包含化学图像和文本信息 化学 2024 中/英 数据规模未明确,包含多种化学图像和文本数据 Shanghai Artificial Intelligence Laboratory 等 用于化学领域的多模态理解和推理 GitHub 训练和评估
ScienceQA 包含科学主题的多模态多项选择题,涵盖自然科学、社会科学和语言科学 科学教育 2022 英文 21,208个问题,涵盖多种科学主题和多模态上下文 UCLA 和 Allen Institute for AI 用于科学问题解答和多模态推理研究 HuggingFace 训练和评估
AI2D 包含超过5000张小学科学图表和超过150000个丰富注释的多模态数据集 科学教育 2016 英文 5000+张图像,150000+个注释,15000+个多项选择题 Allen Institute for AI 用于视觉问答和图表理解研究 HuggingFace 训练和评估
TQA 用于解决教科书问答任务的数据集,包含文本和图像的多模态输入。 教育/科学 2017 英语 1076 课,26,260 个问题,78,338 个句子,3,455 张图像 AI2 (Allen Institute for AI) 训练和评估多模态问答模型 Hugging Face 训练/评估
Wikipedia-QA 用于开放域问答研究的问答语料库,从维基百科中收集的问题和句子对。 开放域问答 2015 英语 训练集 20,360 个样本,验证集 2,733 个样本,测试集 6,165 个样本 Microsoft Research 训练和评估开放域问答模型 Hugging Face 训练/评估

6. Grounding

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
GRIT GRIT是一个大规模的多模态数据集,支持多种位置感知的单模态/多模态任务,如短语定位、指代表达式理解和生成等。 计算机视觉、自然语言处理 2024 中文、英文 约9061万张图像,1.15亿个文本片段,1.37亿个关联的边界框 Microsoft Research 用于提升模型在细粒度多模态理解和生成任务中的表现 Hugging Face 训练和评估
gRefCOCO gRefCOCO 数据集主要用于图像中对象的引用表达,包含了图像和自然语言中的指令,通过这些指令来定位图像中的对象。 计算机视觉,图像检索,视觉问答 2016 英文 约20,000张图像,包含超过142,000条引用 UC Berkeley 对象定位,图像检索,视觉问答 链接 训练和评估
Objects365 一个大规模、高质量的目标检测数据集,包含365个类别、200万张图片和3000万个边界框 计算机视觉 2019 中文/英文 365个类别,200万张图片,3000万个边界框 Objects365 Consortium 目标检测、特征学习等 Objects365官网 训练/评估
RefCOCO 一个自然语言引用表达数据集,包含19,894张照片中的96,654个对象的130,525个表达 计算机视觉 2014 英文 19,894张照片,96,654个对象,130,525个表达 UNC(北卡罗来纳大学教堂山分校) 自然语言引用表达研究等 Hugging Face 评估
RefCOCO+/g RefCOCO的扩展版本,排除了位置介词,包含更丰富语义的表达 计算机视觉 2015 英文 基于RefCOCO扩展,具体规模未明确,但包含更复杂的语义表达 UNC(北卡罗来纳大学教堂山分校) 自然语言引用表达研究等 GitHub - refer 评估
GPT4Gen-RD-BoxCoT 用于多模态对话和指代任务的数据集,包含指代对话和带框的CoT数据 多模态对话、视觉问答 2023 英语 未明确具体规模,但包含指代对话和带框的CoT数据 - 用于训练和评估多模态对话模型,支持指代理解和生成任务 GitHub 训练和评估
All-Seeing-V1 用于泛视觉识别和理解的大规模数据集,包含超过10亿个区域的语义标签等 泛视觉识别、多模态理解 2023 英语 超过10亿个区域标注,1100万张图像,350万概念,1322亿个标记的语义信息 OpenGVLab 用于训练和评估多模态视觉语言模型,支持多种视觉语言任务 Hugging Face 训练和评估
All-Seeing-V2 提供关系对话(ReC)数据集,用于理解和生成图像中对象之间的关系 泛视觉识别、关系理解 2024 英语 包含127K高质量关系对话样本,涵盖详细描述、区域描述和对话任务 OpenGVLab 用于训练和评估多模态模型在关系理解任务上的性能 Hugging Face 训练和评估
V3Det 大规模视觉检测数据集,包含13204个类别的精确标注的边界框 视觉目标检测 2023 英语 243k图像,13204个类别,1753k边界框,提供类别描述和示例图像 上海人工智能实验室等 用于训练和评估大规模词汇量的视觉检测模型,支持开放词汇检测任务 GitHub 训练和评估
TolokaVQA 一个众包的多模态数据集,用于评估机器学习系统在视觉问答任务中的表现,给定图像和文本问题,需要绘制包围框作为答案 计算机视觉与自然语言处理 2023 英语 45,199 张图像和问题对,分为训练集、公共测试集和私有测试集 Toloka 用于评估机器学习模型在视觉问答任务中的表现,也可用于视觉搜索、增强现实、机器人等领域 Hugging Face 是(通过 BLIP-2 生成) 既有训练也有评估
DsLMF 用于智能识别地下长壁采矿工作面异常工况的图像数据集,包含 6 类目标的标注 采矿业 2024 无(图像数据集) 138,004 张图像 未明确提及具体发布机构,但由相关研究人员开发 支持地下采矿中异常状态的智能识别与分类研究 figshare 主要用于评估
COCO-ReM 对 COCO 数据集的实例标注进行了改进,提供了更高质量的掩码标注 计算机视觉 2024 无(图像数据集) 约 118 万张训练图像和 5,000 张验证图像,带有更精细的实例掩码 由相关研究人员开发 用于目标检测和实例分割任务的基准测试 Hugging Face 主要用于评估,也可用于训练

7. Document

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
DocReason25K 用于文档领域推理的指令微调训练集,包含详细推理解释,由 GPT3.5 或 GPT4V 产生 文档 2024 英语 2.5 万样本 Institute for Intelligent Computing 多模态指令微调、推理能力提升 Hugging Face 训练
DocVQA 文档图像上的视觉问答数据集,包含 5 万个问题,覆盖多种文档类型和内容 文档 2020 英语 12,767 图像,50,000 问题 CVIT, IIIT Hyderabad 等 文档图像的视觉问答研究 Hugging Face 评估
Docmatix 大规模文档视觉问答数据集,包含 240 万图像和 950 万问答对 文档 2024 英语 240 万图像,950 万问答对 Hugging Face M4 等 文档视觉问答模型的微调 Hugging Face 训练
Sujet-Finance-QA-Vision 该数据集包含超过 10 万个基于 9,800 多张金融文档图像的问答对,用于金融文档分析和视觉问答研究 金融 2024 英语 9,801 张图像,107,050 个问答对 Sujet AI 训练和评估视觉问答模型 Hugging Face 是,包含图像描述 是,包含基于图像的问答对 训练和评估
BigDocs-7.5M 一个大型文档级数据集,适用于文本分类和信息检索任务。 信息检索、文本分类 2022 英语 7.5M 文档 Microsoft 文档分类、信息检索、文本处理 https://bigdocs.github.io/ 训练

8. Science

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
AI2D 包含超过5000张小学科学图表和超过150000个丰富注释的多模态数据集 科学教育 2016 英文 5000+张图像,150000+个注释,15000+个多项选择题 Allen Institute for AI 用于视觉问答和图表理解研究 HuggingFace 训练和评估
ScienceQA 包含科学主题的多模态多项选择题,涵盖自然科学、社会科学和语言科学 科学教育 2022 英文 21,208个问题,涵盖多种科学主题和多模态上下文 UCLA 和 Allen Institute for AI 用于科学问题解答和多模态推理研究 HuggingFace 训练和评估
TQA 用于解决教科书问答任务的数据集,包含文本和图像的多模态输入。 教育/科学 2017 英语 1076 课,26,260 个问题,78,338 个句子,3,455 张图像 AI2 (Allen Institute for AI) 训练和评估多模态问答模型 Hugging Face 训练/评估
ChemVLM Data 用于化学领域的多模态语言模型,包含化学图像和文本信息 化学 2024 中/英 数据规模未明确,包含多种化学图像和文本数据 Shanghai Artificial Intelligence Laboratory 等 用于化学领域的多模态理解和推理 GitHub 训练和评估

9. Conversation

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
ALiLaVA 提供了140万条由GPT-4V合成的高质量数据,用于训练轻量级视觉语言模型 视觉语言模型 2024 英语 1.4M Freedom Intelligence 训练轻量级视觉语言模型 Hugging Face 训练
SVIT 提供了420万条视觉指令调优数据,包括对话问答、复杂推理问答等 视觉指令调优 2023 英语 4.2M Beijing Academy of Artificial Intelligence 视觉指令调优研究 Hugging Face 训练
Cambrian-10M 提供了1000万条多模态数据,包括图像和对应的文本描述 多模态语言模型 2024 英语 10M NYU VisionX 训练多模态语言模型 Hugging Face 训练
TextOCR-GPT4V 提供了基于GPT-4V的文本OCR数据,包含场景文本识别、手写文本识别等任务 光学字符识别(OCR) 2023 多语言 规模未明确 Jimmy Carter OCR任务研究 Hugging Face 评估
MMDU 多轮多图像对话理解基准,用于评估和改进 LVLM 的多轮对话能力 人工智能、对话系统 2024 英语 110个对话,421张图片,1645个问答对,最大20张图片、17轮对话,18k tokens 上海人工智能实验室等 用于评估和改进 LVLM 在多轮多图像对话中的理解能力 GitHub 评估
Viet-ShareGPT4o 用于视觉问答任务的越南语数据集,包含图像和相关问题及答案 人工智能、视觉问答 2024 越南语 未明确具体规模,但包含图像和问答对 5CD-AI 用于视觉问答任务,提升模型对越南语的理解和生成能力 Hugging Face 未明确
RLAIF-V 通过开源 AI 反馈提升 MLLM 的可信度,包含高质量反馈数据和推理学习算法 人工智能、多模态语言模型 2024 英语 包含83,132个高质量比较对,涵盖多种任务和领域 RLHF-V 团队 用于提升 MLLM 的可信度,减少幻觉,增强推理能力 GitHub 训练和评估
Laion-GPT4V 由 GPT-4V 生成的视觉语言合成数据集,包含高质量的描述、指令和答案 人工智能、视觉语言模型 2024 英语 130万样本,涵盖多种视觉任务和指令对 Freedom Intelligence 用于训练轻量级视觉语言模型,提升其性能和效率 Hugging Face 训练
WildVision-GPT4o 用于评估视觉语言模型 (VLMs) 在真实场景中的表现,基于人类偏好的在线平台 多领域 2024 英语 20k+ 聊天记录,8k+ 投票 Allen Institute of AI 等 评估视觉语言模型性能 Hugging Face 评估

10. Medical

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
PMC-VQA 一个大规模医学视觉问答数据集,包含227k问答对,涉及149k张图像,涵盖多种模态和疾病 医学 2023 英文 包含227k问答对,149k张图像,覆盖多种模态和疾病 上海交通大学、上海人工智能实验室 医学视觉问答模型训练与评估 Hugging Face 训练、评估
VQA-RAD 一个关于放射学图像的视觉问答数据集,包含2248个问答对,315张图像 医学 2018 英文 包含2248个问答对,315张图像,分为训练集和测试集 Open Science Framework 医学视觉问答模型训练与评估 Hugging Face 训练、评估
ImageCLEF 包含多个图像检索和分类任务的数据集,用于多模态信息检索研究 医学 2008-2011 多语言 包含多个子数据集,如VCDT、Wikipedia图像检索等 ImageCLEF/LifeCLEF 图像检索、分类等任务研究 ImageCLEF官网 部分子数据集包含 部分子数据集包含 训练、评估
SLAKE 一个双语的医学视觉问答数据集,包含14k问答对,642张图像,涵盖多种模态和疾病 医学 2021 中英双语 包含14k问答对,642张图像,涵盖多种模态和疾病 香港理工大学、四川大学华西医院 医学视觉问答模型训练与评估 Hugging Face 训练、评估
Medical-Diff-VQA 用于胸部X光图像差异视觉问答的大型医学数据集,包含164,324对图像和700,703个问答对 医学影像 2025 英文 164,324对图像,700,703个问答对 PhysioNet 用于医学视觉问答任务,特别是比较同一患者不同时间的胸部X光图像的变化 PhysioNet 训练和评估
PMC-CaseReport 基于PubMed Central的病例报告数据集,包含317K训练对和121K测试图像的VQA对 医学文本 2023 英文 317K训练对,121K测试图像的VQA对 Hugging Face 用于医学视觉问答任务,基于病例报告生成问题和答案 Hugging Face 训练和评估
GMAI-VL (subset) 用于通用医学AI的大型视觉语言模型和多模态数据集,包含5.5M样本的子集 医学多模态 2024 英文/中文 5.5M样本的子集 上海交通大学、上海人工智能实验室等机构 用于医学视觉问答、医学图像诊断等多模态任务 GitHub 训练
PMC 包含1.65M图像-文本对的大型数据集,涵盖多种模态和疾病类型 医学多模态 2023 英文 1.65M图像-文本对 上海交通大学、上海人工智能实验室等机构 用于医学视觉问答、图像分类、图像-文本检索等任务 GitHub 训练和评估
VQA-Med 专注于放射学图像的医学视觉问答数据集,包含模态、平面、器官系统和异常等类别问题 医疗 2019 英语 包含 4,200 张放射学图像和 15,292 个问答对,分为训练集、验证集和测试集 ImageCLEF 2019 组织团队,由 Asma Ben Abacha 等人创建 训练和评估医学视觉问答系统 Hugging Face(无)
GitHub
训练和评估
PathVQA 基于病理图像的视觉问答数据集,旨在开发能够通过美国病理学委员会考试的 AI 系统 医疗 2020 英语 包含 4,998 张病理图像和 32,799 个问答对,分为训练集、验证集和测试集 University of California San Diego 等机构,由 Xuehai He 等人创建 训练和评估医学视觉问答系统 Hugging Face 训练和评估
MedTrinity-25M MedTrinity-25M 是一个医学多模态数据集,包含 2500 万对高质量的医学图像和文本,用于医学领域的多模态研究和应用。 医学Caption 2024 英语 2500万对医学图像和文本 - 医学多模态研究 - 训练/评估

11. GUI

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
Screen2Words 自动生成移动 UI 屏幕的功能性语言描述,用于语言交互和屏幕理解任务。 移动 UI 2021 英语 22,417 个 Android UI 屏幕,112,085 个语言描述 Google Research 训练和评估自动屏幕总结模型,用于语言交互、屏幕阅读器增强等应用 Hugging Face 训练和评估
WebSight 将网页截图转换为 HTML 代码,用于简化网页开发过程。 网页开发 2024 英语 200 万对 HTML 代码和对应的截图 Hugging Face 训练视觉语言模型,将网页设计快速转换为功能代码,支持无代码开发工具 Hugging Face 训练和评估
Widget-Caption 自动生成移动 UI 元素的语言描述,用于提高移动应用的无障碍性和语言交互能力。 移动 UI 2020 英语 21,750 个独特屏幕,61,285 个 UI 元素,162,859 个语言描述 Google Research 训练和评估用于生成移动 UI 元素描述的模型,提高无障碍性 Hugging Face 训练和评估
RICOSCA 用于移动 UI 自动化和无障碍技术研究的合成数据集,包含 UI 元素的描述和截图。 移动 UI 2017 英语 18,000 个屏幕,70,000 个 UI 元素,170,000 个描述 Google Research 训练模型以理解屏幕、解释移动界面,并在自动化和无障碍技术中应用 Hugging Face 训练和评估
SeeClick 一个基于视觉的GUI代理,仅依赖于界面截图来执行点击和输入等操作。 GUI代理 2024 英文 包含约600张截图、1200条指令,涵盖iOS、Android、macOS、Windows和网页环境 南京大学、上海AI实验室 用于训练和评估视觉GUI代理,提升GUI元素定位能力。 Hugging Face 训练和评估
ScreenQA 一个大规模的移动应用截图问答数据集,包含约86K问答对和35K截图。 移动应用 2022 英文 包含约86,025个问答对,35,352张截图。 Google Research 用于训练和评估屏幕内容理解模型,通过问答验证理解能力。 GitHub 训练和评估
AMEX 一个大规模的Android设备控制数据集,包含多层级注释和复杂任务指令。 移动设备控制 2024 英文 包含约104K截图、711K元素功能描述、3K复杂指令。 中科大、上海AI实验室 用于训练和评估通用移动GUI代理,提升对复杂任务的理解和执行能力。 Hugging Face 训练和评估
AITW 一个大规模的Android设备控制数据集,包含人类演示的设备交互和指令。 移动设备控制 2023 英文 包含715k演示,30k唯一指令,涵盖多种Android版本和设备类型。 Google Research 用于训练和评估设备控制模型,支持多步任务和复杂交互。 Hugging Face 训练和评估
Odyssey 用于训练和评估跨应用导航代理的综合性数据集,涵盖多种跨应用任务 移动设备GUI 2024 英语 包含7,735个来自6种移动设备的导航序列,涉及201个应用和1,399种应用组合 OpenGVLab 训练和评估跨应用导航代理,提升用户体验 Hugging Face 训练和评估
UIBert 用于学习通用多模态UI表示的数据集,包含UI元素的图像、文本和结构化元数据 用户界面 2021 英语 包含72k移动应用UI数据,扩展为相似UI组件检索和引用表达式组件检索任务 Google Research 学习通用多模态UI表示,提升UI理解和任务性能 GitHub 训练和评估
AndroidControl 用于训练和评估Android设备控制代理的数据集,包含真实用户任务演示 移动设备控制 2024 英语 包含15,283个Android应用任务演示,涵盖833个应用和14,548个独特任务 Google DeepMind 训练和评估基于LLM的UI控制代理,提升任务执行性能 Hugging Face 训练和评估
Mind2Web 用于开发和评估能够遵循语言指令在任何网站上完成复杂任务的通用网络代理 网络自动化 2023 英语 包含2,000个来自137个网站的任务,涵盖31个领域,提供众包动作序列 The Ohio State University 开发和评估通用网络代理,提升网络可访问性和任务执行能力 Hugging Face 训练和评估
OmniACT 用于评估多模态自主代理执行计算机任务能力的数据集,包含桌面和网页应用 人机交互 2024 英语 9802 数据点 Carnegie Mellon University, Writer.com 评估多模态自主代理的执行能力 Hugging Face 评估
WaveUI 包含 25k 标注的 UI 元素,用于增强视觉 UI 理解和交互任务 人机交互 2024 英语 25k 数据点 AgentSea 研究 UI 理解和交互任务 Hugging Face 训练/评估

12. Evaluation

数据集名称 简介 领域 年份 语言 规模 发布机构 用途 数据集链接 包含多模态Caption数据 包含多模态QA数据 训练/评估
MME MME 是一个多模态视频评估基准,包含视频、字幕和音频,用于评估模型在视频分析任务中的表现。 视频 2024 英语 900个视频,256小时时长 北京大学、香港大学等 视频分析评估 MME 链接 训练/评估
MMBench MMBench 是一个多模态大模型评估基准,包含多种任务类型,用于全面评估多模态模型的性能。 知识、多学科 2023 英语 - - 多模态模型评估 https://github.com/open-compass/MMBench 评估
SEED-Bench-1 SEED-Bench-1 是一个多模态模型评估基准,包含多种任务类型,用于评估多模态模型的性能和能力。 知识、多学科 2024 英语 - - 多模态模型评估 https://github.com/AILab-CVC/SEED-Bench 评估
MMMU MMMU 是一个多学科多模态理解与推理评估基准,包含各种问题类型,用于评估模型的多学科理解和推理能力。 知识、多学科 2023 英语 11500个问题 - 多学科理解评估 https://mmmu-benchmark.github.io/ 评估
POPE POPE 是一个多模态视觉语言模型评估基准,包含各种任务类型,用于评估模型在多模态任务中的表现。 知识、多学科 2024 英语 - - 多模态模型评估 https://huggingface.co/datasets/lmms-lab/POPE 评估
MMBench-Chinese MMBench-Chinese 是一个中文多模态大模型评估基准,包含多种任务类型,用于评估中文多模态模型的性能。 知识、多学科 2023 中文 - - 中文多模态模型评估 https://huggingface.co/datasets/lmms-lab/MMBench_CN 评估
MMSci MMSci 是一个多模态科学数据集,包含科学文章和图表,用于科学理解和图表生成任务。 知识、多学科 2024 英语 131,393篇文章,742,273个图表 加利福尼亚大学等 科学理解和图表生成 MMSci 链接 评估

评论