图文多模态数据集归纳(一)¶
本文写于2025年7月24号 晚11点
前言¶
在当今人工智能快速发展的时代,图文多模态技术正日益成为连接视觉与语言的重要桥梁。
为了帮助研究者系统梳理现有数据资源,本归纳从十二大应用场景入手:从基础的图像描述(Caption)、通用问答(General QA)、数学题推理(Mathematics),到专注文字识别的 OCR,以及涵盖知识推理、视觉定位(Grounding)、文档解析、科学问答、对话系统、医疗影像、界面交互(GUI)与评估方法等方向。每一章节均汇集代表性数据集,深入剖析其特点与适用场景,助力大家快速定位所需资源、对比方法优劣,并为后续的模型设计与创新提供坚实的基石。
之所以写一是因为后面还会有,本文中的数据集仅关注于单图QA,后续会增加多图和视频的总结放到二三。
本文资料会一直更新,欢迎批评指正
1. Caption¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 是否包含 Caption 数据 | 是否包含多模态 QA Instructtion 数据 | 训练还是评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
TextCaps | 使用包含文字内容的图像进行图像描述的数据集,每张图像有 5 个描述,旨在提高模型对图像中文字的理解和描述能力 | 计算机视觉、自然语言处理 | 2020 | 英文 | 28408 张图像,142040 条描述 | Facebook AI Research 团队 | 评估多模态模型的图像描述和阅读理解能力 | Hugging Face | 是 | 否 | 训练/评估 |
ShareGPT4o | 一个大规模的多模态数据集,包含20万张图像、1万段视频和1万份音频的详细描述,利用GPT-4o的多模态能力生成注释。 | 自然语言处理、多模态 | 2025 | 中文、英文 | 图像:20万张;视频:1万段;音频:1万份(即将推出) | OpenGVLab、上海人工智能实验室等机构 | 用于增强大型多模态模型的模态对齐和整体性能,提供高质量的图像、视频和音频描述。 | Hugging Face | 是 | 是 | 训练 |
ShareGPT4V | 基于ShareGPT和GPT-4V的多模态对话数据集,包含图像与文本交互指令及回复。 | 多模态、视觉语言 | 2023 | 中文/英文 | 数百万对话样本 | 华科 | 视觉语言模型训练 | https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md | 是 | 是 | 训练 |
OpenImages-Caption | 基于 OpenImages 数据集的图像描述数据集,提供了丰富的图像和对应的描述,涵盖多种物体类别和场景 | 计算机视觉、自然语言处理 | 2018 | 英文 | 训练集 500 万张图像,验证集 25000 张图像,测试集 100000 张图像,每张图像有多个描述 | 用于图像描述生成任务,帮助模型理解复杂场景中的物体和关系 | OpenImages | 是 | 否 | 训练和评估 | |
NewYorkerCaptionContest | 以《纽约客》杂志的卡通图片为素材,收集用户生成的幽默标题,用于研究幽默和创造力在图像描述中的应用 | 计算机视觉、自然语言处理、幽默计算 | - | 英文 | 约 2400 张图像,每张图像有多个用户生成的标题 | 《纽约客》杂志及研究机构 | 用于探索图像描述中的幽默元素和创造力,评估模型生成幽默描述的能力 | https://huggingface.co/datasets/jmhessel/newyorker_caption_contest | 是 | 否 | 评估 |
LAION-400-M | 大规模图像-文本对数据集,包含4亿个图文对,用于训练视觉语言模型。 | 图像与文本 | 2021 | 多语言 | 4亿图文对 | LAION组织 | 视觉语言模型训练 | HuggingFace | 是 | 否 | 训练 |
LAION-COCO | LAION-COCO 是基于 COCO 数据集扩展的一个多模态数据集,包含图像与文本描述的配对,专注于大规模的图像-文本对生成任务。该数据集将 COCO 图像集与更多图像-文本对进行组合。 | 多模态学习,图像描述,计算机视觉 | 2022 | 英文 | 包含超过600万张图像与其文本描述 | LAION(德国) | 图像描述生成,图像-文本对匹配 | Hugging Face LAION-COCO | 是 | 否 | 训练和评估 |
LAION-5B | LAION-5B 是一个超大规模多模态数据集,包含 58.5 亿个图像-文本对,涵盖多种语言,广泛用于多模态模型的预训练。 | 一般 | 2022 | 多语言 | 58.5亿个图像-文本对 | LAION | 预训练 | https://arxiv.org/abs/2210.08402 | 是 | 否 | 训练 |
LLaVAR | 基于 LAION 数据集,专注于提升模型对含文本的图像(如电影海报、书籍封面等)的理解能力,使用 OCR 工具收集 422K 文本丰富图像的预训练数据,并通过与仅文本的 GPT-4 交互生成 16K 高质量指令遵循数据用于微调 | 计算机视觉、自然语言处理 | 2023 | 中文、英文 | 包括 422K 预训练数据和 16K(或 20K 更多样本的扩展集)微调数据点 | Georgia Tech、Adobe Research、Stanford University | 用于增强视觉指令调整模型对图像中文本细节的理解,在文本基础的视觉问答数据集(如 ST-VQA、OCR-VQA、TextVQA 和 DocVQA)和 ScienceQA 上显著提升模型性能 | https://llavar.github.io/#data | 是 | 是 | 训练和评估 |
MMInstruct | MMInstruct包含 973K 条来自 24 个领域的指令,旨在解决现有视觉指令微调数据集在指令注释质量、图像和指令多样性方面的不足,以提升视觉大型语言模型(VLLMs)的性能。 | 知识、多学科 | 2024 | 英语 | 指令数量为 973K 条 | 上海AILab | 指令微调 | https://huggingface.co/datasets/yuecao0119/MMInstruct-GPT4V | 是 | 是 | 训练 |
CC12M | CC12M 是一个包含 1200 万图像文本对的多模态数据集,与CC3M 相比,它更大,涵盖了更多的视觉概念集,该概念集广泛用于图像字幕模型的预训练和端到端训练。 | Caption | 2021 | 英语 | 1200万图像文本对 | 预训练 | https://github.com/google-research-datasets/conceptual-12m | 是 | 否 | 训练 | |
CC3M | CC3M 提供了 300 万图像文本对,用于多模态预训练,帮助模型学习图像和文本之间的关联。 | 一般 | 2021 | 英语 | 300万图像文本对 | 预训练 | https://huggingface.co/datasets/pixparse/cc3m-wds | 是 | 否 | 训练 | |
SBU | SBU 数据集包含 80 万张图像和 100 万条文本描述,广泛用于图像描述生成任务的训练和评估。 | Caption | 2011 | 英语 | 80万张图像,100万条描述 | 纽约州立大学石溪分校 | 图像描述 | https://opendatalab.com/OpenDataLab/SBU_Captions_Dataset/tree/main | 是 | 否 | 训练/评估 |
WuKong | WuKong是一个大规模的中文跨模态预训练数据集,包含 100 万对 < 图像,文本 >,图像和文本均经过过滤处理,考虑了隐私和敏感词等因素。 | Caption | 2022 | 中文 | 100 万对 < 图像,文本 | 华为诺亚方舟实验室与昇思 MindSpore 社区 | 预训练 | https://wukong-dataset.github.io/wukong-dataset/ | 是 | 否 | 训练 |
InternVL-SA-1B-Caption | InternVL-SA-1B-Caption 是一个高质量的多模态交错数据集,包含 10 亿文本令牌和 30 亿图像,用于多模态模型的预训练。 | 一般 | 2024 | 英语 | 10亿文本令牌和30亿图像 | OpenGVLab | 预训练 | https://huggingface.co/datasets/OpenGVLab/InternVL-SA-1B-Caption | 是 | 否 | 训练 |
Multimodal C4 | Multimodal C4 是一个基于 C4 的多模态数据集,从 Common Crawl 数据中提取的多模态数据集,包含图文对等多种多模态内容。 | 多领域,涵盖互联网上的各种主题和内容 | 2023 | 主要为英语,也有其他语言的数据 | - | 预训练 | https://github.com/allenai/mmc4 | 是 | 否 | 训练 | |
MINT-1T | MINT-1T 是一个大规模多模态交错数据集,包含 1 万亿个文本token和34图片,用于多模态模型的预训练,提升模型的泛化能力。 | 一般 | 2024 | 英语 | 1万亿个图像和文本对 | 新加坡管理学院 Green AI 实验室和韩国科学技术院(KAIST)等 | 预训练 | https://github.com/mlfoundations/MINT-1T | 是 | 否 | 训练 |
Flickr30k | Flickr30k 提供了 31,783 张图像,每张图像配有 5 个文本描述,广泛用于图像描述生成任务的评估。 | 看图说话 | 2014 | 英语 | 31,783张图像,158,915条描述 | - | 图像描述评估 | https://huggingface.co/datasets/nlphuji/flickr30k | 是 | 否 | 评估 |
2. General QA¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 是否包含 Caption 数据 | 是否包含多模态 QA Instructtion 数据 | 训练还是评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
VQAv2 | VQAv2 是一个大规模的视觉问答数据集,包含超过 20 万张图像和 110 万个问题,用于训练和评估模型的视觉问答能力。 | 一般 QA | 2017 | 英语 | 超过20万张图像,110万个问题,1100万个答案(单个问题十个答案) | 弗吉尼亚理工大学 | 视觉问答 | VQAv2 链接 | 否 | 是 | 训练/评估 |
OK-VQA/A-OKVQA | OK-VQA/A-OKVQA 是一个开放式视觉问答数据集,包含复杂的问答对,用于评估模型在视觉问答任务中的表现。 | 一般 QA | 2019 | 英语 | - | CMU | 视觉问答评估 | https://okvqa.allenai.org/download.html https://github.com/allenai/aokvqa?tab=readme-ov-file#downloading-the-dataset |
否 | 是 | 评估 |
GQA | GQA 着重真实世界图像的推理和组合式问题回答,包含复杂的问题和答案,用于提升模型的推理能力。 | 推理 | 2019 | 英语 | 113K images and 22M questions | 斯坦福大学 | 视觉问答 | GQA 链接 | 否 | 是 | 训练 |
IconQA | IconQA 是一个抽象图表视觉问答基准,包含图表和相关问题,用于评估模型在图表理解方面的能力。 | 图表理解 | 2021 | 英语 | 10万个图表及相关问题 | 新加坡科技设计大学 | 图标理解评估 | https://opendatalab.com/OpenDataLab/IconQA | 否 | 是 | 评估 |
Visual7W | 一个大规模的视觉问答(QA)数据集,具有对象级基础和多模态答案。每个问题都以七个 W 之一开始。 | 计算机视觉 | 2015 | 英语 | 327,929 个 QA 对,1,311,756 个人工生成的多项选择,561,459 个对象基础 | 斯坦福大学 | 视觉问答任务的研究与评估 | OpenDataLab | 否 | 是 | 评估 |
VisText | VisText是一个包含12,441个图表及其描述的数据集,用于生成语义丰富的图表标题。 | 数据可视化 | 2023 | 英语 | 12,441对图表和标题 | MIT CSAIL | 图表描述生成、语义分析 | Hugging Face | 是 | 否 | 评估 |
VSR | VSR(Visual Spatial Reasoning)是一个包含超过 10k 自然文本 - 图像对的数据集,涵盖 66 种空间关系,用于测试视觉 - 语言模型(VLMs)在理解图像中的空间关系方面的能力。 | 机器学习、计算机视觉、自然语言处理 | 2022 年 | 英语 | 包含超过 10k 数据点,使用 6,940 张来自 MS COCO 的图片,涵盖 66 种空间关系 | 剑桥大学 | 在理解图像中两个对象之间空间关系方面的能力 | https://huggingface.co/datasets/juletxara/visual-spatial-reasoning | 是 | 否 | 评估 |
TallyQA | 世界上最大的开放性计数问题数据集,包含简单和复杂计数问题,用于研究视觉问答中的计数问题 | 计算机视觉 | 2019 | 英语 | 287K问题/165K图像 | Rochester Institute of Technology | 训练和评估复杂计数问题的视觉问答模型 | GitHub | 否 | 是 | 训练和评估 |
VisDial | VisDial 数据集基于 MS COCO 图像数据集,精心筛选了 120 000 张多样化的日常场景图片,并通过 Amazon Mechanical Turk 平台收集了对应的对话数据。每张图片对应一条对话,对话长度固定为 10 轮,包含提问与回答两部分,总计约 1.2 百万 (1,200,000) 个问答对,既涵盖了对显而易见视觉属性(如颜色、位置、物体类别)的提问,也涉及对场景语义、物体关系甚至主体意图的深入追问 | 计算机视觉 | 2017 | 英语 | 1.2 百万 (1,200,000) 个问答对 | Georgia Institute of Technology | 训练和评估视觉对话模型 | GitHub | 是 | 是 | 训练和评估 |
Hateful-Memes | 用于检测多模态仇恨言论的数据集,包含带有文本的图像(网络迷因) | 计算机视觉、自然语言处理 | 2020 | 英语 | 约10,000个样本 | Facebook AI、DrivenData | 训练和评估多模态仇恨言论检测模型 | GitHub | 是 | 否 | 训练和评估 |
FSC147 | 用于少样本目标计数任务的数据集,包含147个类别、6,135张图像,提供点注释和示例框 | 计算机视觉 | 2021 | 英语 | 6,135图像/147类别 | VinAI Research、石溪大学 | 训练和评估少样本目标计数模型 | GitHub | 否 | 是 | 训练和评估 |
MMInstruct | MMInstruct包含 973K 条来自 24 个领域的指令,旨在解决现有视觉指令微调数据集在指令注释质量、图像和指令多样性方面的不足,以提升视觉大型语言模型(VLLMs)的性能。 | 知识、多学科 | 2024 | 英语 | 指令数量为 973K 条 | 上海AILab | 指令微调 | https://huggingface.co/datasets/yuecao0119/MMInstruct-GPT4V | 是 | 是 | 训练 |
VisualGenome | VisualGenome 是一个大规模的视觉数据集,包含了图像、对象、属性和关系等信息,目的是为计算机视觉和语言理解任务提供支持。 | 计算机视觉,图像理解,语言理解 | 2016 | 英文 | 包含超过10万张图像,超过500万个标注 | VisualGenome团队 | 视觉推理、视觉问答、图像描述生成 | https://huggingface.co/datasets/ranjaykrishna/visual_genome | 是 | 是 | 训练和评估 |
ShareGPT4V | 基于ShareGPT和GPT-4V的多模态对话数据集,包含图像与文本交互指令及回复。 | 多模态、视觉语言 | 2023 | 中文/英文 | 数百万对话样本 | 华科 | 视觉语言模型训练 | https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md | 否 | 是 | 训练 |
LLaVa | LLaVa 是一个用于多模态视觉问答和推理的大型数据集,结合了语言和视觉信息,支持大规模的视觉语言理解。 | 多模态学习,视觉问答,语言理解 | 2023 | 英文 | 包含约150,000个问答对和图像数据 | LLaVa团队 | 视觉问答,视觉推理,语言理解 | https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K | 否 | 是 | 训练和评估 |
CogVLM-SFT-311K | CogVLM‑SFT‑311K 是用于 CogVLM v1.0 初始训练的主对齐语料,包含中英文双语的视觉指令–响应对。它旨在提升模型的视觉理解与多轮对话能力,尤其针对图像描述和图像问答场景。 | 多模态预训练模型 | 2023 | 中英双语 | 总计约 31 万样本,包括图片和描述、多轮对话、单轮对话等数据 | 清华大学 | 视觉语言模型的监督微调、多模态对话系统开发等 | huggingface | 是 | 是 | 主要用于训练 |
LVIS-Instruct4V | 包含通过使用 LVIS 中的图像提示强大的 GPT-4V 生成的 22 万个视觉对齐和上下文感知的指令 | 计算机视觉等 | 2023 | 未明确 | 包含 22 万个视觉对齐和上下文感知的指令 | 复旦大学、马里兰大学等 | 用于多模态模型的指令微调,提升模型在视觉问答等任务中的性能 | github | 否 | 是 | 用于训练和评估 |
MMIF-23k | 一个大规模的多模态指令跟随训练数据集,包含高质量的图像-指令对,用于提升多模态大语言模型的指令跟随能力。 | 多模态(图像、文本) | 2025 | 中文、英文 | 23,000 条数据 | 上海人工智能实验室等机构 | 用于多模态指令跟随任务的监督式微调(SFT)和直接偏好优化(DPO) | GitHub | 是 | 是 | 训练 |
M3IT | 一个大规模的多模态多语言指令微调数据集,包含 240 万条数据和 400 条手动编写的任务指令,覆盖 40 种任务类型。 | 多模态(图像、文本、视频) | 2023 | 英语、中文、80 种语言 | 240 万条数据 | 北京大学、香港大学、上海人工智能实验室 | 用于多模态指令微调,提升模型在多语言和多任务上的表现 | Hugging Face | 是 | 是 | 训练 |
Infinity-MM | 一个大规模的多模态指令数据集,包含超过 4000 万条数据,涵盖图像描述、视觉问答、推理等多种任务,支持多语言和数据合成。 | 多模态(图像、文本) | 2024 | 英语、中文 | 4000 万条数据 | 北京人工智能研究院 | 用于训练多模态大语言模型,提升其在多任务上的表现 | Hugging Face | 是 | 是 | 训练 |
3. Mathematics¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
Super-CLEVR | Super‑CLEVR 是一个合成视觉问答诊断基准,通过可控的视觉复杂度、问题冗余、概念分布和概念组合性四个域偏移因素,评估模型的泛化能力。 | 视觉推理 | 2022 | 英文 | 30k 图像,10k 问题 | Johns Hopkins University | 用于视觉问答模型的测试和研究 | Hugging Face | 否 | 是 | 评估 |
CMM-Math | 用于评估和增强大型多模态模型数学推理能力的中文多模态数学数据集 | 数学推理 | 2024 | 中文 | 28k+ 训练样本,5k+ 评估样本 | 华东师范大学 | 用于数学问题的多模态推理研究 | Hugging Face | 否 | 是 | 训练和评估 |
MAVIS | 用于多模态大语言模型的数学视觉指令微调数据集,包含数学视觉问题和解决方案 | 数学视觉问题解决 | 2024 | 中文 | MAVIS-Caption 558k 图像-标题对,MAVIS-Instruct 834k 问题 | 中国科学技术大学等 | 用于数学视觉问题的多模态推理研究 | GitHub | 是 | 是 | 训练和评估 |
GeomVerse | 一个用于评估视觉数学问题解决能力的多模态基准数据集,包含几何问题和图表 | 数学 | 2023 | 英语 | 2612个高质量数学问题,每个问题有6种不同版本,总计约15000个测试样本 | AI4Math | 评估多模态大语言模型的数学推理能力 | Hugging Face | 否 | 是 | 评估 |
MetaMath-Rendered | MetaMathQA 数据集通过答案增强、问题重述、自我验证与正反向推理等多视角自举策略,生成近 39.5 万条格式化 JSON 数学问答对 | 数学 | 2023 | 英语 | 39.5 万 | MetaMath | 提高大语言模型的数学推理能力 | Hugging Face | 否 | 是 | 训练和评估 |
MapQA | 一个用于问答的地理信息图表数据集,包含多种地图风格和问题类型 | 地理信息 | 2022 | 英语 | 约800K问题-答案对,覆盖约60K地图图像,分为3个子集(MapQA-U、MapQA-R、MapQA-S) | The Ohio State University | 评估模型对地理信息图表的理解能力 | GitHub | 是 | 是 | 训练和评估 |
GeoQA+ | 基于 GeoQA 的增强型几何问题解答基准数据集,包含更丰富类型和更高难度的问题 | 几何问题解答 | 2022 | 英文 | 训练集 6,027 个问题,测试集 7,528 个问题,数据增强后训练集扩展到 12,054 | SCNU203 团队 | 用于几何问题的自动解答研究,支持模型训练和评估 | GitHub | 否 | 否 | 训练 + 评估 |
Geometry3K | 大规模几何问题解答数据集,包含多选几何问题及图表和文本的形式语言注释 | 几何问题解答 | 2021 | 英文 | 3,002 个多选几何问题,27,213 个图表逻辑形式,6,293 个文本逻辑形式 | InterGPS 团队 | 用于几何问题的自动解答研究,支持模型训练和评估 | Hugging Face | 是 | 是 | 训练 + 评估 |
UniGeo | 统一几何问题基准,包含计算和证明问题,支持多任务几何问题解答 | 几何问题解答 | 2022 | 英文 | 4,998 个计算问题和 9,543 个证明问题 | 中山大学 | 用于几何问题的统一逻辑推理研究,支持多任务模型训练和评估 | GitHub | 否 | 是 | 训练 + 评估 |
GeoS | 用于自动解决数学问题的数据集,包含 SAT 平面几何问题,每个问题有英文文本描述、图表和多项选择 | 数学 | 2015 | 英语 | 未明确具体规模,包含一定数量的 SAT 几何问题 | University of Washington | 训练和评估自动解题模型 | OpenDataLab | 否 | 是 | 训练 + 评估 |
CLEVR-Math | 用于组合语言、视觉和数学推理的多模态数学问题数据集,包含简单的加减法问题,部分由文本描述,部分由图像展示 | 数学 | 2022 | 英语 | 包含约 5000 个测试场景(多模态问题) | Umeå University 和 Örebro University | 训练和评估多模态推理模型 | Hugging Face | 是 | 是(包含文本和图像的多模态问题) | 训练 + 评估 |
TallyQA | 世界上最大的开放性计数问题数据集,包含简单和复杂计数问题,用于研究视觉问答中的计数问题 | 计算机视觉 | 2019 | 英语 | 287K问题/165K图像 | Rochester Institute of Technology | 训练和评估复杂计数问题的视觉问答模型 | GitHub | 否 | 是 | 训练和评估 |
4. OCR¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
LaionCOCO-OCR | 从Laion-5B-en数据集中生成的6亿条高质量合成图像描述数据,用于视觉文档理解 | 计算机视觉 | 2022 | 英语 | 6亿条描述 | LAION | 训练视觉文档理解模型 | Hugging Face | 是 | 否 | 训练 |
ParsynthOCR | 20万条合成OCR数据,用于多语言OCR任务 | 计算机视觉 | 2024 | 多语言 | 20万条数据 | HezarAI | 训练OCR模型 | Hugging Face | 是 | 否 | 训练 |
SynthDoG-EN | 用于视觉文档理解的合成文档数据集,包含图像和文本对 | OCR | 2024 | 英语 | 未明确 | Naver Clova IX | 训练视觉文档理解模型 | Hugging Face | 是 | 否 | 训练 |
SynthDoG-ZH | 用于OCR训练的合成中文文档图像数据集,包含多种文档样式和文本内容 | OCR | 2024 | 中文 | 50万样本 | Naver Clova | 用于OCR模型训练和文档理解 | Hugging Face | 否 | 否 | 训练 |
SynthDoG-RU | 用于OCR训练的合成俄语文档图像数据集,包含多种文档样式和文本内容 | OCR | 2022 | 俄语 | 50万样本 | Naver Clova | 用于OCR模型训练和文档理解 | Hugging Face | 否 | 否 | 训练 |
SynthDoG-JP | 用于OCR训练的合成日语文档图像数据集,包含多种文档样式和文本内容 | OCR | 2022 | 日语 | 50万样本 | Naver Clova | 用于OCR模型训练和文档理解 | Hugging Face | 否 | 否 | 训练 |
SynthDoG-KO | 用于OCR训练的合成韩语文档图像数据集,包含多种文档样式和文本内容 | OCR | 2022 | 韩语 | 50万样本 | Naver Clova | 用于OCR模型训练和文档理解 | Hugging Face | 否 | 否 | 训练 |
IAM | 包含13,353张手写文本行图像,由657名作者书写,标注到句子、行和单词级别 | 手写文本识别 | 2021 | 英语 | 13,353张图像 | IAM团队 | 用于手写文本识别研究 | https://fki.tic.heia-fr.ch/databases/iam-handwriting-database | 否 | 否 | 评估 |
EST-VQA | 用于双语场景文本视觉问答的数据集,包含中英文问题和答案,强调多模态信息融合 | 计算机视觉与自然语言处理 | 2020 | 中英双语 | 25,239图像/28,062问题 | University of Adelaide | 视觉问答、模型评估 | GitHub | 否 | 是 | 训练 + 评估 |
ST-VQA | 强调利用图像中的文本信息进行视觉问答,包含场景文本问答任务 | 计算机视觉与自然语言处理 | 2019 | 英语 | 23,038 张图片,31,791 个问答对 | 西班牙巴塞罗那自治大学 | 视觉问答、模型评估 | Hugging Face | 否 | 是 | 训练 + 评估 |
NAF | 提供表单图像数据集,包含文本边界框、类别、关系和转录信息 | 文档分析与表单理解 | 2019 | 英语 | 708 张训练图像,75 张验证图像,77 张测试图像; | 美国国家档案馆、FamilySearch、Brian Davis(个人研究者) | 表单解析、文档理解 | GitHub | 否 | 是 | 训练 + 评估 |
InfoVQA | 用于信息图表视觉问答的数据集,包含多样化信息图表及问答注释 | 信息可视化与问答 | 2021 | 英语 | 5,485 张图片,30,035 个问答对(训练集 4,406 张图片,23,946 个问答对;验证集 500 张图片,2,801 个问答对;测试集 579 张图片,3,288 个问答对) | Minesh Mathew 等研究者 | 信息图表理解、视觉问答 | DocVQA | 否 | 是 | 训练 + 评估 |
HME100K | 大规模手写数学表达式数据集,用于评估手写数学表达式识别任务 | 数学表达式识别 | 2022 | 中英双语 | 10 万张手写数学表达式图像,包含 245 个符号类别(训练集 74,502 张图像,测试集 24,607 张图像) | Ye Yuan | 手写数学表达式识别 | GitHub | 是 | 否 | 训练 + 评估 |
OCRVQA | OCR‑VQA‑200K含20万封面和100万问答,模板生成改写问题,标注文本块并划分训练验证测试 | 场景文本理解 | 2019 | 英文 | 207k QA对/92k图像 | 佐治亚理工学院 | OCR问答、视觉推理 | https://ocr-vqa.github.io/ | 否 | 是 | 训练/评估 |
SROIE | 扫描收据文本检测与识别任务 | 文档理解 | 2019 | 英文/中文 | 1k 收据图像 | ICDAR竞赛 | KIE (关键信息抽取) | HuggingFace 论文 | 否 | 是 | 评估基准 |
POIE | 面向POI-Query的新颖文档级信息抽取数据集 | 地理文本理解 | 2023 | 英文+多语言 | 72k 图像 | 阿里/中山大学 | 文档信息抽取 | GitHub 论文 | 否 | 是 | 训练/评估 |
CTW | 中文街景文本检测数据集 | 场景文本检测 | 2017 | 中文 | 32.5k 图像 1M+字符 | 华中科技大学 | 端到端文本识别 | 官网 论文 | 是 | 否 | 评估基准 |
SynthText | 合成场景文本图像数据集 | 场景文本检测 | 2016 | 英文 | 80万张合成图像 | 牛津大学VGG | 文本检测预训练 | GitHub 论文 | 是 | 否 | 训练 |
Art | 包含与艺术相关的故事性问题和答案对,涉及艺术作品的视觉和知识理解 | 艺术 | 2020 | 英语 | QA对数量:训练集69,812对,验证集5,124对,测试集4,912对 | Allen Institute for AI | 视觉问答任务研究 | Hugging Face | 否 | 是 | 训练和评估 |
LSVT | 大规模街景视图文本数据集,包含部分标注的文本检测和识别挑战数据 | 场景文本识别 | 2019 | 中文 | 450,000张图像,其中30,000张全标注,400,000张弱标注 | 华为诺亚方舟实验室、华中科技大学 | 场景文本检测和识别研究 | Hugging Face | 是 | 否 | 训练和评估 |
RCTW-17 | 用于读取图像中中文文本的竞赛数据集,包含街景、海报、菜单等多种场景图像 | 场景文本识别 | 2017 | 中文 | 12,263张标注图像 | 华中科技大学、Megvii Technology Inc.、Cornell University等 | 中文场景文本检测和识别 | RCTW官网 | 否 | 否 | 训练和评估 |
ReCTS | 多方向自然场景文本数据集,包含招牌上的文本行和字符位置及字符代码标注 | 场景文本识别 | 2019 | 中文 | 25,000张图像,约200,000条文本行和600,000个字符标注 | 华中科技大学、加州大学洛杉矶分校、微软亚洲研究院 | 中文场景文本检测和识别 | OpenDataLab | 否 | 否 | 训练和评估 |
MTWI | 多样式网络图像文字检测与识别数据集,包含中英文标注 | 场景文本识别 | 2022 | 中英 | 10万+图像,包含中英文标注,训练集和测试集划分 | 阿里巴巴 | OCR检测与识别研究 | ModelScope | 否 | 否 | 训练和评估 |
TextVQA | 需要模型读取图像中的文字以回答问题的数据集 | 视觉问答 | 2019 | 英语 | 45,336个问题,28,408张图像 | Facebook AI Research | 视觉问答任务研究 | Hugging Face | 是 | 是 | 训练和评估 |
CASIA | 图像篡改检测数据集,包含真实和篡改图像的标注 | 图像篡改检测 | 2013 | 中英 | 5,123张篡改图像,1,701张真实图像 | CASIA实验室 | 图像篡改检测研究 | GitHub | 否 | 否 | 训练和评估 |
TextOCR | 针对任意形状场景文本的检测和识别数据集 | 场景文本识别 | 2021 | 英语 | 28,000张图像,900,000个单词标注 | Facebook AI Research | OCR检测与识别研究 | Kaggle | 否 | 否 | 训练和评估 |
Chinese-OCR | 包含丰富拍摄场景的中文OCR数据集,涵盖杂志、报纸等多种采集环境 | 自然语言处理、OCR | 2024 | 中文 | 5027 张图片 | 北京安捷智合科技有限公司 | 中文OCR识别 | Hugging Face | 否 | 否 | 评估 |
EATEN | 提供实体感知的单次视觉文本提取数据集,包含真实和合成票据、护照等图像 | 自然语言处理、OCR | 2019 | 中/英/数字 | 60 万合成图像,300k 真实图像 | 百度视觉技术部 | 实体提取、OCR后校正 | GitHub | 否 | 否 | 训练/评估 |
COCO-Text | 大规模自然场景文本检测和识别数据集,标注了文本的细粒度分类和转录信息 | 计算机视觉、OCR | 2016 | 英文 | 63,686 张图片,173,589 个标注文本实例 | Microsoft COCO | 场景文本检测与识别 | COCO-Text | 否 | 否 | 训练/评估 |
Synthetic Arxiv OCR | 从arXiv挖掘的科学文献合成OCR数据集,用于OCR后校正模型训练 | 自然语言处理、OCR | 2023 | 英文 | 2.03 亿字符对 | University of Illinois | OCR后校正 | GitHub | 否 | 否 | 训练 |
ChartQA | 用于图表问答的数据集,包含视觉和逻辑推理问题,涵盖柱状图、折线图等 | 数据可视化、问答 | 2022 | 英文 | 20,882 张图表,32,719 个问答对 | York University, Nanyang Technological University | 图表问答、视觉推理 | Hugging Face | 是 | 是 | 训练/评估 |
MMTab | 学术文档中表格图像与其结构化LaTeX源码的对齐数据集 | 表格图像处理 | 2024 | 英文 | 22,081 table images | 复旦大学 | 表格图像识别、表格结构重建 | HuggingFace | 否 | 否 | 训练 + 评估 |
PlotQA | 含复杂真实世界图表(折线/柱状/饼图)的可视化问答数据集 | 图表理解 | 2019 | 英文 | 224,377 图表 (28.9M QA pairs) | IBM Research | 评估模型对图表内容的理解与推理能力 | GitHub | 否 | 否 | 主要评估 |
FigureQA | 基于合成图表的二分类视觉问答数据集 | 图表理解 | 2017 | 英文 | 1,327,368 QA pairs (100k+ images) | Maluuba/Microsoft | 测试模型对基本图表元素(条形图/折线图)的理解 | Official | 否 | 否 | 主要评估 |
VisText | 文本密集型图像(海报、截图、文档)的端到端文本识别 & 图文问答数据集 | 文本识别 & 视觉问答 | 2023 | 英文 | 646,605 图像(3.2M QA pairs) | MIT & Google | 场景文本识别(VQA)、端到端文档理解 | HuggingFace | 是 | 是 | 训练 + 评估 |
LRV-Instruction | 文档密集型多模态指令调优数据集(文档、图表、表格、图示等) | 多模态指令微调 | 2023 | 多语言 | 738k 视觉文档指令样本 | 苏黎世联邦理工学院 | 提升大模型在视觉文档理解任务中的指令遵循与推理能力 | HuggingFace | 是 | 是 | 训练(指令微调) |
ArxivQA | 从arXiv论文提取的图表问答数据集,包含科学图表理解任务 | 多模态科学图表理解 | 2024 | 英文 | 60万+图像/问题 | 香港中文大学、微软等 | 训练与评估大模型对科学图表的理解能力 | Hugging Face | 否 | 是 | 训练/评估 |
TabMWP | 表格数学推理数据集,需结合表格和文本进行数学推理 | 半结构化数学推理 | 2023 | 英文 | 3.8万问题 | UCLA、艾伦人工智能研究所等 | 评估模型对表格数据的数学推理能力 | GitHub | 否 | 否 | 评估 |
MMC-Inst | 大规模多模态图表指令数据集,覆盖多种图表类型和任务 | 通用图表理解 | 2024 | 英文 | 60万指令样本 | 微软、华盛顿大学等 | 训练图表多模态大模型(如MMCA) | Hugging Face | 是 | 是 | 训练 |
DVQA | 柱状图问答数据集,测试图表结构理解能力 | 计算机视觉/图表理解 | 2018 | 英文 | 3.5万图像/问答 | 罗切斯特理工学院等 | 评估图表解析算法的鲁棒性 | GitHub | 否 | 是 | 评估 |
UniChart | 通用图表理解预训练模型,支持多种下游任务(QA/摘要/表格提取等) | 多模态图表理解 | 2023 | 英文 | 未公开具体规模 | 科克大学、西蒙菲莎大学等 | 提供预训练模型和微调能力 | Gitging Face | 是 | 是 | 训练/评估 |
SimChart9K | 合成的图表数据集,通过LLM生成统计数据和绘图代码,用于增强图表感知和推理 | 图表理解、多模态 | 2024 | 英文为主 | 9,536张图表 | 上海人工智能实验室、上海交通大学 | 图表预训练/微调 | GitHub | 否 | 否 | 预训练 |
Chart2Text | 从Statista抓取的统计图表数据集,用于自动生成图表摘要 | 图表摘要、自然语言生成 | 2019 | 英文 | 8,305张图表 | 滑铁卢大学 | 图表摘要生成训练与评估 | GitHub | 是 | 否 | 训练/评估 |
FinTabNet | 针对表格识别的合成数据集,含复杂表格结构 | 表格识别、OCR | 2024 | 中英双语 | 112,332张表格 | 华南理工大学、腾讯优图 | 表格结构识别训练与评估 | HuggingFace | 否 | 否 | 训练/评估 |
SciTSR | 用于复杂表格结构识别的数据集,包含PDF格式的表格及其结构标签,从LaTeX源文件中获取 | 文档分析 | 2019 | 英文 | 15,000 (训练12,000/测试3,000) | 北京理工大学计算机科学技术系 | 表格结构识别和模型训练 | GitHub | 否 | 否 | 训练/评估 |
5. Kownledge¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
KVQA | 世界上第一个基于世界知识的视觉问答数据集,包含 183K 问答对,涉及 18K 命名实体和 24K 图像 | 计算机视觉、自然语言处理、人工智能 | 2019 | 英语 | 183K 问答对,24K 图像 | IISC | 用于视觉问答任务,特别是需要世界知识的问答 | KVQA 官方网站 | 是 | 是 | 用于训练和评估 |
A-OKVQA | 一个需要广泛常识和世界知识来回答的视觉问答数据集,包含约 25K 问题,要求模型进行常识推理 | 计算机视觉、自然语言处理 | 2022 | 英语 | 约 25K 问题,23.7K 图像 | Allen Institute for AI | 用于视觉问答任务,特别是需要常识和世界知识的问答 | Hugging Face A-OKVQA | 是 | 是 | 用于训练和评估 |
ViQuAE | 一个关于命名实体的知识型视觉问答数据集,包含 1190 个训练样本、1250 个验证样本和 1257 个测试样本 | 计算机视觉、自然语言处理 | 2022 | 英语 | 1190 训练样本,1250 验证样本,1257 测试样本 | Paul Lerner 等人 | 用于知识型视觉问答任务,特别是关于命名实体的问答 | GitHub ViQuAE | 是 | 是 | 用于训练和评估 |
IconQA | IconQA 是一个抽象图表视觉问答基准,包含图表和相关问题,用于评估模型在图表理解方面的能力。 | 图表理解 | 2021 | 英语 | 10万个图表及相关问题 | 新加坡科技设计大学 | 图标理解评估 | https://opendatalab.com/OpenDataLab/IconQA | 否 | 是 | 评估 |
VisualMRC | 机器阅读理解任务,给定问题和文档图像,模型需生成自然语言答案 | 文档理解 | 2021 | 中/英 | 10,197张图像,30,562个问答对 | NTT Media Intelligence Laboratories | 用于机器阅读理解和文档理解研究 | HuggingFace | 是 | 是 | 训练和评估 |
ChemVLM Data | 用于化学领域的多模态语言模型,包含化学图像和文本信息 | 化学 | 2024 | 中/英 | 数据规模未明确,包含多种化学图像和文本数据 | Shanghai Artificial Intelligence Laboratory 等 | 用于化学领域的多模态理解和推理 | GitHub | 是 | 是 | 训练和评估 |
ScienceQA | 包含科学主题的多模态多项选择题,涵盖自然科学、社会科学和语言科学 | 科学教育 | 2022 | 英文 | 21,208个问题,涵盖多种科学主题和多模态上下文 | UCLA 和 Allen Institute for AI | 用于科学问题解答和多模态推理研究 | HuggingFace | 是 | 是 | 训练和评估 |
AI2D | 包含超过5000张小学科学图表和超过150000个丰富注释的多模态数据集 | 科学教育 | 2016 | 英文 | 5000+张图像,150000+个注释,15000+个多项选择题 | Allen Institute for AI | 用于视觉问答和图表理解研究 | HuggingFace | 是 | 是 | 训练和评估 |
TQA | 用于解决教科书问答任务的数据集,包含文本和图像的多模态输入。 | 教育/科学 | 2017 | 英语 | 1076 课,26,260 个问题,78,338 个句子,3,455 张图像 | AI2 (Allen Institute for AI) | 训练和评估多模态问答模型 | Hugging Face | 是 | 是 | 训练/评估 |
Wikipedia-QA | 用于开放域问答研究的问答语料库,从维基百科中收集的问题和句子对。 | 开放域问答 | 2015 | 英语 | 训练集 20,360 个样本,验证集 2,733 个样本,测试集 6,165 个样本 | Microsoft Research | 训练和评估开放域问答模型 | Hugging Face | 否 | 否 | 训练/评估 |
6. Grounding¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
GRIT | GRIT是一个大规模的多模态数据集,支持多种位置感知的单模态/多模态任务,如短语定位、指代表达式理解和生成等。 | 计算机视觉、自然语言处理 | 2024 | 中文、英文 | 约9061万张图像,1.15亿个文本片段,1.37亿个关联的边界框 | Microsoft Research | 用于提升模型在细粒度多模态理解和生成任务中的表现 | Hugging Face | 是 | 否 | 训练和评估 |
gRefCOCO | gRefCOCO 数据集主要用于图像中对象的引用表达,包含了图像和自然语言中的指令,通过这些指令来定位图像中的对象。 | 计算机视觉,图像检索,视觉问答 | 2016 | 英文 | 约20,000张图像,包含超过142,000条引用 | UC Berkeley | 对象定位,图像检索,视觉问答 | 链接 | 否 | 是 | 训练和评估 |
Objects365 | 一个大规模、高质量的目标检测数据集,包含365个类别、200万张图片和3000万个边界框 | 计算机视觉 | 2019 | 中文/英文 | 365个类别,200万张图片,3000万个边界框 | Objects365 Consortium | 目标检测、特征学习等 | Objects365官网 | 否 | 否 | 训练/评估 |
RefCOCO | 一个自然语言引用表达数据集,包含19,894张照片中的96,654个对象的130,525个表达 | 计算机视觉 | 2014 | 英文 | 19,894张照片,96,654个对象,130,525个表达 | UNC(北卡罗来纳大学教堂山分校) | 自然语言引用表达研究等 | Hugging Face | 是 | 否 | 评估 |
RefCOCO+/g | RefCOCO的扩展版本,排除了位置介词,包含更丰富语义的表达 | 计算机视觉 | 2015 | 英文 | 基于RefCOCO扩展,具体规模未明确,但包含更复杂的语义表达 | UNC(北卡罗来纳大学教堂山分校) | 自然语言引用表达研究等 | GitHub - refer | 是 | 否 | 评估 |
GPT4Gen-RD-BoxCoT | 用于多模态对话和指代任务的数据集,包含指代对话和带框的CoT数据 | 多模态对话、视觉问答 | 2023 | 英语 | 未明确具体规模,但包含指代对话和带框的CoT数据 | - | 用于训练和评估多模态对话模型,支持指代理解和生成任务 | GitHub | 是 | 是 | 训练和评估 |
All-Seeing-V1 | 用于泛视觉识别和理解的大规模数据集,包含超过10亿个区域的语义标签等 | 泛视觉识别、多模态理解 | 2023 | 英语 | 超过10亿个区域标注,1100万张图像,350万概念,1322亿个标记的语义信息 | OpenGVLab | 用于训练和评估多模态视觉语言模型,支持多种视觉语言任务 | Hugging Face | 是 | 是 | 训练和评估 |
All-Seeing-V2 | 提供关系对话(ReC)数据集,用于理解和生成图像中对象之间的关系 | 泛视觉识别、关系理解 | 2024 | 英语 | 包含127K高质量关系对话样本,涵盖详细描述、区域描述和对话任务 | OpenGVLab | 用于训练和评估多模态模型在关系理解任务上的性能 | Hugging Face | 是 | 是 | 训练和评估 |
V3Det | 大规模视觉检测数据集,包含13204个类别的精确标注的边界框 | 视觉目标检测 | 2023 | 英语 | 243k图像,13204个类别,1753k边界框,提供类别描述和示例图像 | 上海人工智能实验室等 | 用于训练和评估大规模词汇量的视觉检测模型,支持开放词汇检测任务 | GitHub | 否 | 否 | 训练和评估 |
TolokaVQA | 一个众包的多模态数据集,用于评估机器学习系统在视觉问答任务中的表现,给定图像和文本问题,需要绘制包围框作为答案 | 计算机视觉与自然语言处理 | 2023 | 英语 | 45,199 张图像和问题对,分为训练集、公共测试集和私有测试集 | Toloka | 用于评估机器学习模型在视觉问答任务中的表现,也可用于视觉搜索、增强现实、机器人等领域 | Hugging Face | 是(通过 BLIP-2 生成) | 是 | 既有训练也有评估 |
DsLMF | 用于智能识别地下长壁采矿工作面异常工况的图像数据集,包含 6 类目标的标注 | 采矿业 | 2024 | 无(图像数据集) | 138,004 张图像 | 未明确提及具体发布机构,但由相关研究人员开发 | 支持地下采矿中异常状态的智能识别与分类研究 | figshare | 否 | 否 | 主要用于评估 |
COCO-ReM | 对 COCO 数据集的实例标注进行了改进,提供了更高质量的掩码标注 | 计算机视觉 | 2024 | 无(图像数据集) | 约 118 万张训练图像和 5,000 张验证图像,带有更精细的实例掩码 | 由相关研究人员开发 | 用于目标检测和实例分割任务的基准测试 | Hugging Face | 否 | 否 | 主要用于评估,也可用于训练 |
7. Document¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
DocReason25K | 用于文档领域推理的指令微调训练集,包含详细推理解释,由 GPT3.5 或 GPT4V 产生 | 文档 | 2024 | 英语 | 2.5 万样本 | Institute for Intelligent Computing | 多模态指令微调、推理能力提升 | Hugging Face | 否 | 是 | 训练 |
DocVQA | 文档图像上的视觉问答数据集,包含 5 万个问题,覆盖多种文档类型和内容 | 文档 | 2020 | 英语 | 12,767 图像,50,000 问题 | CVIT, IIIT Hyderabad 等 | 文档图像的视觉问答研究 | Hugging Face | 否 | 是 | 评估 |
Docmatix | 大规模文档视觉问答数据集,包含 240 万图像和 950 万问答对 | 文档 | 2024 | 英语 | 240 万图像,950 万问答对 | Hugging Face M4 等 | 文档视觉问答模型的微调 | Hugging Face | 否 | 是 | 训练 |
Sujet-Finance-QA-Vision | 该数据集包含超过 10 万个基于 9,800 多张金融文档图像的问答对,用于金融文档分析和视觉问答研究 | 金融 | 2024 | 英语 | 9,801 张图像,107,050 个问答对 | Sujet AI | 训练和评估视觉问答模型 | Hugging Face | 是,包含图像描述 | 是,包含基于图像的问答对 | 训练和评估 |
BigDocs-7.5M | 一个大型文档级数据集,适用于文本分类和信息检索任务。 | 信息检索、文本分类 | 2022 | 英语 | 7.5M 文档 | Microsoft | 文档分类、信息检索、文本处理 | https://bigdocs.github.io/ | 否 | 否 | 训练 |
8. Science¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
AI2D | 包含超过5000张小学科学图表和超过150000个丰富注释的多模态数据集 | 科学教育 | 2016 | 英文 | 5000+张图像,150000+个注释,15000+个多项选择题 | Allen Institute for AI | 用于视觉问答和图表理解研究 | HuggingFace | 是 | 是 | 训练和评估 |
ScienceQA | 包含科学主题的多模态多项选择题,涵盖自然科学、社会科学和语言科学 | 科学教育 | 2022 | 英文 | 21,208个问题,涵盖多种科学主题和多模态上下文 | UCLA 和 Allen Institute for AI | 用于科学问题解答和多模态推理研究 | HuggingFace | 是 | 是 | 训练和评估 |
TQA | 用于解决教科书问答任务的数据集,包含文本和图像的多模态输入。 | 教育/科学 | 2017 | 英语 | 1076 课,26,260 个问题,78,338 个句子,3,455 张图像 | AI2 (Allen Institute for AI) | 训练和评估多模态问答模型 | Hugging Face | 是 | 是 | 训练/评估 |
ChemVLM Data | 用于化学领域的多模态语言模型,包含化学图像和文本信息 | 化学 | 2024 | 中/英 | 数据规模未明确,包含多种化学图像和文本数据 | Shanghai Artificial Intelligence Laboratory 等 | 用于化学领域的多模态理解和推理 | GitHub | 是 | 是 | 训练和评估 |
9. Conversation¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
ALiLaVA | 提供了140万条由GPT-4V合成的高质量数据,用于训练轻量级视觉语言模型 | 视觉语言模型 | 2024 | 英语 | 1.4M | Freedom Intelligence | 训练轻量级视觉语言模型 | Hugging Face | 是 | 是 | 训练 |
SVIT | 提供了420万条视觉指令调优数据,包括对话问答、复杂推理问答等 | 视觉指令调优 | 2023 | 英语 | 4.2M | Beijing Academy of Artificial Intelligence | 视觉指令调优研究 | Hugging Face | 是 | 是 | 训练 |
Cambrian-10M | 提供了1000万条多模态数据,包括图像和对应的文本描述 | 多模态语言模型 | 2024 | 英语 | 10M | NYU VisionX | 训练多模态语言模型 | Hugging Face | 是 | 是 | 训练 |
TextOCR-GPT4V | 提供了基于GPT-4V的文本OCR数据,包含场景文本识别、手写文本识别等任务 | 光学字符识别(OCR) | 2023 | 多语言 | 规模未明确 | Jimmy Carter | OCR任务研究 | Hugging Face | 是 | 是 | 评估 |
MMDU | 多轮多图像对话理解基准,用于评估和改进 LVLM 的多轮对话能力 | 人工智能、对话系统 | 2024 | 英语 | 110个对话,421张图片,1645个问答对,最大20张图片、17轮对话,18k tokens | 上海人工智能实验室等 | 用于评估和改进 LVLM 在多轮多图像对话中的理解能力 | GitHub | 是 | 是 | 评估 |
Viet-ShareGPT4o | 用于视觉问答任务的越南语数据集,包含图像和相关问题及答案 | 人工智能、视觉问答 | 2024 | 越南语 | 未明确具体规模,但包含图像和问答对 | 5CD-AI | 用于视觉问答任务,提升模型对越南语的理解和生成能力 | Hugging Face | 是 | 是 | 未明确 |
RLAIF-V | 通过开源 AI 反馈提升 MLLM 的可信度,包含高质量反馈数据和推理学习算法 | 人工智能、多模态语言模型 | 2024 | 英语 | 包含83,132个高质量比较对,涵盖多种任务和领域 | RLHF-V 团队 | 用于提升 MLLM 的可信度,减少幻觉,增强推理能力 | GitHub | 是 | 是 | 训练和评估 |
Laion-GPT4V | 由 GPT-4V 生成的视觉语言合成数据集,包含高质量的描述、指令和答案 | 人工智能、视觉语言模型 | 2024 | 英语 | 130万样本,涵盖多种视觉任务和指令对 | Freedom Intelligence | 用于训练轻量级视觉语言模型,提升其性能和效率 | Hugging Face | 是 | 是 | 训练 |
WildVision-GPT4o | 用于评估视觉语言模型 (VLMs) 在真实场景中的表现,基于人类偏好的在线平台 | 多领域 | 2024 | 英语 | 20k+ 聊天记录,8k+ 投票 | Allen Institute of AI 等 | 评估视觉语言模型性能 | Hugging Face | 是 | 是 | 评估 |
10. Medical¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
PMC-VQA | 一个大规模医学视觉问答数据集,包含227k问答对,涉及149k张图像,涵盖多种模态和疾病 | 医学 | 2023 | 英文 | 包含227k问答对,149k张图像,覆盖多种模态和疾病 | 上海交通大学、上海人工智能实验室 | 医学视觉问答模型训练与评估 | Hugging Face | 是 | 是 | 训练、评估 |
VQA-RAD | 一个关于放射学图像的视觉问答数据集,包含2248个问答对,315张图像 | 医学 | 2018 | 英文 | 包含2248个问答对,315张图像,分为训练集和测试集 | Open Science Framework | 医学视觉问答模型训练与评估 | Hugging Face | 是 | 是 | 训练、评估 |
ImageCLEF | 包含多个图像检索和分类任务的数据集,用于多模态信息检索研究 | 医学 | 2008-2011 | 多语言 | 包含多个子数据集,如VCDT、Wikipedia图像检索等 | ImageCLEF/LifeCLEF | 图像检索、分类等任务研究 | ImageCLEF官网 | 部分子数据集包含 | 部分子数据集包含 | 训练、评估 |
SLAKE | 一个双语的医学视觉问答数据集,包含14k问答对,642张图像,涵盖多种模态和疾病 | 医学 | 2021 | 中英双语 | 包含14k问答对,642张图像,涵盖多种模态和疾病 | 香港理工大学、四川大学华西医院 | 医学视觉问答模型训练与评估 | Hugging Face | 是 | 是 | 训练、评估 |
Medical-Diff-VQA | 用于胸部X光图像差异视觉问答的大型医学数据集,包含164,324对图像和700,703个问答对 | 医学影像 | 2025 | 英文 | 164,324对图像,700,703个问答对 | PhysioNet | 用于医学视觉问答任务,特别是比较同一患者不同时间的胸部X光图像的变化 | PhysioNet | 是 | 是 | 训练和评估 |
PMC-CaseReport | 基于PubMed Central的病例报告数据集,包含317K训练对和121K测试图像的VQA对 | 医学文本 | 2023 | 英文 | 317K训练对,121K测试图像的VQA对 | Hugging Face | 用于医学视觉问答任务,基于病例报告生成问题和答案 | Hugging Face | 是 | 是 | 训练和评估 |
GMAI-VL (subset) | 用于通用医学AI的大型视觉语言模型和多模态数据集,包含5.5M样本的子集 | 医学多模态 | 2024 | 英文/中文 | 5.5M样本的子集 | 上海交通大学、上海人工智能实验室等机构 | 用于医学视觉问答、医学图像诊断等多模态任务 | GitHub | 是 | 是 | 训练 |
PMC | 包含1.65M图像-文本对的大型数据集,涵盖多种模态和疾病类型 | 医学多模态 | 2023 | 英文 | 1.65M图像-文本对 | 上海交通大学、上海人工智能实验室等机构 | 用于医学视觉问答、图像分类、图像-文本检索等任务 | GitHub | 是 | 是 | 训练和评估 |
VQA-Med | 专注于放射学图像的医学视觉问答数据集,包含模态、平面、器官系统和异常等类别问题 | 医疗 | 2019 | 英语 | 包含 4,200 张放射学图像和 15,292 个问答对,分为训练集、验证集和测试集 | ImageCLEF 2019 组织团队,由 Asma Ben Abacha 等人创建 | 训练和评估医学视觉问答系统 | Hugging Face(无) GitHub |
是 | 是 | 训练和评估 |
PathVQA | 基于病理图像的视觉问答数据集,旨在开发能够通过美国病理学委员会考试的 AI 系统 | 医疗 | 2020 | 英语 | 包含 4,998 张病理图像和 32,799 个问答对,分为训练集、验证集和测试集 | University of California San Diego 等机构,由 Xuehai He 等人创建 | 训练和评估医学视觉问答系统 | Hugging Face | 是 | 是 | 训练和评估 |
MedTrinity-25M | MedTrinity-25M 是一个医学多模态数据集,包含 2500 万对高质量的医学图像和文本,用于医学领域的多模态研究和应用。 | 医学Caption | 2024 | 英语 | 2500万对医学图像和文本 | - | 医学多模态研究 | - | 是 | 是 | 训练/评估 |
11. GUI¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
Screen2Words | 自动生成移动 UI 屏幕的功能性语言描述,用于语言交互和屏幕理解任务。 | 移动 UI | 2021 | 英语 | 22,417 个 Android UI 屏幕,112,085 个语言描述 | Google Research | 训练和评估自动屏幕总结模型,用于语言交互、屏幕阅读器增强等应用 | Hugging Face | 是 | 否 | 训练和评估 |
WebSight | 将网页截图转换为 HTML 代码,用于简化网页开发过程。 | 网页开发 | 2024 | 英语 | 200 万对 HTML 代码和对应的截图 | Hugging Face | 训练视觉语言模型,将网页设计快速转换为功能代码,支持无代码开发工具 | Hugging Face | 是 | 否 | 训练和评估 |
Widget-Caption | 自动生成移动 UI 元素的语言描述,用于提高移动应用的无障碍性和语言交互能力。 | 移动 UI | 2020 | 英语 | 21,750 个独特屏幕,61,285 个 UI 元素,162,859 个语言描述 | Google Research | 训练和评估用于生成移动 UI 元素描述的模型,提高无障碍性 | Hugging Face | 是 | 否 | 训练和评估 |
RICOSCA | 用于移动 UI 自动化和无障碍技术研究的合成数据集,包含 UI 元素的描述和截图。 | 移动 UI | 2017 | 英语 | 18,000 个屏幕,70,000 个 UI 元素,170,000 个描述 | Google Research | 训练模型以理解屏幕、解释移动界面,并在自动化和无障碍技术中应用 | Hugging Face | 是 | 否 | 训练和评估 |
SeeClick | 一个基于视觉的GUI代理,仅依赖于界面截图来执行点击和输入等操作。 | GUI代理 | 2024 | 英文 | 包含约600张截图、1200条指令,涵盖iOS、Android、macOS、Windows和网页环境 | 南京大学、上海AI实验室 | 用于训练和评估视觉GUI代理,提升GUI元素定位能力。 | Hugging Face | 是 | 是 | 训练和评估 |
ScreenQA | 一个大规模的移动应用截图问答数据集,包含约86K问答对和35K截图。 | 移动应用 | 2022 | 英文 | 包含约86,025个问答对,35,352张截图。 | Google Research | 用于训练和评估屏幕内容理解模型,通过问答验证理解能力。 | GitHub | 是 | 是 | 训练和评估 |
AMEX | 一个大规模的Android设备控制数据集,包含多层级注释和复杂任务指令。 | 移动设备控制 | 2024 | 英文 | 包含约104K截图、711K元素功能描述、3K复杂指令。 | 中科大、上海AI实验室 | 用于训练和评估通用移动GUI代理,提升对复杂任务的理解和执行能力。 | Hugging Face | 是 | 是 | 训练和评估 |
AITW | 一个大规模的Android设备控制数据集,包含人类演示的设备交互和指令。 | 移动设备控制 | 2023 | 英文 | 包含715k演示,30k唯一指令,涵盖多种Android版本和设备类型。 | Google Research | 用于训练和评估设备控制模型,支持多步任务和复杂交互。 | Hugging Face | 是 | 是 | 训练和评估 |
Odyssey | 用于训练和评估跨应用导航代理的综合性数据集,涵盖多种跨应用任务 | 移动设备GUI | 2024 | 英语 | 包含7,735个来自6种移动设备的导航序列,涉及201个应用和1,399种应用组合 | OpenGVLab | 训练和评估跨应用导航代理,提升用户体验 | Hugging Face | 否 | 否 | 训练和评估 |
UIBert | 用于学习通用多模态UI表示的数据集,包含UI元素的图像、文本和结构化元数据 | 用户界面 | 2021 | 英语 | 包含72k移动应用UI数据,扩展为相似UI组件检索和引用表达式组件检索任务 | Google Research | 学习通用多模态UI表示,提升UI理解和任务性能 | GitHub | 是 | 否 | 训练和评估 |
AndroidControl | 用于训练和评估Android设备控制代理的数据集,包含真实用户任务演示 | 移动设备控制 | 2024 | 英语 | 包含15,283个Android应用任务演示,涵盖833个应用和14,548个独特任务 | Google DeepMind | 训练和评估基于LLM的UI控制代理,提升任务执行性能 | Hugging Face | 否 | 是 | 训练和评估 |
Mind2Web | 用于开发和评估能够遵循语言指令在任何网站上完成复杂任务的通用网络代理 | 网络自动化 | 2023 | 英语 | 包含2,000个来自137个网站的任务,涵盖31个领域,提供众包动作序列 | The Ohio State University | 开发和评估通用网络代理,提升网络可访问性和任务执行能力 | Hugging Face | 否 | 是 | 训练和评估 |
OmniACT | 用于评估多模态自主代理执行计算机任务能力的数据集,包含桌面和网页应用 | 人机交互 | 2024 | 英语 | 9802 数据点 | Carnegie Mellon University, Writer.com | 评估多模态自主代理的执行能力 | Hugging Face | 是 | 是 | 评估 |
WaveUI | 包含 25k 标注的 UI 元素,用于增强视觉 UI 理解和交互任务 | 人机交互 | 2024 | 英语 | 25k 数据点 | AgentSea | 研究 UI 理解和交互任务 | Hugging Face | 是 | 否 | 训练/评估 |
12. Evaluation¶
数据集名称 | 简介 | 领域 | 年份 | 语言 | 规模 | 发布机构 | 用途 | 数据集链接 | 包含多模态Caption数据 | 包含多模态QA数据 | 训练/评估 |
---|---|---|---|---|---|---|---|---|---|---|---|
MME | MME 是一个多模态视频评估基准,包含视频、字幕和音频,用于评估模型在视频分析任务中的表现。 | 视频 | 2024 | 英语 | 900个视频,256小时时长 | 北京大学、香港大学等 | 视频分析评估 | MME 链接 | 是 | 是 | 训练/评估 |
MMBench | MMBench 是一个多模态大模型评估基准,包含多种任务类型,用于全面评估多模态模型的性能。 | 知识、多学科 | 2023 | 英语 | - | - | 多模态模型评估 | https://github.com/open-compass/MMBench | 是 | 是 | 评估 |
SEED-Bench-1 | SEED-Bench-1 是一个多模态模型评估基准,包含多种任务类型,用于评估多模态模型的性能和能力。 | 知识、多学科 | 2024 | 英语 | - | - | 多模态模型评估 | https://github.com/AILab-CVC/SEED-Bench | 是 | 是 | 评估 |
MMMU | MMMU 是一个多学科多模态理解与推理评估基准,包含各种问题类型,用于评估模型的多学科理解和推理能力。 | 知识、多学科 | 2023 | 英语 | 11500个问题 | - | 多学科理解评估 | https://mmmu-benchmark.github.io/ | 是 | 是 | 评估 |
POPE | POPE 是一个多模态视觉语言模型评估基准,包含各种任务类型,用于评估模型在多模态任务中的表现。 | 知识、多学科 | 2024 | 英语 | - | - | 多模态模型评估 | https://huggingface.co/datasets/lmms-lab/POPE | 是 | 是 | 评估 |
MMBench-Chinese | MMBench-Chinese 是一个中文多模态大模型评估基准,包含多种任务类型,用于评估中文多模态模型的性能。 | 知识、多学科 | 2023 | 中文 | - | - | 中文多模态模型评估 | https://huggingface.co/datasets/lmms-lab/MMBench_CN | 是 | 是 | 评估 |
MMSci | MMSci 是一个多模态科学数据集,包含科学文章和图表,用于科学理解和图表生成任务。 | 知识、多学科 | 2024 | 英语 | 131,393篇文章,742,273个图表 | 加利福尼亚大学等 | 科学理解和图表生成 | MMSci 链接 | 是 | 是 | 评估 |