qiaojin/PubMedQA 数据集介绍

PubMedQA是一个重要的生物医学问答数据集，由金乔等人于2019年发布。该数据集基于PubMed文献，要求模型根据论文摘要回答科研问题，并提供简短分类(yes/no/maybe)和详细解释。包含三个子集：1,000条人工标注数据(PQA-L)、61,200条未标注数据(PQA-U)和211,300条自动生成数据(PQA-A)。该数据集因其需要定量推理和医学专业性而成为评估医疗大模型的关键基准，

weixin_44903776

751人浏览 · 2025-11-24 10:40:52

weixin_44903776 · 2025-11-24 10:40:52 发布

这是一个在生物医学自然语言处理（BioNLP）领域非常著名的生物医学问答（Question Answering）数据集。该数据集最初由匹兹堡大学的 Qiao Jin (金乔) 等人在 2019 年的 EMNLP 会议上发布。

以下是关于该数据集的详细介绍：

1. 数据集的核心任务

PubMedQA 的任务是根据给定的 PubMed 论文摘要（Context），回答一个科研问题（Question）。
回答的格式主要分为两部分：

简短回答（分类任务）：必须是 yes（是）、no（否）或 maybe（可能/不确定）中的一个。
长回答（生成/抽取任务）：摘要中的结论部分，作为对问题的详细解释。

2. 数据来源与构造方式

这个数据集的数据来源于 PubMed 数据库中的数百万篇生物医学文献。它的构造方式非常有创意：

问题 (Question)：通常是论文的标题（例如：“Do preoperative statins reduce atrial fibrillation…?”）。
上下文 (Context)：是论文的摘要正文（Structured Abstract），但不包含最后的“结论”部分。
答案 (Answer)：
- 长答案：即被移除的摘要“结论”部分。
- 标签：由标注者根据结论判断出的 yes/no/maybe。

3. 数据集的三个子集

PubMedQA 为了适应不同的训练策略，被划分成了三个部分：

PQA-L (Labeled) - 人工标注集：
- 包含 1,000 个由专家手动标注的数据对。
- 这是质量最高的部分，通常用于测试（Test）或少样本学习（Few-shot）的验证。
PQA-U (Unlabeled) -以此类推的未标注集：
- 包含约 61,200 个数据。
- 这些数据虽然没有人工给出的 yes/no/maybe 标签，但依然保留了问题、摘要正文和结论。可以通过远程监督或半监督学习来利用。
PQA-A (Artificial) - 自动生成的合成集：
- 包含约 211,300 个数据。
- 这部分是通过简单的启发式规则自动生成的标签，噪音相对较大，通常用于模型的预训练（Pre-training）。

4. 为什么这个数据集很重要？

推理能力 (Reasoning)：与简单的提取式问答（如 SQuAD）不同，PubMedQA 往往需要模型对摘要中的定量结果（如 p值、置信区间、样本量对比）进行逻辑推理，才能断定结论是 Yes 还是 No。
领域专业性：它是衡量大型语言模型（如 BioBERT, PubMedBERT, GPT-4 等）在医学领域理解能力的重要基准之一（它是 BLURB benchmark 的一部分）。

5. 快速使用代码（Hugging Face）

如果你想在 Python 中加载它，可以使用 Hugging Face 的 datasets 库：

from datasets import load_dataset

# 加载数据集
dataset = load_dataset("qiaojin/PubMedQA", "pqa_l") # 加载人工标注的子集 (Labeled)

# 查看一条数据
print(dataset['train'][0])

总结来说，这是一个主要用于训练和测试 AI 模型阅读医学文献并得出正确结论能力的数据集。如果你在做医疗大模型（Med-LLM）相关的工作，这几乎是一个必测的 Benchmark。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大