一、论文信息

名称:FSBench: A Figure Skating Benchmark for Advancing Artistic Sports Understanding
作者:Rong Gao, Xin Liu, Zhuozhao Hu, Bohao Xing, Baiqiang Xia, Zitong Yu, Heikki Kälviäinen
会议:CVPR 2025

二、论文摘要

花样滑冰被誉为“冰上的艺术”,其评估不仅依赖于运动员的技术动作,还包括艺术表现力的评估。现有的花样滑冰数据集多集中于单一任务,如动作识别或评分,缺乏全面的技术和艺术性评估。为了弥补这一空白,本文提出了FSAnno数据集及FSBench基准,前者包含了技术元素和艺术性评估的多层次注释,后者提供了一个全面的基准平台,用于测试多模态大语言模型(MLLM)在花样滑冰领域的理解能力。

三、论文创新点

1.多模态、多任务数据集FSAnno:
论文提出了FSAnno数据集,这是第一个对花样滑冰进行细粒度注释的数据集。与传统数据集仅侧重于单一任务不同,FSAnno包括技术元素和整体表现的艺术性评估,并支持多角色、多模态的多层次任务。
数据集支持从技术动作识别到生成完整的表现评估评论等任务,能为多模态大语言模型提供训练数据。

2.FSBench基准平台:
FSBench提供了多种任务和评估方式,包括动作识别、评分、动作评估、全程表现评估等,为评估模型在花样滑冰理解中的表现提供了结构化的测试。
FSBench包括FSBench-Text(多选题和解释)和FSBench-Motion(多模态动作和问答对),支持从技术分析到表演评论等多种任务。

3.提升现有大语言模型的表现:
现有的大语言模型在花样滑冰的理解上存在显著不足。通过对FSAnno进行指令微调,论文展示了这些数据集在提升模型能力方面的潜力,特别是在处理花样滑冰中的技术动作和艺术表现方面。

四、实验

4.1数据集构建

1.数据来源:
FSAnnoFSBench的数据来源于ISU花样滑冰大奖赛和ISU青年大奖赛的11场比赛,涵盖了男、女短节目和自由滑的完整表演。这些比赛包含了不同年龄段和经验水平的运动员,确保了数据的多样性。

2.数据类型:
数据集包括RGB视频、动作数据和骨架数据,并且提供了原始视频和3D人体运动数据。通过使用4DHumans提取动作数据,以及HRNet估计骨架数据,确保了数据的精度和多样性。

3.注释方式:
每个动作的技术评分基于裁判报告,包括基本分数和执行分(GOE)。FSAnno不仅提供了每个动作的评分,还包括了裁判的艺术性评论,确保了数据的细粒度。
除了技术元素外,数据集还包括了整个表演的评分(如技术元素评分和节目组成评分)及其相应的评论。

4.隐私保护:
为了保护运动员隐私,数据集在采集时对运动员的身份进行了去标识化处理。此外,数据中不包含任何能直接识别运动员身份的信息,确保了数据使用的公平性。

在这里插入图片描述
在这里插入图片描述

4.2数据集应用与任务定义

FSAnno不仅为花样滑冰的动作识别提供了数据支持,还设计了多个任务来评估模型对花样滑冰的理解能力:

1.先验知识测试:
包括500个专门的花样滑冰规则测试,覆盖评分标准、技术细节等内容,用于评估大语言模型在花样滑冰领域的知识储备和准确性。

2.个别动作任务:
动作识别:识别和分类花样滑冰的基本动作,如跳跃、旋转等。
单项动作评分:评估单个动作的质量,判断该动作的GOE(执行分)是正、负或平分。
单项动作评论生成:生成针对单一动作的艺术性评论,评价其流畅性、表达性等。

3.完整表演任务:
动作分割:将一个完整的表演划分为多个技术动作,帮助理解动作的时间和顺序。
表演评分:为一个完整的表演进行评分,综合考虑技术难度和艺术性。
表演评论生成:根据完整表演生成评论,评价其技术执行和艺术表现。

4.评估与实验
FSBench的任务设计和数据注释使得它成为评估花样滑冰理解模型的理想平台。通过对现有大语言模型(如GPT-4)进行测试,论文展示了这些模型在花样滑冰领域的表现。
在先验知识测试中,GPT-4在规则和事件信息方面的准确率较高,但在艺术性理解上仍有不足。
在表演描述和动作评分任务中,FSAnno和FSBench的数据增强了模型对技术动作和艺术表现的理解,尤其是在动作细节和艺术表现的综合评估方面。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、结论

FSAnno和FSBench为花样滑冰领域提供了一个创新的多模态、细粒度的数据集和基准平台,支持从技术动作识别到整体表演评估的多任务研究。通过FSAnno数据集对现有大语言模型的微调,论文展示了如何提升模型在艺术性体育中的表现。未来的工作将集中于训练一个完全优化的多模态大语言模型(MLLM),使其能够有效处理花样滑冰的多任务理解。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐