Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models

用大型语言模型评估零样本多语言方面情感分析

论文链接:[2412.12564] Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models

没有提供实验代码链接

发表于17 Dec 2024 (v1), 修改于 9 Jun 2025  international Journal of Machine Learning and Cybernetics, 2025

  • 简介

该篇论文评估了LLM在多语言ABSA上的表现,比较了LLM和训练好的小型模型,并探索了各种提示策略对于性能的影响。

  • 实验

1、实验变量

提示策略:

零样本提示、COT、自我优化、自我辩论、自我一致性

提示策略由简单到复杂

这里简单提一下,按照文章中提到的解释,这五种提示策略我们都能简单地复现,无非就是prompts的改变,在人工智能的结课论文中,我就采用了这样的方法评估几种大模型的性能,现在算是学习到专业术语了。

模型选择:

Llama−3.1 8B,Mistral 7B,Gemma-2 9B,Qwen−2.5 7B,Zephyr 7B,Phi−3.5-mini 3.8B,Gemini−1.5,Claude−3.5以及GPT-4o

温度设置:

0.0,0.2,0.4,0.6,0.8,1.0

2、数据集

SemEval-2016数据集,包含八种语言(只用到了5种)。

3、评估指标

Micro-F1指标:能够同时考虑到aspcet和sentiment的判断情况。

4、基准方法

我们在多语言数据集上对mBERT和XLM-R两个多语言模型进行微调,作为基准模型。

5、实验结果

①大模型:GPT-4o综合来看表现的最好

②语言:英语表现最好,西班牙语、法语其次,俄语垫底

③COT提示方法:单轮对话场景中,零样本方法优于COT。

主要是因为数据集中存在大量结构不完整的句子,容易让COT多想

④多轮VS单轮:多轮不如单轮。

⑤温度:温度设置虽然能提到回答的多样性,但是会降低性能

与基准比较:微调后的基准模型性能好很多。

模型大小:模型性能随着规模增大而提升。

三元组:提取三元组(方面,类型,情感)时,性能降低

多轮内部比较:自我优化表现优于自我辩论

跨语言测试:Qwen2.5-7B模型表现最好;仍然是俄语表现最差。

  • 总结与启示

本文系统评估了大型语言模型在零样本多语言属性级情感分析(ABSA)任务中的能力,对比了五种提示策略(零样本、CoT、自我优化、自我辩论、自我一致性)在五种语言上的表现。

实验结果表明,大模型整体仍落后于微调小模型,且性能受语言资源和模型规模显著影响。但令人惊喜的是,简单零样本提示往往优于复杂推理策略。

我认为,这篇论文虽然创新点不多,但是起到了很好的启发作用:

1、语言转换:

作者尝试了以英文为基准,对俄语、西班牙语、法语、荷兰语进行跨语言大模型测试,实验结果无法让人满意。

在以后的研究中,我们可以探索如何训练模型,解决语言转换的SA问题。

2、多轮对话场景的优化:

大模型在多轮对话场景中,往往会表现的更加严谨、合理。但是,在零样本多语言ABSA问题中,简单的单论对话的性能反而更好。

我们可以更加深入地探索该现象的原因,并思考该怎么运用大模型帮助零样本多语言ABSA的任务实现。

3、大模型的优化:

实验结果表明,大模型整体落后于微调小模型。

结合之前的论文(Exploring large language models for the generation of synthetic training samples for aspect-based sentiment analysis in low resource settings),我们可以运用LLMs合成标注数据,优化零样本的LLM。

4、数据集的创建

一方面,文章中用到的数据集年代久远,包含的语言不多,还存在大量结构不完整的句子;另一方面,在语言转换的ABSA任务中,我们需要一个好的数据集能够考虑到各语言的文化差异。

一个好的跨语言数据集亟待创建。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐