用大型语言模型评估零样本多语言方面级情感分析——论文阅读报告
用大型语言模型评估零样本多语言方面级情感分析论文链接:[2412.12564] Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models没有提供实验代码链接发表于17 Dec 2024 (v1), 修改于 9 Jun 2025international Journal o
Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models
用大型语言模型评估零样本多语言方面级情感分析
没有提供实验代码链接
发表于17 Dec 2024 (v1), 修改于 9 Jun 2025 international Journal of Machine Learning and Cybernetics, 2025
-
简介
该篇论文评估了LLM在多语言ABSA上的表现,比较了LLM和训练好的小型模型,并探索了各种提示策略对于性能的影响。
-
实验
1、实验变量
提示策略:
零样本提示、COT、自我优化、自我辩论、自我一致性
提示策略由简单到复杂
这里简单提一下,按照文章中提到的解释,这五种提示策略我们都能简单地复现,无非就是prompts的改变,在人工智能的结课论文中,我就采用了这样的方法评估几种大模型的性能,现在算是学习到专业术语了。
模型选择:
Llama−3.1 8B,Mistral 7B,Gemma-2 9B,Qwen−2.5 7B,Zephyr 7B,Phi−3.5-mini 3.8B,Gemini−1.5,Claude−3.5以及GPT-4o
温度设置:
0.0,0.2,0.4,0.6,0.8,1.0
2、数据集
SemEval-2016数据集,包含八种语言(只用到了5种)。
3、评估指标
Micro-F1指标:能够同时考虑到aspcet和sentiment的判断情况。
4、基准方法
我们在多语言数据集上对mBERT和XLM-R两个多语言模型进行微调,作为基准模型。
5、实验结果
①大模型:GPT-4o综合来看表现的最好
②语言:英语表现最好,西班牙语、法语其次,俄语垫底
③COT提示方法:单轮对话场景中,零样本方法优于COT。
主要是因为数据集中存在大量结构不完整的句子,容易让COT多想
④多轮VS单轮:多轮不如单轮。
⑤温度:温度设置虽然能提到回答的多样性,但是会降低性能
与基准比较:微调后的基准模型性能好很多。
模型大小:模型性能随着规模增大而提升。
三元组:提取三元组(方面,类型,情感)时,性能降低
多轮内部比较:自我优化表现优于自我辩论
跨语言测试:Qwen2.5-7B模型表现最好;仍然是俄语表现最差。
-
总结与启示
本文系统评估了大型语言模型在零样本多语言属性级情感分析(ABSA)任务中的能力,对比了五种提示策略(零样本、CoT、自我优化、自我辩论、自我一致性)在五种语言上的表现。
实验结果表明,大模型整体仍落后于微调小模型,且性能受语言资源和模型规模显著影响。但令人惊喜的是,简单零样本提示往往优于复杂推理策略。
我认为,这篇论文虽然创新点不多,但是起到了很好的启发作用:
1、语言转换:
作者尝试了以英文为基准,对俄语、西班牙语、法语、荷兰语进行跨语言大模型测试,实验结果无法让人满意。
在以后的研究中,我们可以探索如何训练模型,解决语言转换的SA问题。
2、多轮对话场景的优化:
大模型在多轮对话场景中,往往会表现的更加严谨、合理。但是,在零样本多语言ABSA问题中,简单的单论对话的性能反而更好。
我们可以更加深入地探索该现象的原因,并思考该怎么运用大模型帮助零样本多语言ABSA的任务实现。
3、大模型的优化:
实验结果表明,大模型整体落后于微调小模型。
结合之前的论文(Exploring large language models for the generation of synthetic training samples for aspect-based sentiment analysis in low resource settings),我们可以运用LLMs合成标注数据,优化零样本的LLM。
4、数据集的创建
一方面,文章中用到的数据集年代久远,包含的语言不多,还存在大量结构不完整的句子;另一方面,在语言转换的ABSA任务中,我们需要一个好的数据集能够考虑到各语言的文化差异。
一个好的跨语言数据集亟待创建。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)