用大型语言模型评估零样本多语言方面级情感分析——论文阅读报告

用大型语言模型评估零样本多语言方面级情感分析论文链接：[2412.12564] Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models没有提供实验代码链接发表于17 Dec 2024 (v1), 修改于 9 Jun 2025international Journal o

Samdy L

970人浏览 · 2025-09-19 10:23:23

Samdy L · 2025-09-19 10:23:23 发布

Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models

用大型语言模型评估零样本多语言方面级情感分析

论文链接：[2412.12564] Evaluating Zero-Shot Multilingual Aspect-Based Sentiment Analysis with Large Language Models

没有提供实验代码链接

发表于17 Dec 2024 (v1), 修改于 9 Jun 2025 international Journal of Machine Learning and Cybernetics, 2025

简介

该篇论文评估了LLM在多语言ABSA上的表现，比较了LLM和训练好的小型模型，并探索了各种提示策略对于性能的影响。

实验

1、实验变量

提示策略：

零样本提示、COT、自我优化、自我辩论、自我一致性

提示策略由简单到复杂

这里简单提一下，按照文章中提到的解释，这五种提示策略我们都能简单地复现，无非就是prompts的改变，在人工智能的结课论文中，我就采用了这样的方法评估几种大模型的性能，现在算是学习到专业术语了。

模型选择：

Llama−3.1 8B，Mistral 7B，Gemma-2 9B，Qwen−2.5 7B，Zephyr 7B，Phi−3.5-mini 3.8B，Gemini−1.5，Claude−3.5以及GPT-4o

温度设置：

0.0，0.2，0.4，0.6，0.8，1.0

2、数据集

SemEval-2016数据集，包含八种语言（只用到了5种）。

3、评估指标

Micro-F1指标：能够同时考虑到aspcet和sentiment的判断情况。

4、基准方法

我们在多语言数据集上对mBERT和XLM-R两个多语言模型进行微调，作为基准模型。

5、实验结果

①大模型：GPT-4o综合来看表现的最好

②语言：英语表现最好，西班牙语、法语其次，俄语垫底

③COT提示方法：单轮对话场景中，零样本方法优于COT。

主要是因为数据集中存在大量结构不完整的句子，容易让COT多想

④多轮VS单轮：多轮不如单轮。

⑤温度：温度设置虽然能提到回答的多样性，但是会降低性能

与基准比较：微调后的基准模型性能好很多。

模型大小：模型性能随着规模增大而提升。

三元组：提取三元组（方面，类型，情感）时，性能降低

多轮内部比较：自我优化表现优于自我辩论

跨语言测试：Qwen2.5-7B模型表现最好；仍然是俄语表现最差。

总结与启示

本文系统评估了大型语言模型在零样本多语言属性级情感分析（ABSA）任务中的能力，对比了五种提示策略（零样本、CoT、自我优化、自我辩论、自我一致性）在五种语言上的表现。

实验结果表明，大模型整体仍落后于微调小模型，且性能受语言资源和模型规模显著影响。但令人惊喜的是，简单零样本提示往往优于复杂推理策略。

我认为，这篇论文虽然创新点不多，但是起到了很好的启发作用：

1、语言转换：

作者尝试了以英文为基准，对俄语、西班牙语、法语、荷兰语进行跨语言大模型测试，实验结果无法让人满意。

在以后的研究中，我们可以探索如何训练模型，解决语言转换的SA问题。

2、多轮对话场景的优化：

大模型在多轮对话场景中，往往会表现的更加严谨、合理。但是，在零样本多语言ABSA问题中，简单的单论对话的性能反而更好。

我们可以更加深入地探索该现象的原因，并思考该怎么运用大模型帮助零样本多语言ABSA的任务实现。

3、大模型的优化：

实验结果表明，大模型整体落后于微调小模型。

结合之前的论文（Exploring large language models for the generation of synthetic training samples for aspect-based sentiment analysis in low resource settings），我们可以运用LLMs合成标注数据，优化零样本的LLM。

4、数据集的创建

一方面，文章中用到的数据集年代久远，包含的语言不多，还存在大量结构不完整的句子；另一方面，在语言转换的ABSA任务中，我们需要一个好的数据集能够考虑到各语言的文化差异。

一个好的跨语言数据集亟待创建。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla