量化托尔金《霍比特人》中的情感基调:使用正则表达式、NRC-VAD和Python进行对话情感分析

Lilin Qiu
都灵大学语言技术与数字人文系

摘要

本研究使用计算文本分析方法分析了J. R. R. 托尔金《霍比特人》(1937)中对话的情感基调。首先使用正则表达式提取对话,然后进行预处理,并使用NRC-VAD词典对情感维度进行量化评分。结果显示,对话总体保持积极(高效价)和平静(低唤醒)的基调,随着故事的推进,主体感(支配度)逐渐增强。这些模式反映了小说的情感节奏:危险和兴奋的时刻被幽默、友情和宽慰规律地平衡。可视化图表——包括情感轨迹图和词云——突出显示了托尔金的语言如何在紧张与舒适之间循环。通过将计算工具与文学阐释相结合,本研究展示了数字方法如何揭示文学作品中微妙的情感结构,揭示塑造《霍比特人》叙事的稳定节奏和情感调节。

关键词:数字语文学、托尔金、《霍比特人》、情感分析、NRC-VAD、正则表达式、对话分析

1 引言

语文学长期以来被描述为"理解文本意义的学科"(Pollock, 2014)。它涉及深度阅读,以揭示语言和时间中的意义。数字语文学通过计算工具和开放的、机器可操作的工作流程延续这一使命,使文本能够被动态地搜索、注释、比较和可视化(Crane等, 2009)。

本着这种精神,J. R. R. 托尔金的《霍比特人》(1937)是这项数字语文学研究的理想对象。作为一名训练有素的语文学家,托尔金将语言置于其创作过程的核心。他曾写道:“我是一名语文学家,我所有的工作都是语文学的”(Tolkien, 1981)。对托尔金来说,创造始于语言本身,而非情节或人物:“语言的发明是基础。'故事’的创作更多是为语言提供一个世界,而非相反。对我来说,名字首先出现,然后故事随之而来”(Tolkien, 1981)。

学者如Kullmann(2009)同样认为,托尔金的小说与其说是关于精灵、矮人和战士,不如说是通过语言惯例产生意义。本研究采用计算视角探索《霍比特人》的情感结构,研究托尔金的语言如何编码情感基调,以及这些模式如何在小说对话中演变。与托尔金将语言视为一个有生命的、不断演化的整体的观点一致,本研究关注更广泛的情感和语言趋势,而非孤立的句子。

本研究追踪《霍比特人》中对话情感的发展。在方法论上,它使用正则表达式(RegEx)提取所有对话,应用预处理来清理和规范化文本,然后使用NRC-VAD词典对每章的效价(积极vs消极)、唤醒(兴奋vs平静)和支配度(控制vs无力)进行评分。结果包括使用Python库生成的情感轨迹图和词云。这一工作流程遵循Hankar等(2025)概述的情感分析流程:收集文本→清理→提取特征→分析→可视化。

目标是将托尔金精心打造的语言转化为可见的情感模式,并将这些模式与叙事联系起来。最终,这项工作展示了计算如何扩展传统语文学"理解文本"的追求——这是细读的数字伴侣。

2 方法论

2.1 文本来源

本研究的语料库由J. R. R. 托尔金《霍比特人》(1937)的全文组成。使用纯文本(.txt)版本以确保与后续使用的文本处理方法兼容,这些方法在清洁、无格式的输入下效果最佳。

2.2 章节提取

正则表达式(RegEx)是描述文本模式的形式化语法。它们通常用于文本提取、验证和清理,以及识别或转换重复出现的语言结构。

在本研究中,RegEx用于提取每个章节并将其保存为chapters目录中的单独.txt文件。具体而言,使用Python的正则表达式(re)模块进行模式匹配,这允许更细粒度的提取。通过检测以"chapter"开头,后跟空格和一个或多个数字的文本(例如,Chapter 1, Chapter 2)来识别章节。

2.3 对话提取

根据Vishnubhotla等(2024)的研究,他们证明叙述和对话"在很大程度上表达不同的情感",弧线相关性"接近0",本研究专注于对话,以捕捉直接在言语中表达的情感状态。

使用Python的re模块逐章提取所有口语对话,并以.csv格式存储在dialogues目录中。通过检测双引号内的文本来识别对话。

2.4 预处理

正如Hankar等(2025)所指出的,"在执行任何类型的分析之前,预处理收集的文本是必要的阶段,因为数据质量很重要,可以直接影响后续任务。"因此,对上述步骤生成的对话文件应用一系列预处理步骤。目标是为后续阶段执行的情感分析提供干净的输入数据。

这些步骤包括分词、规范化、缩写处理、标点符号删除和停用词删除。为简单起见,所有这些过程都在同一脚本中实现。

2.4.1 分词、规范化、缩写处理和标点符号删除

规范化通过将所有字符转换为小写并删除多余空格来标准化文本。这确保了诸如"Happy"、"happy"和"HAPPY"等词被视为相同。然后分词将文本划分为更小的词单元(标记),允许单独处理和分析每个词。

此外,还包括缩写处理,以确保诸如"don’t"和"can’t"等缩短的否定形式被映射到明确保留否定的表示。在预处理流程中,助动词-否定结构(例如,“do + n’t”、“ca + n’t”、“wo + n’t”)被替换为标记"not",以便明确表示否定的存在,而不是隐藏在缩写形式中。以这种方式使否定显式化可以防止它在分词过程中丢失,并确保后续的情感计算基于原始文本的准确表示。

最后,应用标点符号删除来简化数据集,只关注对情感有贡献的有意义的词汇项。由于标点符号不具有内在的情感价值,删除它们有助于创建更干净的词标记,可以直接与NRC-VAD词典中的条目匹配,以进行效价、唤醒和支配度评分。

总之,这些预处理步骤标准化了文本数据,保留了诸如否定等关键情感特征,并减少了噪音,为基于词典的情感分析做准备(Hankar等, 2025)。

2.4.2 停用词删除

停用词是诸如_the_、andof、_to_和_at_等在几乎所有文本中频繁出现但不携带有助于检测情感的情感或语义意义的词。因此,删除停用词使数据更清洁,更专注于有意义的词,同时还减少了计算负担,使情感分析更快、更高效(Hankar等, 2025)。

使用停用词删除脚本(该脚本还集成了分词、规范化、缩写处理和标点符号删除),可以删除常见的停用词,如"the"和"and",以及额外的高频、非情感词,如"would"、“could"和"come”,使用扩展的停用词列表。然后将清理和过滤停用词的对话保存到dialogues_filtered文件夹中,以供后续情感分析使用。

2.5 汇编

所有章节级别的对话文件被连接成一个单一的文本文件,代表《霍比特人》中完整的口语标记集。这允许进行章节特定和整体情感分析。

具体而言,所有chapter_x_dialogues.csv文件被连接成一个名为full_dialogue.txt的单一.txt文件供后续使用。

然后将清理后的.txt文档上传到Voyant Tools的Cirrus进行词频可视化。Cirrus输出显示_good_(89)、time(65)、Baggins(46)、mountain(42)和_Thorin_(41)是最频繁出现的对话词。这些突出的术语暗示了一种反思性、关系性和目标导向的基调。诸如_good_和_time_等词唤起了人物互动中的温暖、安慰和社会联系感,而_Baggins_和_Thorin_突出了个人身份和领导力在对话中的中心地位。人物言语中频繁提及_mountain_强调了探索和通往它的旅程如何在他们的对话中始终是核心关注点。总之,这些主导词传达了一种充满希望但有目的的情绪,捕捉了《霍比特人》叙事特征的友谊与决心的融合。

2.6 情感分析与可视化

在此阶段,使用NRC-VAD词典分析对话的情感基调。该词典为每个英语单词分配三个心理分数——效价、唤醒和支配度(VAD)——每个分数范围从0(低)到1(高)。正如基于词典的方法所描述的,“词典本质上是专门为情感分析设计的字典……每个标记都与一个预定义的情感分数相关联,表明其强度”(Hankar等, 2025)。

在这个基于词典的框架内:

  • 效价显示一个词有多积极或消极(例如,joy = 高效价,death = 低效价)。
  • 唤醒测量情感兴奋的水平(例如,terror = 高;relaxed = 低)。
  • 支配度描述一个词表达了多少控制或力量(例如,leader = 高,victim = 低)。

由Mohammad(2018, 2025)开发的NRC-VAD词典包括超过55,000个英语单词和短语,由人类注释者在这三个情感维度上评分。根据Mohammad(2025)的说法,"情感的三个主要独立维度是效价或愉悦(积极性-消极性/愉悦-不愉悦)、唤醒(主动-被动)和支配度(支配-顺从)。"该词典通过大规模人工注释构建,并实现了非常高的可靠性。正如Mohammad所指出的,“VAD词典中的大量条目和分数的高可靠性使其对许多研究项目和应用有用。”

由于它是领域独立的且在心理学上可解释的,NRC-VAD词典非常适合探索《霍比特人》对话进展中情感如何变化。通过将对话中的每个词映射到其VAD分数,可以模拟各章中效价(积极性)、唤醒(情感强度)和支配度(主体感)的变化。

对于数据处理,使用NumPy进行数值计算,使用Pandas以表格形式处理结果。计算每章的平均VAD分数,然后使用Matplotlib和Seaborn进行可视化。

生成的折线图显示了效价、唤醒和支配度在整个《霍比特人》中如何起伏,给出了对话中情感节奏的视觉感受。使用Python的wordcloud库生成词云,以突出显示每章中最频繁的词。这有助于交叉参考词汇和情感数据——例如,显示某些重复出现的词如何与情感高点或低点相吻合。虽然之前使用Voyant Tools的Cirrus进行一般词频可视化,但这里更倾向于使用wordcloud库,因为它具有灵活性并与Python工作流程无缝集成。

正如Hankar等(2025)所指出的,"条形图、饼图、词云"等可视化对于清晰传达情感结果很重要。在这个项目中,VAD折线图和词云的组合提供了广泛的情感概览和对塑造《霍比特人》对话基调的语言模式的近距离观察。

3 发现

3.1 情感峰值和低谷

VAD情感图表突出显示了显著的峰值和低谷:

高效价:第3章(“短暂休息”)、第10章(“热烈欢迎”)、第19章(“最后阶段”)。

低效价:第5章(“黑暗中的谜语”)、第6章(“才出虎穴,又入狼窝”)、第9章(“桶中逃生”)。

高唤醒:第4章(“翻山越岭”)、第6章(“才出虎穴,又入狼窝”)、第12章(“内部消息”)。

低唤醒:第2章(“烤羊肉”)、第3章(“短暂休息”)、第11章(“在门阶上”)。

高支配度:第10章(“热烈欢迎”)、第14章(“火与水”)、第17章(“乌云破裂”)。

低支配度:第2章(“烤羊肉”)、第5章(“黑暗中的谜语”)、第6章(“才出虎穴,又入狼窝”)。

在托尔金的对话中,情感与语言密不可分:人物如何说话反映了他们的感受以及他们作为一个群体如何行动。下表将NRC-VAD结果与每章最频繁的对话词交叉参考。对于每个选定的章节,提供了情节摘要和词汇解释,以说明特定的词选择如何在叙事背景中反映情感基调。

[表格内容包含各章节的高频词、词云和情节词汇解释,详细分析了高/低效价、高/低唤醒和高/低支配度章节的特征]

4 讨论

VAD折线图显示中等效价、低唤醒和支配度的稳步上升——这是一个更多由镇定而非极端定义的情感弧线。这种模式与托尔金自己对《霍比特人》的描述一致,即与"更成人"和"更恐怖"的《指环王》相比,它是"轻松愉快的"(Tolkien, 1981)。VAD趋势强化了这种区别,因为《霍比特人》中的情感低点是短暂的,并且始终被幽默、惊奇或友谊所平衡。

该表通过显示情感基调如何通过高频词的特定模式表达来提供额外的细微差别。高效价章节——如"短暂休息"和"热烈欢迎"——的词汇场由公共的、仪式性的或恢复性的词汇主导(例如,elvesgoodkingmerry)。相反,低效价章节突出与限制、模糊或威胁相关的词(例如,lostdarkcursegoblins)。高唤醒章节强调运动和危险(struckquickerdragon),而低唤醒章节依赖静止和日常性(sittingthinkingmutton)。支配度的变化同样通过权威头衔(kingmasterfriends)或脆弱性标记(noneshutlost)反映出来。综合来看,VAD轨迹和词汇证据表明,托尔金的情感轮廓不仅是定量的,而且是语言上具体化的:对话之所以有这样的感觉,是因为人物反复选择的词语。

更广泛地说,结果展示了计算方法如何扩展细读。正如Elkins(2025)所论证的,情感分析可以揭示塑造叙事体验的潜在情感结构。在《霍比特人》中,这些结构表现为紧张和休息的交替阶段——一种通过变化而非突然极端来维持参与度的节奏。从这个角度来看,定量建模不是取代解释,而是深化解释:绘制效价、唤醒和支配度揭示了一个由韧性和希望塑造的叙事,即使在危险时刻也是如此。

5 结论

通过结合计算分析和文学阐释,本研究使用RegEx、NRC-VAD词典和基于Python的可视化绘制了《霍比特人》对话的情感轮廓。在数字语文学框架内构思,它展示了计算工具如何通过揭示微妙的情感和语言模式来扩展传统文本分析。

对章节级别词频的进一步分析强化了这种结构:以温暖或权威为标志的章节突出展示公共或仪式性词汇,而低效价或低支配度章节则突出与威胁、限制或犹豫相关的术语。这些定量和词汇信号共同阐明了情感基调如何直接编织到人物使用的语言中。

分析表明,托尔金的对话在整部小说中保持稳定的情感平衡——效价中等积极,唤醒普遍较低,支配度逐渐增加。这种模式反映了对话中观察到的音调节奏,其中紧张和危险的时刻之后是平静或幽默,无助的情况逐渐让位于信心。通过将托尔金的语言转化为可测量的情感数据,该研究使通常在定性讨论中的倾向变得可见。明暗情绪的交替,或从恐惧到安慰的反复转变,现在可以用可量化的术语来阐述,阐明《霍比特人》如何维持其情感平衡。

最终,以效价、唤醒和支配度的形式可视化托尔金的对话提供了对故事情感节奏的更清晰视角。通过检查对话如何在恐惧与舒适、危险与和平之间移动,这项分析突出了支撑《霍比特人》持久吸引力的稳定乐观主义。

6 局限性与未来工作

虽然基于词典的情感分析提供了一个透明的框架,但它在考虑上下文细微差别方面存在局限性。例如,单词_precious_(NRC-VAD词典中效价≈0.83)在第5章"黑暗中的谜语"中频繁出现。然而在咕噜姆的对话中,它带有威胁和痴迷的含义,而非喜爱。这个例子表明,词典分数——虽然对识别广泛趋势有用——并不总能捕捉特定词的上下文或讽刺意义。同样,诸如_Smaug_或_Baggins_等专有名词唤起的情感联想在静态词典中没有反映。

未来的研究可以在这些发现的基础上,通过结合根据周围词调整意义的上下文感知情感模型,或通过将基于词典的方法与在托尔金作品上训练的机器学习方法相结合来进行。另一个有价值的方向是比较《霍比特人》中的对话和叙述情感,遵循Vishnubhotla等(2024)概述的一般原则,以探索情感基调在叙述者声音和人物言语之间如何不同。比较研究还可以将《霍比特人》与《指环王》进行对比,以追踪情感节奏和成熟度的变化,或检查翻译和改编,以了解基调如何跨语言和媒介变化。


:本译文保留了原文的学术结构和专业术语,力求准确传达原文的研究方法、发现和学术价值。

论文解读

这篇题为 Quantifying Emotional Tone in Tolkien’s The Hobbit: Dialogue Sentiment Analysis with RegEx, NRC-VAD, and Python 的论文,将《霍比特人》的对话部分视作情感结构的“可测量界面”,通过正则表达式、预处理、NRC‑VAD 词典和 Python 可视化,重构了小说对话的情感轨迹。作者的核心主张可以概括为:托尔金在《霍比特人》中通过对话维持了一种整体上正向、低唤起、但支配感逐渐上升的情感节奏,而这种节奏可以被定量方法清晰揭示,并与精读式的文学解读相互印证。

这篇文章的价值并不止于“给小说算情绪平均值”,而在于它在方法与解释层面都坚持了一种“数字人文式的文献学立场”:文本情感不是抽象曲线,而是由稳定反复出现的词汇场和叙事场景共同支撑的语言结构。下面我按照论文自身的逻辑结构,用连续叙述的方式展开讨论,而不将内容拆解成 PPT 式的条目。

一、研究定位:从传统文献学到数字文献学的过渡

论文一开始就把自己扎根在“philology(文献学、语文学)”的传统上。Pollock 将文献学概括为“making sense of text”的学科,即通过语言与历史语境理解文本,而 Crane 等人所说的 ePhilology 则是让文本在数字环境中“开口说话”,通过搜索、标注、比对、可视化,形成开放的机器可操作流程。

作者借用托尔金本人对自我身份的界定——“I am a philologist and all my work is philological”——来完成一个很有自洽性的框架搭建:既然托尔金把语言视作创作的核心,那么用数字文献学的方法去量化语言中的情感组织,本身就是对托尔金创作观念的一种呼应,而不是对文学的“外科手术式切割”。

在这一框架下,《霍比特人》被理解为一个“语言先于情节”的世界:名字先于故事,语言结构先于人物命运。作者由此提出一个核心研究问题:如果我们只看对话,不看叙述,那么角色彼此之间的语言互动,在情感维度上会呈现怎样的整体趋势与章节间差异?这些差异如何与我们传统的文学理解互相验证或产生张力?

这也是文章在数字人文领域中比较可贵的一点:它并没有满足于“给出一条情感曲线”,而是从一开始就把自己放在一个“文献学 + 计算”的双重传统中,避免了某些情感分析论文常见的“技术顺滑、阐释贫乏”的问题。

二、方法流程:从正则表达式到 VAD 维度的完整管线

论文的方法部分看似是标准的情感分析流程,但在执行细节上有一些值得注意的选择,这些选择共同支撑了其“谨慎而透明”的方法论姿态。

1. 文本与章节:从全书到章节级情感单元

研究对象是《霍比特人》的纯文本版本。作者通过 Python 的正则表达式模块将整本书分割为单个章节。这里的设计目标很明确:在保持小说叙事完整性的前提下,以章节作为分析单位,既能保留叙事节奏,又便于纵向比较。

正则模式锁定以 “Chapter + 数字” 开头的段落,然后将每个章节的文本输出为独立的 .txt 文件。这个步骤看上去平凡,但它实际上是将“书籍物理结构”和“叙事情节单元”对齐的关键工程步骤,是后面所有章节级情感分析的前提。

2. 对话抽取:只看“角色说什么”,不看“叙述怎么说”

作者紧跟 Vishnubhotla 等人关于“叙述 vs 对话情感轨迹相关性很低”的研究,将《霍比特人》的情感研究聚焦在对话而非叙述上。技术上,通过正则表达式抽取双引号中的文本,将每一章的对话存为 .csv 文件。

这种选择背后的理论直觉很清楚:叙述者和角色说话是两种不同的叙事声音,它们承担不同的情感功能。**叙述者可以以相对抽离、全知的视角组织情绪,而对话则常常是情绪激发的直接出口。**只看对话,相当于刻意压低“全知视角”的权重,将注意力集中在角色之间的互动中。

这种“只看对话”的策略,同时也为未来的对比研究(对话 vs 叙述的 VAD 轨迹)留出了空间。

3. 预处理:在“干净数据”和“保留情绪信号”之间取得平衡

预处理部分延续了 Hankar 等人情感分析综述中对数据质量的强调。作者将所有预处理步骤集成在同一脚本中,以降低中间环节的误差传播。这些步骤包括:

首先是标准化与分词:统一小写并清除多余空白,将文本拆成词级 token,以便与 NRC‑VAD 词典逐词对齐。这里的关键点不在于技术本身,而在于为后续的词典匹配提供一个尽可能明确的词边界定义

接着是收缩形式与否定处理:作者特别强调了 “don’t”“can’t”“won’t” 等缩略形式中否定信息的显式化,将 “aux + n’t” 统一替换为 “not”。这个步骤体现了对情感分析的一个基本敏感:**否定结构常常改变情绪极性,如果被 tokenizer 当作一个普通 token 直接切开或丢失,将导致情感极性误判。**作者选择用 “not” 来显式化否定,是一种简洁且与英语语料工具链高度兼容的做法。

然后是标点移除:在这里作者采取了一个典型的词典式情感分析立场——标点本身不进入 VAD 词典,因此在计算 VAD 分数时不发挥直接作用。出于简化和匹配效率的考虑,标点被清除。作者没有在此处展开对“感叹号、问号是否携带情绪信号”的讨论,而是明确站在词典方法的实用立场上:只处理词,不处理标点的语用意义

最后是停用词与扩展停用词表:作者不仅移除了通常意义上的停用词(the, and, of, to 等),还根据具体语境加入了扩展停用词,如 “would”“could”“come”等。通过对比停用词移除前后的词云,作者展示了这一操作如何从“高频但情绪贡献有限的词”中“挖出”真正情绪承载量大的词汇场。

这里可以看到一个有意识的取舍:**作者宁愿牺牲一部分语法与节奏信息,也要突出“词汇层面的情绪载体”,从而让 VAD 分析在词汇频率层面具有更高的信噪比。**在面向章节整体趋势时,这种取舍是合理的。

4. 对话合并与 Voyant:从章节到全书的词汇轮廓

在完成章节级对话抽取与预处理之后,作者将所有章节对话合并为一个 full_dialogue.txt,用 Voyant Tools 的 Cirrus 模块生成词云。这个步骤的目的并非直接服务 VAD,而是为全书对话的词汇轮廓提供一个直观入口。

通过 Cirrus,作者发现 “good”“time”“Baggins”“mountain”“Thorin”等词呈现出明显的高频特征。叙述层面,作者将其解读为一种“反思性、关系性与目标导向”的语义场:既有情绪温度(good, time),也有身份与领袖(Baggins, Thorin),还有始终牵引叙事的任务焦点(mountain)。

这一小节既是对预处理有效性的验证,也是通往 VAD 分析的一个语义层面铺垫:它告诉读者,《霍比特人》的对话空间从一开始就围绕着“好”“时间”“巴金斯”“索林”和“山”这些词在组织情绪。

5. NRC‑VAD 词典与情绪三维度:从极性到“情绪空间”

在情感表示层面,作者没有采用简单的正负极性,而是采用了 NRC‑VAD 词典提出的三维度模型:愉悦度(valence)、唤起度(arousal)、支配感(dominance),每个维度从 0 到 1。

这三条轴线构成了一个多维情绪空间:
Valence 衡量“愉快–不愉快”;Arousal 对应“激活–平静”;Dominance 则是“掌控–被动”的感受。作者引用 Mohammad 本人的定义,强调 VAD 维度的心理学可解释性和可靠性,并指出 VAD 词典的规模(5.5 万词以上)足以覆盖《霍比特人》对话的大部分词汇。

在技术实现上,作者使用 NumPy 做数值运算、Pandas 处理结果表格,为每一章计算平均的 V、A、D 分数,随后用 Matplotlib 和 Seaborn 绘制折线图,并利用 Python 的 wordcloud 库生成章节级词云。
值得注意的是,作者没有将可视化简单理解为“美观展示”,而是把它视为情感模式识别的一部分:VAD 曲线给出的是宏观节奏,而词云则帮助读者在具体词汇层面理解“为什么此处会出现情绪高点或低谷”。

三、结果:情绪节奏、章节场景与词汇场之间的互证

论文的发现部分并没有仅限于“指出曲线的高低点”,而是刻意将 VAD 值与章节情节、词云高频词三者联系起来,形成一种“定量–叙事–词汇”的三重对应关系。

1. 整体轨迹:中等愉悦度、低唤起、支配感逐步上升

从宏观上看,VAD 折线呈现出一个相对温和的情绪基调:Valence 在适度正向区间波动,Arousal 整体偏低,Dominance 则随情节推进逐步上升。

作者将这一模式与托尔金本人关于《霍比特人》“较为轻松”“不如《指环王》那样可怕”的评价联系起来,认为 VAD 曲线以定量方式印证了这一传统印象:
对话中的负面情绪虽然存在,但常常被幽默、友谊、奇观感所抵消;高唤起时刻通常短促而集中,其后紧跟着休整、安宁或嬉笑。情绪节奏的核心机制不是“堆叠绝望”,而是“在光与暗之间反复切换,并让光的权重略高”。

支配感逐渐上升则在叙事上很好理解:从局促的家中受邀,到被巨魔、地精、蜘蛛、精灵等势力支配,再到湖镇被欢迎、屠龙、五军之战,角色从被动卷入到获得行动权、解释权与决策权,这一叙事实质在 VAD 的 dominance 轴上被清晰标出。

2. 高 Valence 章节:休整、欢迎与归家

情绪高点主要出现在第三章《短暂休息》、第十章《热情欢迎》以及第十九章《归途与家园》。

在《短暂休息》中,词云中的 “moon, day, Durin, mountains, elves, good, Gondolin, dwarves, mountain, misty” 构成了一个典型的“抒情–回忆–祖先–自然景观”的词汇场。对话在这里具有一种半歌唱性的质感:精灵的歌、埃尔隆德的款待、山月与古老王国的意象共同塑造了一个安宁而略带忧思的情绪平原。“good” 与 “elves” 的高频出现既是情绪语词,也是一种集体性的身份认同标记:主人好、客人好、过去的世界也在此刻变得温柔。

《热情欢迎》中的高 Valence 则由另一种词汇场支撑:“son, king, master, smell, Baggins, Thorin, Thrain, Thror, town, spoken”。这里没有自然意象的安宁,取而代之的是仪式性语言、权力与血统的名号。托尔金通过名号堆叠构造了一种“被承认的命运感”和“集体期待感”,对话中的情绪偏向自信、豪迈与集体兴奋,这与 VAD 中的高 Valence、高 Dominance 叠加得非常紧密。

最后一章《终局与返乡》中,“long, merry, time, waken, night, cure, suppose, road, share, hobbit”等词,推动的是一条“回望之路”。情绪的正向性不再是外在庆典,而是对“时间”“道路”“霍比特人生活”的温柔反思。“merry”“share” 这样的词使得高 Valence 带上了某种余温式的明亮,而不再是旅程中期的喧嚣之光。

3. 低 Valence 章节:迷失、囚禁与追逐

情绪低谷集中于第五章《黑暗中的谜语》第六章《火上浇油》以及第九章《木桶出逃》。

《黑暗中的谜语》中,“precious, Gollum, lost, pocketses, guess, nassty, curse, goblinses, preciouss, Baggins” 这样的词表,几乎不需要任何统计解释就能给人以强烈压迫感。“precious” 在 VAD 词典里的 Valence 是偏高的,但作者敏锐地指出:在咕噜的口中,它携带的并不是温情,而是病态依恋与威胁,这种语境性扭曲正是词典方法的局限之一。“lost”“curse” 等词则在字面极性上强化了负面情绪,与洞穴环境共同构成一种狭窄、封闭、充满歧义的情感空间。

第六章《火上浇油》的负向情绪则更为外显: “goblins, dark, time, bit, mountains, burglar, quietly, Baggins, great, miles” 中,“goblins”“dark”“mountains” 是追逐与艰难地形的标记,“quietly”“bit”“miles” 体现的是一种在长距离逃亡中带着疲惫与警惕的低调对话。在这里,低 Valence 与高 Arousal 是叠加的:角色既不乐观,也不能停下来思考,只能在紧张与疲惫之间维持一种岌岌可危的行动状态。

第九章《木桶出逃》则加入了囚禁与潜逃的语汇:“king, time, spiders, taste, tonight, feast, escape, magic, doors, inside”。“escape”“doors”“inside” 构成了一个典型的“出入–困境–解脱”三角,Valence 低,Dominance 逐步上升——角色虽然仍在阴影中,但已经在谋划如何获得行动权。

4. 高 Arousal:风暴、追击与龙之对话

在唤起度维度上,四、六、十二章构成了剧情高张力的三极。

第四章《山上山下》中的高 Arousal,词云 “Thorin, cave, struck, lightning, ponies, goblins, mountains, good, quicker, summer” 说明了情绪激活的来源:暴风雨、闪电、洞穴袭击、匆忙逃脱。这里的对话短促而命令式,“struck”“quicker” 这类动词驱动了“跑与躲”的节奏,Arousal 的高点是一种“被追逐”的高压状态。

第六章在前文已经提到,它在 Valence 维度是低的,在 Arousal 维度却是高的,是典型的“惊险逃亡场景”:语气紧绷、步伐加快、希望尚不明朗,情绪能量却被危险不断推高

第十二章《窃密》中的高 Arousal 则不同于纯粹逃亡,它是“面对龙、走向危险中心”的高强度情绪:
“Smaug, time, Baggins, good, night, suppose, dragon, alive, long, tunnel” 告诉我们,这里的对话一方面围绕“dragon”“alive”“tunnel”等高度危险与封闭空间相关的词汇,另一方面仍保留了比尔博特有的机智礼貌。“good night, suppose” 等表达构成了一种“礼貌中的战栗”,Arousal 高而 Valence 并非纯粹低,这种复杂情绪在 VAD 的多维度空间中得到较好的刻画。

5. 低 Arousal:滑稽冲突、静止等待与间奏

与高 Arousal 相对的是第二、第三、十一章的低唤起段落。

第二章《烤羊肉》中,“yer, never, time, good, cook, none, mutton, shut, lots, yerself” 语料看上去充满冲突,但作者指出,这种冲突更接近滑稽闹剧而非存在主义恐惧。方言词(yer, yerself)与食物词(mutton, cook)一起,将危险包裹在一种粗鄙的日常感中,使得 Arousal 值并未随着情节紧张程度极端上升。

第三章《短暂休息》中的低 Arousal 已在高 Valence 部分讨论过,它是一种“抒情性的安宁”。
第十一章《山门前》则是典型的“等待的章节”:“key, mountain, good, halls, time, doorstep, sitting, thinking, autumn, rate”。
这里的唤起度低,并不意味着情绪平淡无奇,而是一种悬念被刻意压在缓慢节奏之下,角色“坐着”“思考”,时间(autumn, time)被拉长,行动被延迟。这种叙事策略与 VAD 的低 Arousal 形成了一种形式与内容的统一。

6. 支配感:从被玩弄到能发言

Dominance 维度可能是这篇论文最有解释力的一条轴线,因为它与《霍比特人》的冒险–成长叙事高度同构。

高支配感的章节,如第十、第十四、第十七章,基本上都围绕着“话语权与行动权的集中时刻”。
在《热情欢迎》中,Thorin 在镇长与众人面前宣告身份,词云中的 “son, king, master, Baggins, Thorin, Thrain, Thror, town, spoken” 标记了一个典型的“礼仪性权力话语场”:名字与称谓不仅是故事信息,更是支配结构的语言体现

在第十四章《火与水》中,“king, Bard, mountain, dragon, gold, time, songs, good, Girion, north”, Bard 面对巨龙,是为“人类阵营”争取未来的关键行动者。虽然人物在力量上远弱于 Smaug,但在叙事结构与道德秩序上处于高支配位:他的决定、他的射箭,是将混乱收束为秩序的关键行动,因此 Dominance 在此并不取决于“物理力量”,而更接近“叙事赋权”。

第十七章《云破天开》中,“Dain, eagles, mountain, friends, coming, gold, stone, time, Thorin, mind” 将注意力集中在“调度”“联盟”和“心理抉择”上:
“friends, coming, mind” 这些词汇体现的不是慌乱溃散,而是带着清醒与冷静的集体协调,这与高 Dominance 的心理印象高度吻合。

与之相对的低支配章节,如第二、第五、第六章,则基本处在“被他者支配、被环境裹挟”的状态。
第二章中的 “never, none, shut” 明确呈现否定与禁止,角色的行动范围被限定;
第五章中,比尔博在咕噜的领域中完全处于被审问与被玩弄的角色,“precious”“nassty”“goblinses” 这些词构成的语言空间本身就带有压迫感;
第六章里,队伍在黑暗中被迫逃命,“quietly”“dark” 这类词指向的是“隐蔽生存”,而不是“主动掌控局面”。

通过这些例子可以看到,Dominance 在 VAD 模型里虽然是一个抽象数值,但在具体叙事中却与“谁能说话”“谁的说法得到他人承认”“谁在安排谁”的问题高度同步,这也是本文成功将情绪维度与叙事语用紧密结合的一个强项。

四、讨论:情绪节奏、词汇场与叙事实践

论文的讨论部分并未引入全新的数据,而是试图在已有结果与更大范围的文学与数字人文讨论之间搭建桥梁。

一方面,作者将《霍比特人》的情绪节奏与《指环王》做了文献上的对照——托尔金曾明言《指环王》更“成人、更恐怖”。在 VAD 层面,《霍比特人》表现为:**Valence 长期停留在轻度正向区间,Arousal 显著低于传统英雄史诗战记中那种连续高强度,Dominance 则以一种“成长型曲线”渐进上升。**这等于是以定量方式,为“这是一本相对轻快的成长冒险小说”提供了证据。

另一方面,作者借用 Elkins 对情感分析的论述,强调情感曲线并不是要替代情节分析,而是揭示了“情节如何以情感的方式被读者体验”。在《霍比特人》中,读者的情绪体验并非建立在持续绝望之上,而是在**“紧张–舒缓–幽默–奇观–危机–安宁”**的交替之中形成一种相对可靠的情感安全感,这正是其“适合朗读给孩子听”的叙事气质来源之一。

更重要的是,作者通过对章节词云与 VAD 值的交叉分析,提出了一个非常具有启发性的观点:情绪不是脱离语言的心理状态,而是由角色反复选择的词汇场塑造出来的
高 Valence 通常伴随“群体、仪式、宴会、家园”等词汇场;
低 Valence 则聚焦于“黑暗、迷失、囚禁、诅咒”的语义聚合;
高 Arousal 由“袭击、逃亡、龙、闪电”等动作与威胁词驱动;
低 Arousal 则与“坐、等、想、做饭”这类缓慢行动或日常活动高度相关;
Dominance 则与“king, master, friends, none, shut, lost”等体现主体能动性与受限状态的词语紧密相连。

换句话说,这篇论文成功地将“情绪曲线”从抽象时间轴拉回了词汇选择层面:我们可以具体看到,是哪些词,在怎样的频率与组合下,把某一章节的情绪拉向某一方向。

五、局限与延展:从词典方法走向语境敏感

论文在结尾部分对自身方法的局限性做出了清晰而诚实的反思。

首先,词典方法难以捕捉语境性与讽刺、反讽等复杂用法。作者以 “precious” 为例指出,同一个在 VAD 词典中高 Valence 的词,在咕噜的语境中却带有近乎病态的执着与威胁感,说明“词典先验极性”并不能代替语境化的解读。同样,专有名词如“Smaug”“Baggins”在读者的文化记忆中有清晰的情感色彩,但在 VAD 词典中往往是中性的。

其次,词典方法基本忽略了句法结构与篇章层面上的情感组织。否定被显式化为 “not” 是一个重要的修正,但仍然不能完全覆盖诸如反问、委婉、双重否定等复杂现象。

作者提出的未来方向主要包括:
一是引入语境敏感的模型,让词的情感值随上下文动态调整;
二是结合机器学习方法,以托尔金的作品为训练语料,获得更贴合其风格的情感表征;
三是将本研究的对话分析与叙述部分的情感分析对照,以响应 Vishnubhotla 等人关于两者情感轨迹几乎不相关的发现;
四是做横向比较:将《霍比特人》与《指环王》在 VAD 空间中并置,或者比对不同语言的译本、不同媒介改编中的对话情感结构,从而探讨情感节奏在跨语种与跨媒介中的移植与变形。

这些展望的共同出发点是:保持词典方法的可解释性优势,同时引入语境建模与跨文本比较的能力,让情绪分析真正成为“数字文献学”的一种细致实践,而非单纯的可视化技巧。

六、小结:一条“可视化”的情感之路

综合来看,这篇论文在三个层面上具有代表性意义:

第一,在方法上,它提供了一条相对完整、透明且可复现的情感分析管线,从文本分章、对话抽取、预处理、词典匹配,到章节 VAD 可视化与词云对照,这套流程既可以迁移到其他长篇小说,也可以作为数字人文教学中的示范案例。其技术并不花哨,但胜在每一步都与后续解释紧密对接,而不是为了技术而技术

第二,在解释上,它拒绝把情感分析结果当作“结论的终点”,而是把 VAD 曲线看作引导精读的入口:每一个情绪峰谷都要回到具体章节情节和高频词汇场中去理解。读者因此不会停留在“这里 Valence 较高、那里 Arousal 较低”的抽象印象,而能具体感受到“为什么 Rivendell 是一种安宁的高 Valence、为什么屠龙前后支配感大幅上升、为什么咕噜的‘precious’在数值上高 Valence 却在阅读体验中令人不安”。

第三,在理论定位上,它自觉将自己放在“数字文献学”而非“情感分析应用展示”的位置。通过不断回到托尔金的文献学身份、Pollock 关于 philology 的界定,以及 Crane 所说的 ePhilology 理念,文章在技术与传统文科方法之间搭建了一条相对稳固的桥梁。

如果把托尔金“为语言创造世界”的创作观视作一种前数字时代的“数据驱动想象”,那么这篇论文所做的,是在数字时代反向操作:在一个早已存在的语言世界上,抽取其对话数据,重建其情感地貌,并用可视化手段让这种地貌变得可见、可比、可讨论。

从这一意义上说,《Quantifying Emotional Tone in Tolkien’s The Hobbit》既是一篇技术上扎实的情感分析小型实证研究,也是一次颇有自觉的数字文献学练习:它让我们看到,如何在不牺牲文学复杂性的前提下,让情绪成为可以被度量、被对照、被重新讲述的“结构”。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐