词典(Dictionary)是一个预定义的词列表,列表中的每一个词都带有特定的标签或属性信息,为文本清洗、分词、语义理解等关键环节提供知识参照。

为什么需要词典?

机器缺乏对自然语言的内在认知,需要明确的规则和知识来理解和处理文本。词典则以一种高效、可控的方式将规则与知识注入文本处理流程。其作用主要体现在三个方面:

  • 文本清理:文本中含有大量高频但是无意义的常用词,比如“的”、“是”、“在”等等。这些词统称为停用词。词典最基础的应用,就是通过停用词词典来识别并移除这些词,降低数据噪音,提高后续分析的效能。
  • 指导分词:分词对于中文这种缺少显式边界的语言来说十分重要。错误的分词会彻底改变整句话的含义。分词词典可以指导分词工具正确切分词语,减少分词歧义。比如,将“自然语言处理”识别为一个整体,而不是“自然”、“语言”和“处理”。
  • 特征增强:为词语注入更丰富的语义信息,为后续的分析任务提供关键特征。例如,通过情感词典把“高兴”标记为积极词,把“悲伤”标记为消极词,为后续的情感分析提供了关键特征。又或者,命名实体词典能把“哇哈哈”标记为一个组织机构而不是一个指代积极情感的词语,从而为后续的因果关系挖掘提供正确的特征信息。

常见词典类型

目前,常见词典包括以下几类,可独立服务于分词、清洗、实体识别、情感分析等不同的任务,也可以协同起来服务于更复杂的NLP任务或实现更精确的分析结果:

  • 分词词典:最基础的词典,包含大量预先定义好的基础词语、常用短语和术语等等,指导分词器正确切分文本,减少歧义。主流分词工具,如jieba,都内置了分词词典。
  • 停用词词典:同样属于基础词典,收录频繁出现、但是信息含量低、缺乏区分度的功能词,比如介词、连词、冠词、以及部分代词和助词。在预处理阶段,停用词词典可以过滤掉很多高频但是无意义的词,降低数据噪音,减少后续的模型计算量。
  • 专有名词词典:收录特定学科领域、专业范畴或业务场景中的专有名词,比如复杂的产品型号、化学物质名称、法律条文、或独特的专业概念。专有名词词典可以保证这些具有特定含义的名称在分词时被当作一个不可分割的整体单元处理,避免被错误拆分。
  • 命名实体词典:用于识别人名、地名、组织机构名等具有特定指代意义的实体的集合。在实施命名实体识别任务时,可以通过直接匹配,快速准确地识别出文本中的已知实体。
  • 情感词典:收录情感词,并标注情感倾向和强度。部分情感词典还会包含否定词,如“不”、“没”,和程度副词,如“很”、“极其”。在情感分析中,通过查找和计算情感词的得分,来判断文本的情感色彩。
  • 新词词典:收录最新出现的、尚未被通用词典或专有名词词典覆盖的高频词语,比如网络流行语、社会热点词或特定社群的俚语黑话。提升分词和语义理解对新兴词语的适应性,保持模型对现代语言的理解能力和时效性。

专有名词词典vs命名实体词典

专有名词是“词”,命名实体是词所指代的“实体”。

概念 专有名词词典 命名实体词典
概念 语法层面。收录的是词性为"专有名词"的单词,作为词法分析的一部分。比如,"北京"、"谷歌"。 语义层面。收录的是指向现实世界中特定事物的"实体",并为实体分类。是信息抽取的一部分。
粒度 通常是单个词语。 可以是单个或多个词语组成的短语。例如,"中国工商银行"、"范仲淹"。
内容 相对较窄。主要有人名、地名、品牌名等。 相对广泛。除了人名、地名、机构名,还包括日期、时间、货币、百分比、产品名等。
目的 辅助分词和词性标注,确保这些词不被错误切分。 信息抽取与分类。不仅要识别出实体,还要打上预定义的标签,如PER(人物)、ORG(组织)、LOC(地点)。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐