文本分析基础技术解码|词典(二):创建自己的词典
自定义词典的创建可提升文本分析精准度,尤其适合专业领域术语、新词和停用词处理。TATOOLS提供高频词提取和智能发现新词两种方式创建词典,并支持搜狗输入法词库转换,便于快速构建高质量领域词典。
为什么要创建自定义词典?
尽管主流分词工具都内置了通用词典,网络上也存有大量公开的通用词库,但在实际应用中,为了追求更精准的文本分析结果,仍需要针对特定需求创建自定义词典,主要原因在于:
- 领域适应性:通用词典的覆盖范围很广,但是以日常词汇为主,难以应对专业领域的术语需求。金融、法律、医疗、IT等各行各业都有其独特的术语体系、缩略语和表达习惯。使用自定义词典,才能正确切分这些领域特有的专业术语和专有名词,确保文本在专业语境下被正确解析。
- 新词发现:随着社会发展、科技进步以及互联网普及,每天都有大量新词、网络流行语和社会热词诞生,通用词典无法实时跟随这种变化节奏。自定义词典可以及时收录这些未登录词,保持分词模型乃至整个分析系统的时效性和敏锐度。
- 具体任务导向:同一词语在不同任务中可能具有不同的语义或情感倾向,通用词典难以兼顾这些细微之处。比如,“苹果”在科技文本中应当被优先识别为公司品牌而非水果。或者,某些词语的情感倾向在特定语境中可能会发生逆转或强化。比如,“涨”在通用语境中可能是中性词,但在金融领域中通常指代积极向上的情感。此外,一些词语在通用分析中不属于停用词,但在专业分析中不具备任何意义,反而会干扰分析结果。比如,“研究”在文献分析中是关键词,但在商品评论中就是噪声词。
哪些词典适合自行创建?
- 不适合个人创建的词典:包括命名实体词典、情感词典等复杂词典。创建这类词典除了新增词表外,还需要对词语的具体属性进行人工标注,将耗费大量的技术支撑和人工审校。除非拥有专业团队和充足资源,否则不建议自行创建这类复杂词典。
- 适合个人创建的词典:包括专有名词词典、新词词典和停用词词典。前两者主要用于指导分词工具如何正确切分专有名词和新词,所以只需要将相关词语列表化即可。相应地,根据具体的分析需求,也可以自定义停用词列表,以排除那些没有信息量的词语。
- 人工整理:专业人员手动收集、整理词语是创建自定义词典最直接、最准确,但也最耗时耗力的方法。适用于词典的初建阶段,词汇量较小,但是对准确性要求极高。
- 外部资源整合:许多机构或平台都提供了分类清晰、内容丰富的词库资源。比如,搜狗输入法提供了非常全面的专业词库分类,涵盖自然科学、人文科学、农林渔畜等十二个大类,提供诸如“动物词汇大全”、“建筑词汇大全”、“全国省市区县地名”等专有名词词库。这些现成词库可以直接导入或稍作整理后使用。此外,官方、行业协会与学术机构发布的术语标准是创建专业词典的绝佳来源,比如,全国科学技术名词审定委员会审定公布的《城乡规划学名词》。
- 语料提取:基于规则与统计从现有语料中提取潜在词语,再辅以人工审校。比如,在高频词提取后,人工检验提取结果中是否存在错误分词或噪音词。通过对“错误”和“噪音”的纠正和筛选,建立新词词典(收录此前未被识别但高频出现的新词)和停用词词典(过滤掉无意义的高频词)。或者,利用语言模型的强大语义理解能力从混杂的网络文本中识别出传统分词工具或现有词典难以覆盖的未登录词汇,尤其是黑话俚语,从而提升新词判别的自动化程度和准确性。
在TATOOLS中创建并使用自定义词典:可视化操作指南
1. 在TATOOLS中使用自定义词典
TAT将是否使用自定义词典和使用自定义停用词这两个选项,作为可调节参数直接集成到分词流程中,并嵌入与之密切相关的功能里。这意味着在进行词性标注、高频词提取、命名实体识别等任务时,用户可以直接在交互界面看到相应的参数选项,并上传txt格式的自定义词典文件。此外,TAT还提供了开启智能词汇识别的选项。勾选此项,系统将调用自训练的语言模型,从上传的待处理文本中自动识别新词。这项功能特别适合处理含有大量未知新词或专有表达的文本。

2. 在TATOOLS中创建自定义词典
TATOOLS提供了两种简单的自定义词典创建方式。
(1)利用高频词提取:利用标准文本处理模块中的高频词提取(high-frequency-words)。首先,将待处理文本输入该功能进行初步处理,获取一份高频词列表。随后,进行人工检验,将列表中切分错误的词语的正确形式整理成一份新的自定义分词词典;同时,将那些对研究没有意义的噪音词整理成一份新的停用词词典。这种方法结合了自动化提取和人工校准,既高效又保证了准确性。
(2)利用智能发现新词:面对黑话俚语层出不穷的网络文本,可以使用高级文本处理模块中的智能发现新词(find-new-words)。该功能调用自训练的语言模型,可以从上传的文本中识别出主流分词工具难以识别的新词。这项功能尤其擅长捕获口语化、非规范化或高度情境化的新词,极大降低人工筛选的负担,让用户更方便快捷地扩展自定义词典。

(3) 使用搜狗输入法词库转换:利用搜狗输入法丰富的领域词库资源,通过搜狗输入法词库(.scel格式)转TXT功能,将现有的专业词库快速转换为适用于大多数NLP任务的自定义字典格式。搜狗输入法拥有涵盖各行各业的专业词库,包括医学、法律、金融、互联网、游戏等领域,这些词库经过大量用户验证,质量较高。通过格式转换,可以直接获得特定领域的高质量词典,显著提升相关领域文本处理的准确性,是快速构建领域词典的有效途径。

开启送礼物
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)