在人工智能(AI)领域,大型语言模型(LLMs)如ChatGPT的出现引发了巨大的关注和期待。这些模型展示了AI在理解和生成人类语言方面的惊人能力,展现了AI在日常生活和工作中潜在的巨大价值。然而,随着这些模型的广泛应用,一个关键问题逐渐浮出水面:准确性。尽管LLMs在生成流畅、连贯的文本方面表现出色,但它们在提供准确、可靠的信息方面,尤其是在复杂或专业领域,仍然存在显著的局限性。这种局限性不仅是技术上的挑战,更是AI在实际应用中迈向实用性的重要障碍。

一、大模型是基础性投入

大语言模型是现代AI应用的基础,但它们的开发需要巨大的资源投入。训练一个LLM需要海量的计算资源和数据集,这使得从零开始构建这样的模型对大多数组织来说是不可行的。训练像ChatGPT这样的模型需要数千个GPU和数月的时间,成本高达数百万美元。因此,绝大多数AI应用都是基于现有的预训练模型构建的。这些模型提供了强大的通用语言理解能力,但由于它们是基于广泛的、通用的数据集训练的,往往缺乏特定领域的深度和专业知识。

这种基于大模型的开发模式一方面使得小团队甚至个人也能创建复杂的AI应用;另一方面,也意味着这些应用的性能高度依赖于底层模型的能力。由于大模型的训练数据通常是固定的,它们无法实时访问最新的事件或专业知识,这在需要高准确性的场景中成为了显著的限制。例如,一个基于LLM的问答系统可能无法回答关于最新市场动态的问题,因为其训练数据可能在几个月前就已经截止。

二、应用开发的便捷性

随着AI技术的快速发展,构建AI应用变得越来越简单。目前,市场上出现了大量的开发工具和平台,从低代码平台到专门的自然语言处理库,都大大降低了AI应用开发的门槛。例如,Hugging Face 提供了丰富的开源模型和工具,开发者可以轻松地基于这些模型构建应用。此外,“提示词工程”(prompt engineering)作为一种新的技能,允许开发者通过精心设计的输入引导LLMs生成期望的输出,而无需传统的编程。这使得许多AI应用的开发变得更加灵活和高效。

同时,许多开源工具和免费资源也涌现出来,使得构建基于大模型的问答应用变得异常容易。LangChain 和 LlamaIndex 等框架简化了与LLMs的交互过程。然而,这种便捷性也带来了一个问题:许多当前的智能问答软件更多地充当技术展示的“demo”,而非实际生产环境中的可用工具。这些工具在简单场景下可能表现良好,但在复杂的实际应用中,往往无法提供足够的准确性。一个基于开源工具构建的问答系统可能能够回答简单的通用问题,但在处理企业内部的复杂数据查询时,可能会因为缺乏领域知识而失败。

三、准确性问题的困境

当前基于大模型的智能问答系统在准确性方面面临着重大的挑战。它们常常无法准确理解用户的问题,尤其是在涉及专业知识或行业术语时。即使能够理解问题,系统也可能无法检索到正确的数据,或者在生成答案时引入错误的信息。这种不准确不仅降低了AI应用的价值,还可能导致用户在验证答案的真实性上浪费大量时间和精力。

一个基于LLM的问答系统可能在回答问题时生成看似合理的答案,但如果系统没有访问最新的数据或缺乏对公司特定数据标准的理解,其答案可能与事实不符。这种情况在实际工作中是不可接受的,因为不准确的回答不仅无助于解决问题,还可能误导决策。研究表明,LLMs在处理超出其训练数据范围的问题时,容易产生“幻觉”(hallucinations),即生成看似合理但实际上错误的信息。这种现象在需要高准确性的生产环境中尤为致命。

四、提高问数准确性的挑战

要让智能问答系统在实际应用中达到足够的准确性,需要解决以下几个关键挑战:

1. 让大模型更准确地理解用户的问题

LLMs在处理通用语言时表现出色,但面对专业领域的查询时,往往难以准确捕捉用户的意图。为了解决这个问题,可以通过Retrieval-Augmented Generation(RAG)技术来增强模型的能力。RAG允许模型在生成答案前从外部知识库中检索相关信息,从而补充模型自身的知识。具体而言,可以通过构建行业知识库或专业知识图谱来提高检索的准确性和召回率。

RAG的工作原理是将信息检索与文本生成相结合。模型首先根据用户查询从外部知识库中检索相关文档或数据,然后利用这些信息生成答案。这种方法显著提高了回答的准确性,尤其是在需要最新或领域特定信息的情况下。RAG可以帮助模型避免生成过时或错误的信息,从而提高回答的可靠性。

知识图谱是一种结构化的数据表示方式,通过节点(实体)和边(关系)来捕捉实体之间的联系。在AI中,知识图谱可以帮助模型更好地理解上下文和实体之间的关系,从而提高对用户查询的准确理解。知识图谱可以为RAG系统提供更精确的检索能力,从而增强问答系统的性能。

2. 让大模型能够更准确地找到准确的数据

LLMs需要理解企业的数据标准,并能够访问经过治理的数据模型。企业数据通常是结构化的,包含特定的格式和唯一标识符。为了确保模型能够正确使用这些数据,需要通过数据治理来定义数据的唯一性和标准化。例如,通过建立数据治理框架,可以确保模型在检索数据时能够识别出最新的、经过验证的数据源。

数据治理涉及确保数据的质量、合规性和一致性。数据治理可以帮助企业管理AI系统所需的大量数据,确保其准确性和可靠性。此外,在RAG系统中,知识库的构建至关重要。通过将企业的数据模型(如数据库结构)纳入RAG库,模型可以更容易地找到与查询相关的准确数据。这种方法不仅提高了数据的可靠性,还减少了模型生成错误答案的可能性。

以下是一个示例,展示如何通过数据治理确保数据准确性:

数据治理实践

描述

对AI准确性的影响

数据质量管理

确保数据完整、一致、无重复

提高模型输入数据的可靠性

数据合规性

遵循GDPR、CCPA等法规

确保数据使用的合法性

数据溯源

记录数据来源和使用路径

提高答案的可追溯性和可信度

3. 让大模型能够找到数据关联的条件

在复杂的查询中,数据之间的关系至关重要。例如,在回答涉及多个实体或多个时间点的查询时,模型需要理解这些实体或时间点之间的逻辑关系。为了实现这一点,可以通过以下方式来增强模型的能力:

数据仓库建设:通过构建数据仓库,将企业的数据整合成一个统一的视图,使得模型能够更容易地访问和理解数据之间的关系。例如,一个零售企业的仓库可以整合销售数据、库存数据和客户数据,帮助模型回答关于销售趋势的复杂问题。

固定问答范围:通过定义明确的问答范围,限制模型的输出空间,减少生成无关或错误答案的可能性。例如,在医疗领域,可以限制模型仅回答与特定疾病相关的查询。

开发针对性的API:为特定领域创建专用的API,提供预处理过的数据和关系,使得模型在回答特定类型的问题时更准确。例如,一个金融API可以提供实时的股票价格和公司财务数据。

智能化表间关系分析与链路生成:相对于上述实现方式,根据大模型推理出所需数据后,动态的给出数据表间关联关系,形成可用的数据链路,是对大模型在“智能用数”的重要能力补充。但是这个功能比较重,实现这一功能需要一个单独的应用平台进行支持。优点是解放了其它几种方式需要大量前置工作且应用领域受限的限制。

五、当前状态与未来方向

目前,尽管存在诸多工具和技术,在AriLink技术出现之前,未出现一个能够在不进行大量基础性工作的情况下实现智能问答准确性的解决方案。现有的开源工具、Text2SQL或NL2SQL等技术更多地充当技术展示的“demo”,而非实际工作中的可用工具。当前的RAG系统虽然在简单场景下表现良好,但在处理复杂的企业数据时仍需进一步优化。

要让AI应用真正迈向生产环境,需要在以下几个方面进行持续的投入:

专业知识与行业知识的补充:通过RAG和知识图谱等技术,将专业领域的知识纳入模型的检索范围。

企业数据标准与数据准备:通过数据治理和数据仓库建设,确保模型能够访问高质量、标准化的数据。

数据关系的明确定义:通过结构化的数据模型和专用API,帮助模型更好地理解和利用数据之间的关系。

未来,随着RAG、知识图谱和数据治理技术的进一步发展,我们可以期待看到更准确、更可靠的AI应用。这些技术的结合将为AI在实际场景中的应用提供坚实的基础。

结论

准确性是AI应用的基础。没有准确性,即使是最先进的技术也只能停留在实验室或展示阶段,而无法真正服务于实际工作。本文探讨了当前AI技术在准确性方面的挑战,并提出了通过RAG、知识图谱、数据治理等方法来提升准确性的可能途径。尽管当前的工具和技术仍有局限性,但通过持续的投入和创新,我们可以逐步实现AI在生产环境中的可靠应用。未来的AI应用需要在技术、数据和治理方面协同努力,以确保其能够为用户提供真正有价值的答案。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐