在这里插入图片描述

当AI智能体在生产环境中自主调用工具完成任务时,一个隐蔽却致命的矛盾正逐渐凸显。每次工具调用的观察结果都会像落叶般堆积在上下文窗口中,典型任务的50次工具调用、生产环境中数百轮的会话交互,让上下文长度无限制膨胀。然而上下文越长,大语言模型(LLM)越容易出现“上下文腐烂”现象,表现为重复输出、推理速度变慢、结果质量下降,形成“需大量上下文支撑任务却因上下文过长降效”的悖论。正是这一矛盾,催生了上下文工程的兴起与发展。

上下文工程被定义为“用恰到好处的信息填充上下文窗口,满足下一步任务需求”的艺术与科学,其核心目标就是驯服工具调用引发的上下文爆炸。

在行业实践中,这一领域已演化出五大核心方向,共同构成了破解困境的方法论体系。

  1. 上下文卸载将非必要信息移出窗口,存储到文件系统等外部载体,仅保留文件路径这类最简标识,像诸多实践案例中那样,工具输出不再占据宝贵的上下文空间
  2. 上下文缩减则通过摘要或修剪技术减少Token占用,有的项目会摘要搜索结果,部分模型甚至内置了修剪工具调用的功能
  3. 上下文检索按需调取外部信息,分为索引+语义搜索和文件系统+简单搜索两类,分别适配不同场景的效率需求
  4. 上下文隔离让子智能体拥有独立窗口,实现关注点分离,避免不同任务的上下文相互干扰
  5. 上下文缓存则针对高频访问信息建立缓存机制,显著提升调取效率,减少重复计算与检索成本。

这些方向并非孤立存在,在实际项目中常常组合应用,比如某个研究项目就分阶段采用了卸载、缩减与隔离策略,将研究计划独立存储,摘要工具输出,并通过子智能体划分研究阶段的上下文,有效控制了Token消耗。

在具体落地实践中,一些创新思路为上下文工程注入了新的活力。对于初创公司而言,优先选择上下文工程而非过早进行模型专业化成为共识。模型微调或后训练需要固定的行为空间、大量反馈数据,且迭代周期长达1-2周,很容易让企业陷入“尚未找到产品市场契合点(PMF)却在优化无关基准”的陷阱。而上下文工程作为应用与模型间最清晰的边界,能够灵活适配LLM能力的演进,避免重复构建基础模型能力,更符合初创团队的资源现状与发展节奏。

在上下文缩减领域,“压缩”与“摘要”的明确区分带来了更精准的操作指南:

  • 压缩属于可逆操作,剥离的是可从外部重建的信息,比如文件操作仅保留路径而删除内容,不会造成信息丢失,只是将其外部化存储;
  • 摘要则是不可逆的浓缩过程,实施时需遵循两个关键原则,一是触发阈值,只有当上下文接近128k-200k Token的“腐烂前阈值”时才启动,二是保留最近交互,避免模型风格或逻辑断裂,同时用“用户目标”“上次进度”等结构化字段替代自由摘要,确保关键信息不遗漏。

上下文隔离借鉴编程语言设计思想,形成了两种实用模式。通信模式适用于代码片段搜索等简单任务,主智能体传递明确指令,子智能体仅以此为上下文并返回结果,这种方式轻量且Token消耗低,但不适用于依赖历史的任务;共享内存模式则针对深度研究等复杂任务,子智能体可访问完整历史上下文,包括工具调用记录,只需自定义系统提示与行为空间,虽无需重复读取外部文件效率更高,但预填充上下文较多导致Token成本上升。

上下文卸载的分层行动空间设计则巧妙解决了“工具过多导致上下文混淆”的难题。这个三层抽象结构既扩展了智能体功能,又不占用LLM直接上下文,且接口统一通过标准函数调用执行,兼容KV缓存技术。第一层是原子函数调用,仅保留10-20个核心原子工具,如读写文件、执行Shell、搜索等,边界清晰且可组合,通过约束解码确保安全;第二层是沙盒工具,在定制Linux虚拟机中预装格式转换器、MCP CLI等工具,通过Shell命令调用,支持–help查看用法,可直接写入文件处理大输出;第三层是包/API调用,智能体编写Python脚本调用预授权API,适合股票数据统计等大内存计算任务,仅返回摘要结果,还能组合多步操作。

值得注意的是,上下文工程并非越复杂越好,避免过度工程是实践中得出的重要教训。某团队上线后的最大突破反而来自“简化架构、移除冗余技巧、信任LLM能力”,这提醒我们,上下文工程的目标是“让模型工作更简单”,而非增加系统复杂度,“少构建,多理解”的原则应当贯穿始终。

在工具调用与检索的具体操作中,沙盒工具通常存储在/usr/bin目录,系统提示告知工具位置,常用工具仅列名称,模型可通过–help获取详细用法;存储方式上,沙盒会话因启动快选择文件系统+glob/grep,企业长期记忆则需向量索引适配知识库规模。长期记忆管理方面,“知识”系统存储用户确认的关键信息,同时探索“集体反馈学习”,将用户频繁纠正的问题整合为通用规则;数据存储优先选择纯文本等行基于格式,方便grep按行检索,慎用Markdown以免模型过度输出项目符号。

模型选择与评估也与上下文工程密切相关,实践中多按子任务路由不同模型,智能体任务偏好Anthropic,多模态任务选用Gemini,复杂数学推理则依赖OpenAI,开源模型因分布式KV缓存难实现反而成本更高;评估策略结合用户五星反馈、自动化测试与真人评估,分别对应不同类型任务的需求。安全层面,沙盒通过限制出站流量、敏感操作手动确认及与模型提供商合作增强防护;多智能体设计摒弃角色分工,仅保留通用执行器、规划器与知识管理器,子智能体以“智能体即工具”形式存在,通过结构化schema确保通信可靠。

依靠上下文工程无需调整模型权重就能实现能力提升,这一领域正展现出更广阔的前景。从解决“简洁偏置”“上下文崩溃”等传统问题,到构建自我完善的上下文演化系统,上下文工程已然成为AI智能体突破性能瓶颈的关键抓手。在LLM能力持续演进的背景下,把握“用恰到好处的信息填充上下文窗口”的核心,坚守“少构建,多理解”的原则,才能让AI智能体在复杂任务中始终保持高效与精准。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐