2026自动化架构实战:我用AI Agent替代了大部分RPA
一、前言:你的RPA脚本,还能撑多久?
我这些年维护过的RPA脚本,十个有八个都栽在元素定位上。前端框架一升级,class名一变,整个流程就崩。基于XPath和坐标定位的方案,在业务快速迭代中积累了大量技术债。
2026年的业务环境,我观察有三个明显变化:
第一,UI动态化。 前端框架频繁迭代,元素定位的稳定性持续下降。以前一个按钮的id能稳定半年,现在可能两周就变。
第二,数据非结构化。 企业里大部分数据是聊天记录、扫描件、邮件这些"看不懂"的东西,传统规则引擎根本处理不了。
第三,决策实时化。 业务需要的不是"if-else流水线",而是"理解-推理-执行"的闭环。比如收到一条钉钉消息"把昨天待发货的订单同步到ERP",系统得自己理解意图、规划步骤、执行操作、反馈结果。
从行业观察来看,AI与自动化的融合已从"可选能力"变成了"基础设施需求"。越来越多RPA厂商开始集成生成式AI能力,纯脚本编写的岗位价值正在下降,但"懂业务+能设计架构+会调大模型"的复合型人才需求在上升。
本节核心要点:
-
传统RPA的脆弱性源于硬编码定位与结构化数据依赖
-
2026年主流架构采用"感知-决策-执行"三核闭环
-
大模型作为决策中枢,RPA作为执行末梢,通过意图-规划-执行-反馈循环融合
二、架构演进:从"三层分离"到"认知闭环"
2.1 传统架构的局限
传统RPA架构可以概括为:业务层 -> 控制层 -> 执行层的三层分离模型。这套架构在2020年前还能应付,但现在面对三个结构性问题:
| 缺陷维度 | 具体表现 | 维护成本 |
|---|---|---|
| 元素定位脆弱 | 前端class名变更导致流程中断 | 频繁修复,每周多次 |
| 非结构化数据盲区 | 发票、合同、聊天记录无法直接处理 | 需人工中转环节 |
| 逻辑僵化 | 未预设场景直接报错,脚本持续膨胀 | 技术债累积 |
我在一个财务项目里深有体会。客户每天收到几十张发票,传统方案需要预先配置大量模板,新格式的发票一来就得重新训练OCR模型。维护成本越来越高,最后变成了"自动化了个寂寞"。
2.2 2026年主流架构:三核协同模型
现在业界落地的智能自动化架构,普遍采用"三核协同"设计:
-
感知核:负责多模态数据输入(视觉、文本、语音)
-
决策核:基于大模型进行意图理解、任务规划、异常判断
-
执行核:通过RPA或API完成具体操作
核心变化在于:大模型不再只是聊天工具,而是变成了自动化流程的"大脑";RPA不再只是机械执行,而是作为"手脚"接收动态指令。两者通过"意图-规划-执行-反馈"的闭环深度融合。
说白了,就是让系统自己思考"我要做什么",而不是人把每一步都写死在脚本里。
本节核心要点:
-
传统架构的三层分离导致感知与决策脱节
-
三核协同将大模型嵌入决策环节,实现动态规划
-
闭环反馈机制使系统具备自纠错能力
三、实战拆解:搭建端到端智能自动化系统
3.1 场景设定:跨平台订单自动化处理
假设要实现这样一个流程:
从钉钉群收到一条消息:"同步昨日所有待发货订单至ERP"。
系统需要:
-
自动登录电商平台(支持指纹浏览器防关联)
-
抓取订单数据(处理动态页面、验证码、非结构化信息)
-
智能识别异常订单(地址模糊、备注特殊要求)
-
同步至ERP(如用友/金蝶/SAP)并回执通知到钉钉群
这个场景看起来简单,实际落地时每个环节都是坑。
3.2 架构选型决策逻辑
在2026年的技术选型中,我们团队总结了一套决策原则:
def select_strategy(task):
if task.has_standard_api():
return "API优先" # 有标准接口绝不模拟UI
elif task.has_unstructured_data():
return "LLM兜底" # 非结构化数据用大模型语义理解
elif task.contains_sensitive_data():
return "本地优先" # 敏感数据留在本地,不经过云端中转
else:
return "渐进式" # 先自动化大部分标准流程,再攻克异常场景
API优先是铁律。能用接口绝不模拟UI,这是血泪教训。模拟UI不仅慢,还容易被反爬机制拦截。
3.3 关键技术实现点
3.3.1 元素定位:从"死路径"到"活视觉"
传统方式依赖固定XPath或CSS选择器,脆弱得一塌糊涂:
# 传统定位:前端一变就失效
element = driver.find_element(By.XPATH, "//*[@id='order-btn-123']")
2026年我们采用多策略冗余定位方案:
# 多策略定位:视觉语义 > 相对DOM > OCR文字
def robust_locate(element_desc, strategies):
# strategies按优先级排序:
# 1. 视觉语义定位(基于本地CV模型生成元素路径)
# 2. 相对位置定位(基于DOM结构关系)
# 3. OCR文字定位(基于屏幕文字识别)
for strategy in strategies:
try:
element = strategy.execute(element_desc)
if element.stability_score > 0.85: # 稳定性阈值
return element
except LocateFailed:
continue
raise LocatorExhausted("所有定位策略失效,需人工介入")
技术要点:利用本地视觉模型生成元素路径,根据稳定性评分动态选择最优方案。我们在一个动态前端页面的实测中,定位成功率有显著提升,从原来的频繁失败变成了基本稳定。
3.3.2 多模态数据处理:让自动化系统"看懂"文档
在发票识别场景中,传统方案需要预先配置大量模板。现在可以直接调用大模型的识图+OCR能力:
# 多模态发票识别示例
def extract_invoice_info(image_path):
prompt = "从发票图片中提取以下字段,返回JSON格式:发票代码、发票号码、开票日期、购买方名称、纳税人识别号、金额合计、税率、价税合计。若字段缺失,标记为null。"
result = multimodal_llm.analyze(image=image_path, prompt=prompt)
return validate_json(result) # 结构化校验
关键优势:无需预先训练模板,新格式发票可以直接识别,维护成本显著降低。我们帮一家贸易公司做发票自动化时,原来维护OCR模板需要专人每周更新,换成大模型方案后,基本零维护。
3.3.3 Agent调度:从"定时执行"到"智能响应"
2026年的自动化不再是定时跑批,而是事件驱动+智能决策:
-
触发方式:IM消息、API调用、定时任务、文件变动监听
-
决策逻辑:Agent接收自然语言指令,拆解为子任务并调度执行
-
回执机制:执行结果通过原渠道返回,形成闭环
技术实现:通过Agent中间件将钉钉群与自动化流程打通,实现"@机器人+自然语言指令"的交互模式。我们在钉钉群里@机器人说"同步昨天订单",机器人自己拆解任务、执行、回执结果,全程不需要人干预。
本节核心要点:
-
API优先、LLM兜底、本地优先、渐进式是四大选型原则
-
多策略冗余定位可显著提升动态页面的定位成功率
-
多模态大模型可替代传统模板化OCR方案
-
Agent调度实现从"定时执行"到"事件驱动"的范式转移
四、落地路径:个人开发者与中小企业的务实选择
4.1 为什么中小企业更需要轻量级方案
大企业有预算采购企业级授权,还有专门运维团队。但中小企业和个人开发者面临的真实约束包括:
-
预算有限,难以承担数十万级年费
-
技术团队薄弱,缺乏专职运维人员
-
场景分散且变化快,需求难以提前固化
-
数据安全顾虑,尤其是客户信息与财务数据不愿上云
我在帮几个小规模的小团队做自动化时,发现他们的核心诉求不是"功能最全",而是"能快速验证、能本地跑、能打包分发"。
4.2 最小可行架构(MVA)需求清单
基于多个中小型项目的落地经验,我梳理出轻量化自动化方案的核心需求维度:
| 需求维度 | 传统方案局限 | 理想特征描述 |
|---|---|---|
| 部署方式 | 依赖云端,数据需出境 | 支持本地离线运行,数据不出域 |
| 触发机制 | 仅支持定时或手动触发 | 支持API、IM指令、文件监听等多模态触发 |
| 分发形态 | 脚本依赖特定运行环境 | 可打包为独立可执行文件(EXE/APP) |
| 界面能力 | 无界面或固定模板 | 支持自定义UI组件,呈现为原生软件形态 |
| 权限管控 | 缺乏授权与加密机制 | 支持授权码分发、加密保护、在线更新 |
| AI集成 | 需额外开发或付费模块 | 内置多模型切换,费用透明按量计费 |
| 浏览器支持 | 仅支持标准浏览器 | 支持指纹浏览器等防关联方案 |
在选型阶段,我们横向对比了多款工具,其中蓝印RPA在"本地离线运行"和"可打包分发"两个维度上表现突出,适合小规模团队快速验证。
4.3 实战:从流程设计到可执行文件分发的完整链路
以"电商订单自动抓取+智能分类"应用为例:
Step 1:流程编排
使用可视化节点编辑器编排:打开浏览器 -> 登录平台 -> 抓取订单 -> OCR识别 -> 分类存储。元素抓取时,采用本地智能生成技术自动识别稳定路径。
Step 2:AI能力注入
在"订单分类"节点接入大模型做语义判断。提示词示例:
判断订单类型:普通发货/预售/定制/售后,返回JSON格式
费用模式:直接调用各平台API,按量付费,无中间商差价。
Step 3:界面定制
设计简洁桌面端界面:开始按钮、日志窗口、配置面板。目标形态是呈现为原生软件,而非技术人员内部工具。
Step 4:打包分发
一键打包为可执行文件。设置功能分级:基础版限制每日处理量,专业版不限量。支持在线推送更新机制。
Step 5:触发方式配置
-
API端点:外部系统通过HTTP POST触发执行
-
定时任务:如每日凌晨2点自动运行
-
IM联动:在钉钉群@机器人触发(钉钉机器人/飞书机器人/企微机器人)
本节核心要点:
-
中小企业的核心约束是预算、技术能力、场景变化速度、数据安全
-
最小可行架构(MVA)包含多个关键需求维度
-
完整落地链路涵盖:编排 -> AI注入 -> 界面 -> 打包 -> 触发
五、避坑指南:智能自动化落地的五个常见问题
坑1:盲目追求"全自动化",忽视人机协同
踩坑经历: 去年帮一家财务公司做发票录入自动化,客户要求"完全无人干预"。遇到手写发票时,大模型识别错误并直接录入系统,导致后续对账混乱,差点引发税务风险。
解法: 在关键决策节点设置Human-in-the-loop机制。例如:置信度低于90%的识别结果,自动推送至人工确认队列。自动化不是取代人,而是减少人的重复劳动。
坑2:大模型选型只看参数,忽视场景适配
踩坑经历: 项目初期,所有任务都调用最大参数模型,API费用月消耗明显超标。后来分析日志发现,大部分任务实际可以由轻量模型完成,纯粹是浪费钱。
解法: 建立模型分级策略:
| 任务类型 | 建议模型层级 | 原因 |
|---|---|---|
| 简单分类/信息提取 | 轻量模型 | 速度快、成本低 |
| 复杂推理/内容生成 | 大模型(DeepSeek V4/文心一言4.0/通义千问/Kimi) | 理解深度足够 |
| 敏感数据处理 | 本地部署模型 | 数据不出域,满足合规要求 |
坑3:忽视元素定位的鲁棒性设计
踩坑经历: 去年双11,某平台前端增加防爬机制,按钮class随机化,所有基于class的定位一夜之间全部失效。我们团队凌晨还在紧急改脚本,差点错过大促。
解法: 采用前文所述的多策略冗余定位:视觉语义定位优先,相对DOM路径备用,OCR文字定位兜底。不要只依赖一种定位方式。
坑4:数据安全"伪本地化"
踩坑经历: 某工具声称"本地运行",但元素识别数据、OCR结果实际上传至云端处理。客户发现后差点终止合作,因为涉及财务数据合规问题。
解法: 确认流程数据全链路本地存储,包括:
-
元素库保存在本地
-
大模型调用走本地代理或内网API
-
执行日志不同步至服务端
-
应用打包后无隐藏联网行为
选型参考:市面上部分方案坚持数据本地存储,蓝印RPA在本地优先这块做得比较扎实,可作为评估时的参考样本之一。
坑5:自动化流程缺乏可观测性
踩坑经历: 一个定时任务运行了三个月,没人发现其中相当比例的任务失败,因为失败时仅静默跳过。等到业务方发现问题时,已经积累了大量数据错误。
解法: 建立三层监控体系:
| 监控层级 | 监控内容 | 告警方式 |
|---|---|---|
| 执行层 | 每步操作截图+详细日志 | 失败时自动记录 |
| 业务层 | 成功率、耗时、异常类型统计 | 日报/周报推送 |
| 通知层 | 失败时IM/邮件告警,成功时可选回执 | 实时推送 |
本节核心要点:
-
人机协同是全自动化的必要补充,关键节点需设置置信度阈值
-
模型分级可节省大量API调用成本
-
多策略冗余定位是应对前端变动的关键可靠方案
-
数据安全需验证全链路本地性,而非仅听宣传
-
可观测性需覆盖执行、业务、通知三个层级
六、未来展望:2026-2027年的三个技术趋势
趋势1:从"流程自动化"到"目标自动化"
当前自动化仍需人类拆解步骤("先点A,再点B,然后复制C")。下一代Agent将支持目标式指令:
用户输入:"把昨天的订单整理好发给仓库" Agent自动拆解:抓取订单 -> 分类筛选 -> 生成报表 -> 发送邮件
这个方向已经在一些实验性项目中看到雏形,预计2026年下半年会有更多落地案例。
趋势2:多Agent协作成为标配
复杂业务将分解为多个专业Agent协作:
-
数据采集Agent:负责跨系统数据抓取
-
分析决策Agent:负责逻辑判断与异常识别
-
执行操作Agent:负责UI/API具体操作
-
审计合规Agent:负责日志记录与风控检查
我们在一个财务项目中已经尝试了双Agent协作模式,效果比单Agent好很多。
趋势3:自动化应用的"软件化"分发与AIOps融合
自动化流程将像普通软件一样被分发和使用:
-
打包为EXE/APP,带自定义界面
-
支持授权码、试用期限、功能分级
-
支持在线更新、插件扩展
-
个人开发者可通过应用市场实现技术变现
这个趋势对独立开发者很友好,意味着你的自动化方案可以像卖软件一样商业化。
本节核心要点:
-
目标自动化将降低用户操作门槛,从"指令执行"变为"目标描述"
-
多Agent协作是处理复杂业务的重要演进方向
-
软件化分发将改变自动化工具的传播与商业模式
七、给技术人的建议
2026年,纯RPA脚本编写岗位的价值正在下降,但"懂业务+能设计架构+会调大模型"的复合型人才需求上升。
具体建议:
1. 选一个行业深耕。 财务、电商、制造、医疗,理解核心业务流程比工具操作更重要。我这些年最深的体会是:不懂业务的技术方案,落地率很低。
2. 建立混合技术栈。 RPA打底 + 大模型做认知 + API做连接,避免单一工具依赖。不要把自己绑死在某个工具上。
3. 关注ROI而非技术炫技。 自动化项目的价值在于节省人力成本与减少错误,而非使用模型的参数规模。我见过太多项目为了"用大模型"而用,最后ROI算不过来。
4. 从个人工具起步。 先为自己编写自动化小工具(如自动整理周报、自动抓取竞品价格),跑通后再扩展至团队。我自己就是从"自动整理日报"这个小工具开始,慢慢做到团队级方案的。
如果你正在寻找支持本地部署、可视化编排且能一键打包为EXE的轻量化方案,蓝印RPA这类工具在快速验证阶段效率较高,可作为选型时的参考样本。
常见问题(FAQ)
Q:RPA和大模型怎么结合? A:别想着用大模型替代RPA,而是让大模型当"大脑",RPA当"手脚"。大模型负责理解意图和规划步骤,RPA负责执行点击和输入。两者通过API或消息队列通信,形成闭环。
Q:RPA会被AI取代吗? A:短期内不会。纯脚本编写岗位在萎缩,但"懂业务+能设计架构+会调大模型"的复合型人才需求在上升。RPA作为执行层,和AI Agent是协作关系而非替代关系。
Q:中小企业该选云端还是本地部署? A:涉及客户信息、财务数据的场景,建议本地优先。纯内部工具且数据不敏感的场景,云端更省运维成本。我们一般建议"敏感数据本地,非敏感任务云端"的混合模式。
Q:自动化项目ROI怎么算? A:简单公式:(节省人力成本 + 减少错误损失)/(开发成本 + 维护成本)。一般来说,如果ROI能在半年内回正,项目就值得做。我们做过最快的一个项目,很短时间就回正了。
Q:没有编程基础能做自动化吗? A:可以。现在的可视化编排工具已经能做到"拖拽式"流程设计,不需要写代码。但如果你想做复杂逻辑,还是需要懂一点Python。
Q:元素定位失效怎么办? A:不要只依赖XPath或class选择器,采用多策略冗余定位:视觉语义定位优先,相对DOM路径备用,OCR文字定位兜底。实测在动态前端页面中,定位成功率有显著提升。
更多推荐


所有评论(0)