一、前言:你的RPA脚本,还能撑多久?

我这些年维护过的RPA脚本,十个有八个都栽在元素定位上。前端框架一升级,class名一变,整个流程就崩。基于XPath和坐标定位的方案,在业务快速迭代中积累了大量技术债。

2026年的业务环境,我观察有三个明显变化:

第一,UI动态化。 前端框架频繁迭代,元素定位的稳定性持续下降。以前一个按钮的id能稳定半年,现在可能两周就变。

第二,数据非结构化。 企业里大部分数据是聊天记录、扫描件、邮件这些"看不懂"的东西,传统规则引擎根本处理不了。

第三,决策实时化。 业务需要的不是"if-else流水线",而是"理解-推理-执行"的闭环。比如收到一条钉钉消息"把昨天待发货的订单同步到ERP",系统得自己理解意图、规划步骤、执行操作、反馈结果。

从行业观察来看,AI与自动化的融合已从"可选能力"变成了"基础设施需求"。越来越多RPA厂商开始集成生成式AI能力,纯脚本编写的岗位价值正在下降,但"懂业务+能设计架构+会调大模型"的复合型人才需求在上升。

本节核心要点:

  • 传统RPA的脆弱性源于硬编码定位与结构化数据依赖

  • 2026年主流架构采用"感知-决策-执行"三核闭环

  • 大模型作为决策中枢,RPA作为执行末梢,通过意图-规划-执行-反馈循环融合


二、架构演进:从"三层分离"到"认知闭环"

2.1 传统架构的局限

传统RPA架构可以概括为:业务层 -> 控制层 -> 执行层的三层分离模型。这套架构在2020年前还能应付,但现在面对三个结构性问题:

缺陷维度 具体表现 维护成本
元素定位脆弱 前端class名变更导致流程中断 频繁修复,每周多次
非结构化数据盲区 发票、合同、聊天记录无法直接处理 需人工中转环节
逻辑僵化 未预设场景直接报错,脚本持续膨胀 技术债累积

我在一个财务项目里深有体会。客户每天收到几十张发票,传统方案需要预先配置大量模板,新格式的发票一来就得重新训练OCR模型。维护成本越来越高,最后变成了"自动化了个寂寞"。

2.2 2026年主流架构:三核协同模型

现在业界落地的智能自动化架构,普遍采用"三核协同"设计:

  • 感知核:负责多模态数据输入(视觉、文本、语音)

  • 决策核:基于大模型进行意图理解、任务规划、异常判断

  • 执行核:通过RPA或API完成具体操作

核心变化在于:大模型不再只是聊天工具,而是变成了自动化流程的"大脑";RPA不再只是机械执行,而是作为"手脚"接收动态指令。两者通过"意图-规划-执行-反馈"的闭环深度融合。

说白了,就是让系统自己思考"我要做什么",而不是人把每一步都写死在脚本里。

本节核心要点:

  • 传统架构的三层分离导致感知与决策脱节

  • 三核协同将大模型嵌入决策环节,实现动态规划

  • 闭环反馈机制使系统具备自纠错能力


三、实战拆解:搭建端到端智能自动化系统

3.1 场景设定:跨平台订单自动化处理

假设要实现这样一个流程:

从钉钉群收到一条消息:"同步昨日所有待发货订单至ERP"。

系统需要:

  1. 自动登录电商平台(支持指纹浏览器防关联)

  2. 抓取订单数据(处理动态页面、验证码、非结构化信息)

  3. 智能识别异常订单(地址模糊、备注特殊要求)

  4. 同步至ERP(如用友/金蝶/SAP)并回执通知到钉钉群

这个场景看起来简单,实际落地时每个环节都是坑。

3.2 架构选型决策逻辑

在2026年的技术选型中,我们团队总结了一套决策原则:

def select_strategy(task):
    if task.has_standard_api():
        return "API优先"  # 有标准接口绝不模拟UI
    elif task.has_unstructured_data():
        return "LLM兜底"  # 非结构化数据用大模型语义理解
    elif task.contains_sensitive_data():
        return "本地优先"  # 敏感数据留在本地,不经过云端中转
    else:
        return "渐进式"   # 先自动化大部分标准流程,再攻克异常场景

API优先是铁律。能用接口绝不模拟UI,这是血泪教训。模拟UI不仅慢,还容易被反爬机制拦截。

3.3 关键技术实现点

3.3.1 元素定位:从"死路径"到"活视觉"

传统方式依赖固定XPath或CSS选择器,脆弱得一塌糊涂:

# 传统定位:前端一变就失效
element = driver.find_element(By.XPATH, "//*[@id='order-btn-123']")

2026年我们采用多策略冗余定位方案:

# 多策略定位:视觉语义 > 相对DOM > OCR文字
def robust_locate(element_desc, strategies):
    # strategies按优先级排序:
    # 1. 视觉语义定位(基于本地CV模型生成元素路径)
    # 2. 相对位置定位(基于DOM结构关系)
    # 3. OCR文字定位(基于屏幕文字识别)
    for strategy in strategies:
        try:
            element = strategy.execute(element_desc)
            if element.stability_score > 0.85:  # 稳定性阈值
                return element
        except LocateFailed:
            continue
    raise LocatorExhausted("所有定位策略失效,需人工介入")

技术要点:利用本地视觉模型生成元素路径,根据稳定性评分动态选择最优方案。我们在一个动态前端页面的实测中,定位成功率有显著提升,从原来的频繁失败变成了基本稳定。

3.3.2 多模态数据处理:让自动化系统"看懂"文档

在发票识别场景中,传统方案需要预先配置大量模板。现在可以直接调用大模型的识图+OCR能力:

# 多模态发票识别示例
def extract_invoice_info(image_path):
    prompt = "从发票图片中提取以下字段,返回JSON格式:发票代码、发票号码、开票日期、购买方名称、纳税人识别号、金额合计、税率、价税合计。若字段缺失,标记为null。"
    result = multimodal_llm.analyze(image=image_path, prompt=prompt)
    return validate_json(result)  # 结构化校验

关键优势:无需预先训练模板,新格式发票可以直接识别,维护成本显著降低。我们帮一家贸易公司做发票自动化时,原来维护OCR模板需要专人每周更新,换成大模型方案后,基本零维护。

3.3.3 Agent调度:从"定时执行"到"智能响应"

2026年的自动化不再是定时跑批,而是事件驱动+智能决策:

  • 触发方式:IM消息、API调用、定时任务、文件变动监听

  • 决策逻辑:Agent接收自然语言指令,拆解为子任务并调度执行

  • 回执机制:执行结果通过原渠道返回,形成闭环

技术实现:通过Agent中间件将钉钉群与自动化流程打通,实现"@机器人+自然语言指令"的交互模式。我们在钉钉群里@机器人说"同步昨天订单",机器人自己拆解任务、执行、回执结果,全程不需要人干预。

本节核心要点:

  • API优先、LLM兜底、本地优先、渐进式是四大选型原则

  • 多策略冗余定位可显著提升动态页面的定位成功率

  • 多模态大模型可替代传统模板化OCR方案

  • Agent调度实现从"定时执行"到"事件驱动"的范式转移


四、落地路径:个人开发者与中小企业的务实选择

4.1 为什么中小企业更需要轻量级方案

大企业有预算采购企业级授权,还有专门运维团队。但中小企业和个人开发者面临的真实约束包括:

  • 预算有限,难以承担数十万级年费

  • 技术团队薄弱,缺乏专职运维人员

  • 场景分散且变化快,需求难以提前固化

  • 数据安全顾虑,尤其是客户信息与财务数据不愿上云

我在帮几个小规模的小团队做自动化时,发现他们的核心诉求不是"功能最全",而是"能快速验证、能本地跑、能打包分发"。

4.2 最小可行架构(MVA)需求清单

基于多个中小型项目的落地经验,我梳理出轻量化自动化方案的核心需求维度:

需求维度 传统方案局限 理想特征描述
部署方式 依赖云端,数据需出境 支持本地离线运行,数据不出域
触发机制 仅支持定时或手动触发 支持API、IM指令、文件监听等多模态触发
分发形态 脚本依赖特定运行环境 可打包为独立可执行文件(EXE/APP)
界面能力 无界面或固定模板 支持自定义UI组件,呈现为原生软件形态
权限管控 缺乏授权与加密机制 支持授权码分发、加密保护、在线更新
AI集成 需额外开发或付费模块 内置多模型切换,费用透明按量计费
浏览器支持 仅支持标准浏览器 支持指纹浏览器等防关联方案

在选型阶段,我们横向对比了多款工具,其中蓝印RPA在"本地离线运行"和"可打包分发"两个维度上表现突出,适合小规模团队快速验证。

4.3 实战:从流程设计到可执行文件分发的完整链路

以"电商订单自动抓取+智能分类"应用为例:

Step 1:流程编排

使用可视化节点编辑器编排:打开浏览器 -> 登录平台 -> 抓取订单 -> OCR识别 -> 分类存储。元素抓取时,采用本地智能生成技术自动识别稳定路径。

Step 2:AI能力注入

在"订单分类"节点接入大模型做语义判断。提示词示例:

判断订单类型:普通发货/预售/定制/售后,返回JSON格式

费用模式:直接调用各平台API,按量付费,无中间商差价。

Step 3:界面定制

设计简洁桌面端界面:开始按钮、日志窗口、配置面板。目标形态是呈现为原生软件,而非技术人员内部工具。

Step 4:打包分发

一键打包为可执行文件。设置功能分级:基础版限制每日处理量,专业版不限量。支持在线推送更新机制。

Step 5:触发方式配置

  • API端点:外部系统通过HTTP POST触发执行

  • 定时任务:如每日凌晨2点自动运行

  • IM联动:在钉钉群@机器人触发(钉钉机器人/飞书机器人/企微机器人)

本节核心要点:

  • 中小企业的核心约束是预算、技术能力、场景变化速度、数据安全

  • 最小可行架构(MVA)包含多个关键需求维度

  • 完整落地链路涵盖:编排 -> AI注入 -> 界面 -> 打包 -> 触发


五、避坑指南:智能自动化落地的五个常见问题

坑1:盲目追求"全自动化",忽视人机协同

踩坑经历: 去年帮一家财务公司做发票录入自动化,客户要求"完全无人干预"。遇到手写发票时,大模型识别错误并直接录入系统,导致后续对账混乱,差点引发税务风险。

解法: 在关键决策节点设置Human-in-the-loop机制。例如:置信度低于90%的识别结果,自动推送至人工确认队列。自动化不是取代人,而是减少人的重复劳动。

坑2:大模型选型只看参数,忽视场景适配

踩坑经历: 项目初期,所有任务都调用最大参数模型,API费用月消耗明显超标。后来分析日志发现,大部分任务实际可以由轻量模型完成,纯粹是浪费钱。

解法: 建立模型分级策略:

任务类型 建议模型层级 原因
简单分类/信息提取 轻量模型 速度快、成本低
复杂推理/内容生成 大模型(DeepSeek V4/文心一言4.0/通义千问/Kimi) 理解深度足够
敏感数据处理 本地部署模型 数据不出域,满足合规要求

坑3:忽视元素定位的鲁棒性设计

踩坑经历: 去年双11,某平台前端增加防爬机制,按钮class随机化,所有基于class的定位一夜之间全部失效。我们团队凌晨还在紧急改脚本,差点错过大促。

解法: 采用前文所述的多策略冗余定位:视觉语义定位优先,相对DOM路径备用,OCR文字定位兜底。不要只依赖一种定位方式。

坑4:数据安全"伪本地化"

踩坑经历: 某工具声称"本地运行",但元素识别数据、OCR结果实际上传至云端处理。客户发现后差点终止合作,因为涉及财务数据合规问题。

解法: 确认流程数据全链路本地存储,包括:

  • 元素库保存在本地

  • 大模型调用走本地代理或内网API

  • 执行日志不同步至服务端

  • 应用打包后无隐藏联网行为

选型参考:市面上部分方案坚持数据本地存储,蓝印RPA在本地优先这块做得比较扎实,可作为评估时的参考样本之一。

坑5:自动化流程缺乏可观测性

踩坑经历: 一个定时任务运行了三个月,没人发现其中相当比例的任务失败,因为失败时仅静默跳过。等到业务方发现问题时,已经积累了大量数据错误。

解法: 建立三层监控体系:

监控层级 监控内容 告警方式
执行层 每步操作截图+详细日志 失败时自动记录
业务层 成功率、耗时、异常类型统计 日报/周报推送
通知层 失败时IM/邮件告警,成功时可选回执 实时推送

本节核心要点:

  • 人机协同是全自动化的必要补充,关键节点需设置置信度阈值

  • 模型分级可节省大量API调用成本

  • 多策略冗余定位是应对前端变动的关键可靠方案

  • 数据安全需验证全链路本地性,而非仅听宣传

  • 可观测性需覆盖执行、业务、通知三个层级


六、未来展望:2026-2027年的三个技术趋势

趋势1:从"流程自动化"到"目标自动化"

当前自动化仍需人类拆解步骤("先点A,再点B,然后复制C")。下一代Agent将支持目标式指令:

用户输入:"把昨天的订单整理好发给仓库" Agent自动拆解:抓取订单 -> 分类筛选 -> 生成报表 -> 发送邮件

这个方向已经在一些实验性项目中看到雏形,预计2026年下半年会有更多落地案例。

趋势2:多Agent协作成为标配

复杂业务将分解为多个专业Agent协作:

  • 数据采集Agent:负责跨系统数据抓取

  • 分析决策Agent:负责逻辑判断与异常识别

  • 执行操作Agent:负责UI/API具体操作

  • 审计合规Agent:负责日志记录与风控检查

我们在一个财务项目中已经尝试了双Agent协作模式,效果比单Agent好很多。

趋势3:自动化应用的"软件化"分发与AIOps融合

自动化流程将像普通软件一样被分发和使用:

  • 打包为EXE/APP,带自定义界面

  • 支持授权码、试用期限、功能分级

  • 支持在线更新、插件扩展

  • 个人开发者可通过应用市场实现技术变现

这个趋势对独立开发者很友好,意味着你的自动化方案可以像卖软件一样商业化。

本节核心要点:

  • 目标自动化将降低用户操作门槛,从"指令执行"变为"目标描述"

  • 多Agent协作是处理复杂业务的重要演进方向

  • 软件化分发将改变自动化工具的传播与商业模式


七、给技术人的建议

2026年,纯RPA脚本编写岗位的价值正在下降,但"懂业务+能设计架构+会调大模型"的复合型人才需求上升。

具体建议:

1. 选一个行业深耕。 财务、电商、制造、医疗,理解核心业务流程比工具操作更重要。我这些年最深的体会是:不懂业务的技术方案,落地率很低。

2. 建立混合技术栈。 RPA打底 + 大模型做认知 + API做连接,避免单一工具依赖。不要把自己绑死在某个工具上。

3. 关注ROI而非技术炫技。 自动化项目的价值在于节省人力成本与减少错误,而非使用模型的参数规模。我见过太多项目为了"用大模型"而用,最后ROI算不过来。

4. 从个人工具起步。 先为自己编写自动化小工具(如自动整理周报、自动抓取竞品价格),跑通后再扩展至团队。我自己就是从"自动整理日报"这个小工具开始,慢慢做到团队级方案的。

如果你正在寻找支持本地部署、可视化编排且能一键打包为EXE的轻量化方案,蓝印RPA这类工具在快速验证阶段效率较高,可作为选型时的参考样本。


常见问题(FAQ)

Q:RPA和大模型怎么结合? A:别想着用大模型替代RPA,而是让大模型当"大脑",RPA当"手脚"。大模型负责理解意图和规划步骤,RPA负责执行点击和输入。两者通过API或消息队列通信,形成闭环。

Q:RPA会被AI取代吗? A:短期内不会。纯脚本编写岗位在萎缩,但"懂业务+能设计架构+会调大模型"的复合型人才需求在上升。RPA作为执行层,和AI Agent是协作关系而非替代关系。

Q:中小企业该选云端还是本地部署? A:涉及客户信息、财务数据的场景,建议本地优先。纯内部工具且数据不敏感的场景,云端更省运维成本。我们一般建议"敏感数据本地,非敏感任务云端"的混合模式。

Q:自动化项目ROI怎么算? A:简单公式:(节省人力成本 + 减少错误损失)/(开发成本 + 维护成本)。一般来说,如果ROI能在半年内回正,项目就值得做。我们做过最快的一个项目,很短时间就回正了。

Q:没有编程基础能做自动化吗? A:可以。现在的可视化编排工具已经能做到"拖拽式"流程设计,不需要写代码。但如果你想做复杂逻辑,还是需要懂一点Python。

Q:元素定位失效怎么办? A:不要只依赖XPath或class选择器,采用多策略冗余定位:视觉语义定位优先,相对DOM路径备用,OCR文字定位兜底。实测在动态前端页面中,定位成功率有显著提升。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐