【AI Agent】browser_user
·
文章目录
md_content_v4 = “”"# Cursor 中配置与使用
browser-use 完整指南 (V4)
本指南记录了在 Windows 环境下的 Cursor 中,从零开始搭建 browser-use 自动化浏览器智能代理(基于 DeepSeek API)的完整流程及避坑指南。
一、 创建项目文件夹与初始文件
1. 新建本地项目文件夹
在电脑本地(如 D 盘或用户目录)新建一个空文件夹,命名为 browser_use_demo。
2. 在 Cursor 中打开文件夹
打开 Cursor,点击左上角菜单栏 File -> Open Folder,选择刚刚新建的 browser_use_demo 文件夹并打开。
3. 创建核心配置文件
在 Cursor 左侧的文件资源管理器(Explorer)中,点击“新建文件”图标,分别创建以下两个文件(暂留空,后续步骤填入内容):
.env:用于存放 API Key 等敏感环境变量。demo.py:用于编写 Python 自动化控制脚本。
二、 环境准备与依赖安装
打开 Cursor 内置终端(快捷键 Ctrl + ~ 或点击顶部菜单 Terminal -> New Terminal),依次复制并执行以下命令:
```text
File saved successfully to cursor_browser_use_guide-v4.md
```powershell
# 1. 创建并激活虚拟环境(推荐)
python -m venv .venv
.venv\\Scripts\\activate
# 2. 升级 pip 并安装 browser-use 核心库
python -m pip install --upgrade pip
pip install browser-use python-dotenv langchain-openai
# 3. 安装浏览器核心依赖(由 playwright 提供支持)
playwright install
三、 常见问题与解决方案 (Troubleshooting)
1. PowerShell 脚本执行策略限制
- 问题现象:执行
.venv\\Scripts\\activate激活环境时报错:无法加载文件...因为在此系统上禁止运行脚本。 - 原因分析:Windows 系统的安全策略默认阻止未签名的脚本运行。
- 解决方案:在当前终端窗口中执行以下命令临时解锁权限,然后重新执行激活命令:
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope Process
2. API Key 变量名不匹配
- 问题现象:运行代码时提示
api_key must be set错误。 - 原因分析:
.env文件内配置的变量名与demo.py代码中os.getenv()读取的键名未保持绝对一致。 - 解决方案:严格核对两边的文本,确保完全对应。
3. DeepSeek 不支持 json_schema 结构化输出报错
- 问题现象:使用
ChatOpenAI类调用 DeepSeek 官方接口时,browser-use内部默认附带response_format参数,导致 DeepSeek 报response_format type is unavailable错误。 - 解决方案:在代码最后改用
result.final_result()只提取并输出最终的纯文本结论,规避复杂的格式化解析。
四、 最终配置与完整代码
1. 配置 .env 文件
打开根目录下的 .env 文件,填入你的 DeepSeek API 密钥:
DEEPSEEK_API_KEY="你的实际DeepSeek_API_KEY"
2. 编写 demo.py 完整修复版代码
打开根目录下的 demo.py 文件,复制并粘贴以下完整代码:
import asyncio
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from browser_use import Agent
# 加载 .env 环境变量
load_dotenv()
async def main():
# 1. 桥接并初始化 DeepSeek 模型
llm = ChatOpenAI(
model="deepseek-chat",
api_key=os.getenv("DEEPSEEK_API_KEY"),
base_url="[https://api.deepseek.com/v1](https://api.deepseek.com/v1)"
)
# 2. 创建浏览器智能代理
agent = Agent(
task="在百度搜索 'GitHub browser-use',并告诉我第一个搜索结果的标题是什么。",
llm=llm,
)
# 3. 运行任务
result = await agent.run()
# 4. 打印最终文本结果,规避 Windows 终端乱码
print("\\n任务完成!最终结果如下:")
print(result.final_result())
if __name__ == '__main__':
# 修复 Windows 环境下异步策略可能引起的关闭异常
if os.name == 'nt':
asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())
asyncio.run(main())
3. 运行脚本
在已激活虚拟环境 (.venv) 的终端内,输入以下命令即可看到自动化浏览器启动并执行任务:
python demo.py
更多推荐

所有评论(0)