[实战评测]爱情来了!当Claude SubAgent遇上了[GLM 网页读取 MCP]
本文介绍了MCP网页读取功能的强大应用场景和技术细节。该功能可通过API将网页内容转化为大模型友好格式,支持markdown/text输出、图片保留等参数配置。文章展示了多个实践案例:自动抓取GitHub热门项目、当当图书详情、豆瓣影评等多层级内容,并能绕过微信反爬机制。特别强调了默认缓存机制可能导致的实时性问题,建议通过nocache参数解决。该功能与AI代理结合后,可实现智能竞品分析、文档摘要
网页读取MCP安装
参考官方文档 https://docs.bigmodel.cn/cn/coding-plan/mcp/reader-mcp-server
注意替换里面的
your_api_key为您上一步获取到的 API Key
claude mcp add -s user -t http web-reader https://open.bigmodel.cn/api/mcp/web_reader/mcp --header "Authorization: Bearer your_api_key"
写在前面
网页读取功能确实非常实用。对程序员而言,它能有效解决重复的复制粘贴操作——只需提供一个文档链接,GLM 就能在线抓取网页内容并转化为本地文档手册;输入任意网页,大模型还能结合前端源码智能推断出潜在的页面结构与框架。不仅如此,这一功能在程序员之外的场景也大有可为,例如自动化采集 GitHub Trending 热门项目、每日百度热点新闻等有趣榜单数据,极大提升了信息获取与处理的效率。
详解MCP WEB_READER
解析能力及参数

让GLM帮我们解析下web_reader的能力
{
"jsonrpc": "2.0",
"id": 1764070134649,
"result": {
"tools": [
{
"name": "webReader",
"description": "Fetch and Convert URL to Large Model Friendly Input.",
"inputSchema": {
"type": "object",
"properties": {
"url": {
"type": "string",
"description": "The website url you want reader"
},
"timeout": {
"type": "integer",
"format": "int32",
"description": "Request timeout(unit is second), default is 20"
},
"no_cache": {
"type": "boolean",
"description": "Disable cache(true/false), default is false"
},
"return_format": {
"type": "string",
"description": "Reader response content type (markdown or text), default is markdown"
},
"retain_images": {
"type": "boolean",
"description": "Retain images (true/false), default is true"
},
"no_gfm": {
"type": "boolean",
"description": "Disable GitHub Flavored Markdown (true/false), default is false"
},
"keep_img_data_url": {
"type": "boolean",
"description": "Keep image data URL (true/false), default is false"
},
"with_images_summary": {
"type": "boolean",
"description": "Include images summary (true/false), default is false"
},
"with_links_summary": {
"type": "boolean",
"description": "Include links summary (true/false), default is false"
}
},
"required": [
"url"
],
"additionalProperties": false
}
}
]
}
}
参数
|
参数名 |
类型 |
是否必需 |
默认值 |
描述 |
|---|---|---|---|---|
|
url |
string |
是 |
- |
要读取的网站URL |
|
timeout |
integer (int32) |
否 |
20 |
请求超时时间(秒) |
|
no_cache |
boolean |
否 |
false |
是否禁用缓存 注意这里默认是由缓存的,所以结果可能不对 |
|
return_format |
string |
否 |
markdown |
返回内容格式(markdown 或 text) |
|
retain_images |
boolean |
否 |
true |
是否保留图片 |
|
no_gfm |
boolean |
否 |
false |
是否禁用GitHub风格Markdown |
|
keep_img_data_url |
boolean |
否 |
false |
是否保留图片数据URL |
|
with_images_summary |
boolean |
否 |
false |
是否包含图片摘要 |
|
with_links_summary |
boolean |
否 |
false |
是否包含链接摘要 |
SubAgent爱情来了
针对各种各样的场景,我们可以把常见的爬虫任务封装成Agent,下面是一些我做的有意思的SubAgent
简单尝试--提取github trending 摘要
默认有cache
提取得挺好的,但是内容看起来不对,怀疑是cache了


无cache
这次提取的内容对了,内容是实时性的

基本功能验证完了,我们结合claude的agent功能,把web read功能串成基础功能
Github Daily Trending

测试下效果
@agent-github-trending-translator

下面是生成的内容
# GitHub 每日趋势报告 - 2025年11月25日
## 今日热门项目概览
基于 GitHub 趋势页面的数据,以下是今天最受开发者关注的项目排行:
---
### 🔥 今日之星
#### 1. **TrendRadar** 📊
- **仓库**: `sansan0/TrendRadar`
- **语言**: Python
- **⭐ 今日增长**: +1,407
- **⭐ 总星数**: 28,027
- **🍴 Fork 数**: 15,257
- **描述**: 🎯 告别信息过载,AI助你看懂新闻资讯热点,简单的舆情监控分析。多平台热点聚合+基于MCP的AI分析工具。监控35个平台(抖音、知乎、B站、华尔街见闻、财联社等),智能筛选+自动推送+AI对话分析,支持多种推送渠道,30秒网页部署。
#### 2. **open-source-games** 🎮
- **仓库**: `bobeff/open-source-games`
- **语言**: 未知
- **⭐ 今日增长**: +277
- **⭐ 总星数**: 8,338
- **🍴 Fork 数**: 637
- **描述**: 开源游戏列表
#### 3. **n8n-workflows** ⚙️
- **仓库**: `Zie619/n8n-workflows`
- **语言**: Python
- **⭐ 今日增长**: +279
- **⭐ 总星数**: 44,167
- **🍴 Fork 数**: 4,696
- **描述**: 所有能找到的n8n工作流合集
---
### 🚀 AI & 机器学习
#### 4. **Memori** 🧠
- **仓库**: `GibsonAI/Memori`
- **语言**: Python
- **⭐ 今日增长**: +376
- **⭐ 总星数**: 6,827
- **🍴 Fork 数**: 495
- **描述**: 面向大语言模型、AI代理和多代理系统的开源记忆引擎
#### 5. **LightRAG** 💡
- **仓库**: `HKUDS/LightRAG`
- **语言**: Python
- **⭐ 今日增长**: +113
- **⭐ 总星数**: 24,355
- **🍴 Fork 数**: 3,549
- **描述**: [EMNLP2025] "LightRAG: 简单快速的检索增强生成"
#### 6. **verl** 🎯
- **仓库**: `volcengine/verl`
- **语言**: Python
- **⭐ 今日增长**: +82
- **⭐ 总星数**: 16,565
- **🍴 Fork 数**: 2,643
- **描述**: verl: 火山引擎大语言模型强化学习框架
#### 7. **call-center-ai** 📞
- **仓库**: `microsoft/call-center-ai`
- **语言**: Python
- **⭐ 今日增长**: +162
- **⭐ 总星数**: 4,637
- **🍴 Fork 数**: 552
- **描述**: 通过API调用发送AI代理电话,或直接从配置的电话号码呼叫机器人!
#### 8. **adk-go** 🛠️
- **仓库**: `google/adk-go`
- **语言**: Go
- **⭐ 今日增长**: +159
- **⭐ 总星数**: 4,902
- **🍴 Fork 数**: 320
- **描述**: 开源的代码优先Go工具包,用于构建、评估和部署具有灵活性和控制力的复杂AI代理
---
### 📚 教育资源
#### 9. **ChinaTextbook** 📖
- **仓库**: `TapXWorld/ChinaTextbook`
- **语言**: Roff
- **⭐ 今日增长**: +343
- **⭐ 总星数**: 59,094
- **🍴 Fork 数**: 13,187
- **描述**: 所有小初高、大学PDF教材
#### 10. **tech-interview-handbook** 💼
- **仓库**: `yangshun/tech-interview-handbook`
- **语言**: TypeScript
- **⭐ 今日增长**: +156
- **⭐ 总星数**: 134,719
- **🍴 Fork 数**: 16,212
- **描述**: 为忙碌的软件工程师精选的编程面试准备材料
---
### 🔧 开发工具
#### 11. **cursor-free-vip** 💻
- **仓库**: `yeongpin/cursor-free-vip`
- **语言**: Python
- **⭐ 今日增长**: +176
- **⭐ 总星数**: 43,630
- **🍴 Fork 数**: 5,228
- **描述**: [支持0.49.x] 重置Cursor AI机器ID并绕过更高Token限制,免费升级使用Pro功能
#### 12. **nvm** 📦
- **仓库**: `nvm-sh/nvm`
- **语言**: Shell
- **⭐ 今日增长**: +50
- **⭐ 总星数**: 89,752
- **🍴 Fork 数**: 9,600
- **描述**: Node版本管理器 - 符合POSIX标准的bash脚本,用于管理多个活动node.js版本
#### 13. **traefik** 🌐
- **仓库**: `traefik/traefik`
- **语言**: Go
- **⭐ 今日增长**: +93
- **⭐ 总星数**: 59,270
- **🍴 Fork 数**: 5,650
- **描述**: 云原生应用代理
---
### 🎮 娱乐与媒体
#### 14. **WSABuilds** 📱
- **仓库**: `MustardChef/WSABuilds`
- **语言**: Python
- **⭐ 今日增长**: +60
- **⭐ 总星数**: 13,969
- **🍴 Fork 数**: 2,045
- **描述**: 在Windows 10和Windows 11 PC上运行适用于Android的Windows子系统,使用预构建二进制文件,内置Google Play商店和/或Magisk或KernelSU(root解决方案)
#### 15. **iptv** 📺
- **仓库**: `iptv-org/iptv`
- **语言**: TypeScript
- **⭐ 今日增长**: +181
- **⭐ 总星数**: 103,051
- **🍴 Fork 数**: 4,573
- **描述**: 来自世界各地的公开可用IPTV频道集合
#### 16. **playcanvas/engine** 🎨
- **仓库**: `playcanvas/engine`
- **语言**: JavaScript
- **⭐ 今日增长**: +114
- **⭐ 总星数**: 13,045
- **🍴 Fork 数**: 1,624
- **描述**: 基于WebGL、WebGPU、WebXR和glTF构建的强大Web图形运行时
---
### 🔍 数据库与分析
#### 17. **milvus** 🔍
- **仓库**: `milvus-io/milvus`
- **语言**: Go
- **⭐ 今日增长**: +162
- **⭐ 总星数**: 40,304
- **🍴 Fork 数**: 3,619
- **描述**: Milvus是一个高性能、云原生的向量数据库,专为可扩展的向量ANN搜索而构建
---
### 🛠️ 性能分析
#### 18. **tracy** 📊
- **仓库**: `wolfpld/tracy`
- **语言**: C++
- **⭐ 今日增长**: +74
- **⭐ 总星数**: 14,158
- **🍴 Fork 数**: 937
- **描述**: 帧分析器
---
## 📈 今日趋势分析
### 热门编程语言分布:
- **Python**: 占主导地位,AI/ML项目普遍采用
- **Go**: 在基础设施工具中表现强劲
- **TypeScript/JavaScript**: Web开发项目持续活跃
- **Shell**: 系统工具和脚本
- **C++**: 性能关键应用
### 主要趋势特点:
1. **AI热潮持续**: 多个AI相关项目上榜,包括记忆引擎、RAG系统、强化学习等
2. **工具化趋势**: 开发者工具和自动化工具备受关注
3. **教育资源**: 教材和学习资源需求旺盛
4. **跨平台支持**: 多平台应用和工具受到欢迎
### 特别关注项目:
- **TrendRadar**: 今日增长最快,反映了信息聚合和AI分析的需求
- **ChinaTextbook**: 教育资源类项目持续获得关注
- **Memori**: AI记忆引擎展示了AI领域的新发展方向
---
*报告生成时间: 2025年11月25日*
*数据来源: GitHub Trending 页面*
*统计范围: 今日热门项目*
当当图书热卖榜
这一题会多一个要求,不仅仅是提取一个页面,而是需要进入详细页面,提取目录、图书简介相关信息

GLM还是表现良好,在提取到一个页面后,调用多个web-reader去读取各个详情页面信息,以下整理后的内容

豆瓣影评--提取惊悚电影


豆瓣影评--多层级提取
GLM表现很好,理解了意图,web-reader体验页不错,可以并发提取内容


踩坑经验
cache问题
Web Reader MCP默认启用了cache,有可能获取不到实时内容,注意在prompt中指定 no cache,例如 web reader nocache url
支持语义解析
依托于大模型的能力,可以一句自然语言的问答,解析多个深层次页面,相当于提取多个页面信息
实践案例
竞品产品分析

让我们来测试下,这个agent对eufy的产品分析情况

遇到一个错误
![]()
最终效果不错,几条自然语言就完成了一个竞品网站产品的信息提取,基于这个信息我们可以做更多的自动化操作,想像空间很广

网页架构分析



微信文章-总结概要提取
这是个惊喜,GLM MCP Web Read 可以绕过微信的防止爬虫机制

结果还是不错的,减少阅读时间,直接提取核心内容

模仿文章写法,指定主题重新撰写
还是前面这篇《真相来了|为什么马斯克的五步工作法,能治好90%的组织内耗》,我们用咒语让他直接输出我们想要的主题
web reader no cache https://mp.weixin.qq.com/s/VdmVdZi0q8MAWC4-ExtaGA
分析这个文章的写法,提取核心内容,以"
敏捷开发方法论
- Scrum框架:短周期迭代、快速反馈
- 看板方法:可视化工作流、限制在制品
- 最小可行产品(MVP):快速验证假设
"为主题,重新写一篇文章
首先看下文章的分析效果
文章写法分析
这篇马斯克五步工作法的文章采用了以下写作技巧:
1. 问题导向式开篇:从组织内耗的痛点切入,引发共鸣
2. 名人效应加持:用马斯克的成功案例增强说服力
3. 结构化分层:五个步骤层层递进,逻辑清晰
4. 场景化描述:用具体工作场景让读者产生代入感
5. 对比论证:传统做法vs马斯克做法,突出差异
6. 金句总结:每个步骤都有记忆点的核心观点
7. 互动结尾:让读者参与思考和选择
来看下生成的效果,还是十分满意的,这个是LLM的强项,学习模仿风格
真相来了|为什么硅谷公司都在用敏捷开发,而你的团队还在"假敏捷"
在绝大多数组织里,项目延期不是因为团队不努力,而是因为方法论、流程与协作越来越复杂。
敏捷开发之所以颠覆传统,是因为它直击软件开发和团队协作的根本问题:需求模糊、沟通障碍、反馈迟缓、交付缓慢、应对变化能力差。
---
很多管理者都遇到过这种困局:
计划越来越详细,文档越来越厚,评审会议越来越多——但产品却越来越难满足用户需求。
你以为团队不够专业,但真相常常是:
你用的是"工业时代的项目管理方式",却面对"互联网时代的快速变化"。
而为什么Google、Netflix、Spotify这些科技公司能够持续推出优秀产品,快速响应市场变化?
除了他们的技术实力,更重要的是——他们把大多数组织的低效,都从方法论层面解决了。
当然,他们靠的不是"加班文化",而是一套可以让任何组织提速的敏捷开发方法论。
今天,我们把它拆开。你会看到,为什么你的组织"忙而无功",而敏捷团队不断试错却可以"越错越快"。
---
2. 敏捷开发方法论
- Scrum框架:短周期迭代、快速反馈
组织里最深层的低效,来自"漫长的反馈周期"
敏捷开发把所有项目分为两类:快速迭代的项目,和注定失败的项目。
而对团队的第一条原则就是:"所有工作,都必须在短周期内完成并获取反馈——特别是那些来自高层的重要项目。"
为什么?因为组织最大的成本不是开发,而是——不清楚用户真正需要什么。
你应该很熟悉这些场景:
- 一个需求讨论来讨论去,却没人能快速验证用户是否真的需要;
- 产品经理一句"市场需要",就开启了半年长的开发周期;
- 用户反馈来得太晚,产品做了一半才发现方向完全错误;
- 测试阶段才发现功能与用户预期完全不符;
- 项目交付时,市场环境已经发生了巨变。
于是,团队不是在创造价值,而是在猜用户想要什么。
敏捷的做法非常简单、非常激进:每一个功能,都必须能在1-4周内完成开发、测试、发布并收集真实用户反馈。
在敏捷团队看来:"如果一个功能需要三个月才能验证,那么这个功能从一开始就是错的。"
这条原则为什么重要?因为:
- 漫长的开发周期会带来巨大的机会成本;
- 缺乏早期反馈会让团队在错误方向上越走越远;
- 不敢快速试错的团队,最终会被市场淘汰;
- 完美的计划永远赶不上市场的变化。
敏捷要求团队必须把大项目拆分成小的用户故事,快速验证:
1)这个功能解决了用户的什么具体问题?
2)我们能否用最小成本验证其价值?
3)用户愿意为这个功能付费或使用吗?
4)不做这个功能会有什么损失?
5)它与产品战略目标有什么关系?
如果答不上来?——暂停。
如果无法快速验证?——重新设计。
如果验证结果不理想?——果断放弃。
敏捷的逻辑是:快速迭代不是在降低质量,而是在保护组织的学习能力和市场响应速度。
- 看板方法:可视化工作流、限制在制品
"多任务并行"不是生产力,专注才是
敏捷团队常问:"如果同时处理多个任务,会发生什么?"
如果发现效率降低、质量下降?——那说明多任务并行本身就是个问题。
如果发现团队压力增大、交付延迟?——那说明在制品数量太多了。
敏捷开发有个核心原则:限制在制品(WIP)数量,让每个人都专注于完成当前任务。
这听起来反直觉,但极其有效。因为组织在日常工作中,总会不断堆积:
- 正在开发的功能
- 等待测试的bug
- 待评审的需求
- 未完成的文档
- 计划中的改进
他们都是**"看起来很重要,但本质上消耗团队能量"**。
而敏捷的管理逻辑是:先限制噪音,再谈效率。
大多数组织做不到这一点,所以看起来很忙,但实际产出很少。
看板方法的核心实践:
1)可视化所有工作:让每个人都能看到工作流状态
2)限制在制品:避免团队过度分散注意力
3)管理流动:优化工作在各阶段的流转时间
4)明确策略:让工作规则透明化
5. 持续改进:定期回顾和优化流程
- 最小可行产品(MVP):快速验证假设
优化不是"做得完美",而是"学得更快"
敏捷教练常说一句让产品经理反思的话:"别在没有验证的需求上浪费开发资源。"
什么意思?如果用户根本不需要这个功能,你开发得再完美,最终还是浪费。
很多企业为什么产品越完善用户越少?因为他们在做的是:
- 优化没人用的功能
- 提升不重要的用户体验
- 把复杂的产品做得更复杂
- 把自认为的需求做得更华丽
这就像在给一艘漏水的船装上更先进的导航系统——方向从一开始就是错的。
敏捷的逻辑是:
1)先验证核心假设
2)再构建最小可行产品
3)最后才根据用户反馈完善
这让团队从"功能驱动"进入"价值驱动",从"技术导向"进入"用户导向"。
MVP的核心原则:
- 最小化:只包含验证假设所必需的功能
- 可行性:能够真实解决用户问题
- 产品化:可以作为完整产品交付给用户使用
- 可学习:能够产生有价值的学习和反馈
---
总结一下:
把三个核心方法串起来看:
1)Scrum框架 → 让组织开始快速响应
2)看板方法 → 让组织开始专注高效
3)MVP思维 → 让组织开始价值导向
你会发现:这不是"开发工具",这是一套组织反僵化的能力系统。
敏捷开发方法论,治的不是技术,是组织的"慢性病"。
---
互动:
你觉得你的组织现在最应该采用的,是敏捷开发的哪个方法?
1)Scrum框架:建立短周期迭代机制
2)看板方法:可视化工作流,限制多任务
3)MVP思维:快速验证假设,避免过度开发
从RFC标准到服务级别代码
不用懂任何的RFC标准,让GLM帮我们理解RFC内容基础上,生成对应符合RFC要求的客户端/服务端实现


Android 安全公告提取



整理GitLab HTTP API文档
这个适合所有有在线的文档,可以利用LLM的能力,把文档整理得更简洁一些,方便利用大模型的上下文进行迭代开
这个是用来整理GitLab HTTP API文档,方便后续重构一套以GO语言为主题的开发架构
前面基于盲搜索

这里利用web reader mcp 直接获取网页数据内容

整理出来是这样子效果

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)