背景

        作为一个互金公司,我司对爬虫的需求还是比较旺盛的,以前更主要的是资讯、搜索类的需求;但随着AI时代的到达,垂直领域小模型的训练的热门,各部分对数据的需求开始大幅度增长,需要依靠爬虫的数据来训练和提升AI应用,需求的增长自然带来的是排期问题和优先级问题,可能会导致很多需求交付的速度变缓,很多测试性数据验证的需求被放弃。

        当前我们的爬虫平台已经针对大多数长尾需求进行了高度抽象化,提供了低代码/无代码的解决方案,从而显著降低了使用门槛。然而,即便如此平台的操作依然对用户的技术能力有一定要求,至少要求用户会网络请求的抓包和分析;xpath、jsonpath、正则等数据提取能力,对无代码能力的同学来说依旧存在高门槛的学历成本,但同样AI 的引入为进一步降低爬虫门槛带来了新的契机,通过智能化技术,完全消除用户在XPath、JSONPath 等方面的学习成本成为可能。

        基于此,我们希望开发一款智能爬虫插件,借助大模型的能力,使用户无需具备任何代码经验配合我们的爬虫平台即可轻松完成数据采集需求。这不仅可以显著提升平台的易用性和覆盖面,也将满足更广泛的非技术用户的需求,释放爬虫平台的潜力。

作业模式图

效果展示

实现方式

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐