moectf 2024 弗拉格之地的入口
集这个网站之前,首先获取到这个robots.txt文本文件,然后解析到其中的规则,然后根据规则来采。定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由正则表达式表示。那么我们知道爬虫爬网站时要先看看网站什么允许你爬,什么不允许你爬,这就是。在网站根目录下放一个robots.txt文本文件(如。这里看到了一个Disallow,直接访问。那么直接访问/robots.txt。
·
算是一次朝花夕拾吧
题目提示了使用爬虫

那么我们知道爬虫爬网站时要先看看网站什么允许你爬,什么不允许你爬,这就是robots协议:
在网站根目录下放一个robots.txt文本文件(如 https://www.taobao.com/robots.txt),里面可以指
定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由正则表达式表示。网络爬虫在采
集这个网站之前,首先获取到这个robots.txt文本文件,然后解析到其中的规则,然后根据规则来采
集网站的数据。
那么直接访问/robots.txt

这里看到了一个Disallow,直接访问

拿到flag
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)