帮你挡爬虫的 Cloudflare 推出「一键全站爬虫 API」,完美支持 RAG、增量更新与模型训练

動區BlockTempo

Cloudflare 于 3 月 10 日为其 Browser Rendering 服务推出全新的 /crawl 端点(目前为 Open Beta 阶段)。这项新功能允许开发者通过单一 API 调用来爬取整个网站,并能将内容自动转换为 HTML、Markdown 或结构化 JSON 格式,为构建 AI 训练数据集与 RAG(检索增强生成)管道提供了强大且合规的利器。
(前情提要:Cloudflare 重大故障致全球网络大规模瘫痪,“去中心化架构”才是基础设施建设的未来?)
(背景补充:Cloudflare 当机后 24 小时:网络为何“一下就瘫”?中心化风险到 Web3 与 RWA 未来)

本文目录

Toggle

  • 异步作业,支持 Markdown 与结构化 JSON
  • 主打“乖宝宝”爬虫,严守合规与防护机制
  • 增量爬取省成本,免费方案即可体验

随着生成式 AI 与 RAG(检索增强生成)技术的爆发式增长,如何高效且合规地获取网站资料,成为了开发者面临的首要挑战。对此,网络基础设施巨头 Cloudflare 于 3 月 10 日正式宣布,为其 Browser Rendering(浏览器渲染)服务推出一项杀手级新功能:全新的 /crawl API 端点。

这项目前处于公开测试(Open Beta)阶段的功能,主打让开发者“只需一次 API 调用,就能爬取整个网站”。

异步作业,支持 Markdown 与结构化 JSON

根据 Cloudflare 的公告,新的爬虫 API 采用异步(Asynchronous)运行模式。开发者只需提交一个起始网址,系统便会返回一个任务 ID(Job ID),并在后台通过无头浏览器(Headless Browser)自动发现与渲染网页。开发者可随时通过该 ID 查询爬取进度与结果。

为了完美对接目前的 AI 开发工作流程,该 API 提供多种输出格式。除了传统的 HTML 之外,还能直接输出深受 LLM(大型语言模型)喜爱的 Markdown 格式,以及由 Workers AI 驱动的结构化 JSON 格式。这将大幅减少开发者在资料清洗与格式转换上所耗费的时间。

主打“乖宝宝”爬虫,严守合规与防护机制

与市面上许多试图绕过防护的恶意爬虫不同,Cloudflare 这次推出的 /crawl 端点主打“合规与透明”。官方强调,该端点是一个已签署的代理程序(Signed-agent),预设会严格遵守目标网站的 robots.txt 指令(包含爬取延迟限制),并且尊重 Cloudflare 自家的“AI 爬取控制(AI Crawl Control)”规范。

此外,Cloudflare 也明确表示,这款工具“会自我表明为机器人”,并且无法绕过 Cloudflare 的机器人检测系统或 Captcha 验证码。这项设计确保了爬虫行为不会对网站拥有者的意愿与服务器造成侵犯。

增量爬取省成本,免费方案即可体验

为了提升效率与降低成本,该 API 还内建了多项进阶控制功能:

  • **增量爬取(Incremental crawling):**支持 modifiedSince 与 maxAge 参数,可自动跳过未更改或近期已抓取的页面,节省重复爬取的运算成本。
  • **细致的范围控制:**开发者可自定义爬取深度、页面数量上限,并使用通配符(Wildcard)来包含或排除特定的 URL 路径。
  • **静态模式(Static mode):**针对不需要渲染 JavaScript 的纯静态网站,可设置 render: false 以跳过无头浏览器的启动过程,实现极速抓取。

目前,这项强大的爬虫功能已全面开放给 Cloudflare Workers 的“免费版”与“付费版”用户使用。这对于需要定期监控网站内容、搜集研究资料,或是打造企业级 AI 知识库的开发团队而言,无疑是一项极具吸引力的基础设施升级。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论