Cloudflare a lancé le 10 mars une toute nouvelle API /crawl pour son service de rendu navigateur (actuellement en bêta ouverte). Cette nouvelle fonctionnalité permet aux développeurs de crawler un site entier via une seule requête API, avec une conversion automatique du contenu en HTML, Markdown ou JSON structuré, offrant un outil puissant et conforme pour la construction de jeux de données d’entraînement IA et de pipelines RAG (recherche augmentée par génération).
(Contexte : La panne majeure de Cloudflare ayant causé une interruption massive du réseau mondial, la « décentralisation » est-elle l’avenir des infrastructures ?)
(Complément : Après 24 heures d’indisponibilité, pourquoi le réseau s’effondre-t-il si facilement ? Le risque de centralisation face à l’avenir du Web3 et des RWA)
Sommaire
Toggle
Avec la croissance explosive de l’IA générative et des technologies RAG, la question de l’acquisition efficace et conforme de données web est devenue un défi majeur pour les développeurs. À cet égard, le géant des infrastructures réseau Cloudflare a annoncé officiellement le 10 mars le lancement d’une nouvelle fonctionnalité phare pour son service de rendu navigateur : une toute nouvelle API /crawl.
Actuellement en phase de test public (Open Beta), cette fonctionnalité vise à permettre aux développeurs de « crawler un site entier en une seule requête API ».
Selon l’annonce de Cloudflare, la nouvelle API de crawler fonctionne de manière asynchrone. Les développeurs soumettent une URL de départ, et le système renvoie un identifiant de tâche (Job ID). En arrière-plan, un navigateur sans tête (Headless Browser) découvre et rend automatiquement les pages. Les développeurs peuvent consulter à tout moment l’état d’avancement et les résultats via cet ID.
Pour s’intégrer parfaitement aux flux de travail IA actuels, cette API propose plusieurs formats de sortie. Outre le HTML traditionnel, elle peut produire directement du Markdown, très apprécié par les grands modèles de langage (LLM), ou du JSON structuré alimenté par Workers AI. Cela réduit considérablement le temps consacré au nettoyage et à la conversion des données.
Contrairement à de nombreux crawlers malveillants cherchant à contourner les protections, cette API /crawl de Cloudflare mise sur la conformité et la transparence. La société insiste sur le fait qu’il s’agit d’un agent signé (Signed-agent), qui respecte strictement le fichier robots.txt du site cible (y compris les délais de crawl) et adhère à la norme « AI Crawl Control » de Cloudflare.
De plus, Cloudflare précise que cet outil « s’identifie comme robot » et ne peut pas contourner le système de détection de robots ou les CAPTCHA. Ce design garantit que le comportement du crawler ne viole pas la volonté des propriétaires de sites ni ne surcharge leurs serveurs.
Pour améliorer l’efficacité et réduire les coûts, cette API intègre plusieurs contrôles avancés :
Actuellement, cette puissante fonctionnalité de crawler est accessible gratuitement pour les utilisateurs de Cloudflare Workers, en version gratuite comme payante. Pour les équipes cherchant à surveiller régulièrement des contenus, collecter des données pour la recherche ou construire des bases de connaissances IA d’entreprise, il s’agit sans doute d’une mise à niveau infrastructurelle très attractive.