Cloudflare accuse Perplexity de fouiller des sites bloqués explicitement pour le scraping IA
Sources: https://techcrunch.com/2025/08/04/perplexity-accused-of-scraping-websites-that-explicitly-blocked-ai-scraping, techcrunch.com
TL;DR
- Cloudflare publie des recherches affirmant que Perplexity a parcouru et aspiré des sites ayant explicitement bloqué le scraping IA.
- L’entreprise aurait dissimulé son identité en modifiant l’agent utilisateur et l’ASN, et en imitant un navigateur générique lorsque bloquée.
- L’activité aurait concerné des dizaines de milliers de domaines et des millions de requêtes par jour; Cloudflare a radié les bots de Perplexity de sa liste vérifiée et a ajouté de nouvelles techniques de blocage.
- Perplexity a rejeté le post de Cloudflare comme un « pitch de vente », affirmant par email que aucune donnée n’a été accédée et que le bot nommé n’est pas le sien.
- L’incident s’inscrit dans un contexte de contrôle accru des crawlers IA et d’anciens reports et débats sur les droits des publishers et l’utilisation des données.
Contexte et arrière-plan
Le web repose sur des mécanismes comme robots.txt qui indiquent aux moteurs de recherche et aux crawlers ce qui peut être indexé ou aspiré. Les sites utilisent de plus en plus ces contrôles pour protéger leur contenu contre le scraping par l’IA, et les fournisseurs d’infrastructure répondent par des outils et des politiques. Cloudflare s’est positionné comme défenseur des publishers, soulignant les risques que les crawlers IA puissent contourner les signaux de blocage. Récemment, Cloudflare a renforcé sa position contre les crawlers IA en lançant un marketplace permettant aux propriétaires de sites de facturer les raspages et en proposant un outil gratuit pour prévenir le scraping destiné à l’entraînement IA. Perplexity, startup d’agrégation de données, a déjà été au centre de critiques concernant ses pratiques de scraping. Des rapports passés, notamment dans Wired, ont soulevé des questions sur l’utilisation du contenu et le plagiat potentiel, et la direction de Perplexity a été confrontée à des questions sur la définition du plagiat lors d’un événement Disrupt 2024.
Ce qu’il y a de nouveau
Cloudflare détaille dans sa publication des observations sur le comportement de Perplexity lors du crawl du web. Selon Cloudflare, Perplexity non seulement a contourné les signaux de blocage, mais a aussi cherché à dissimuler son activité sur des dizaines de milliers de domaines. Les méthodes citées incluent le changement d’agent utilisateur et la modification de l’ASN pour masquer le crawler. Lorsque bloquée, l’entreprise aurait utilisé un navigateur générique simulant Google Chrome sur macOS. Cette activité est décrite comme généralisée, s’étendant sur des dizaines de milliers de domaines et des millions de requêtes quotidiennes. Cloudflare affirme pouvoir identifier le crawler grâce à une combinaison d’apprentissage automatique et de signaux réseau, et annonce avoir radié les bots de Perplexity de sa liste vérifiée et introduit de nouvelles techniques de blocage. Perplexity a répondu en qualifiant le post de Cloudflare de « pitch de vente ». Dans des emails transmis à TechCrunch, un porte-parole a soutenu que les captures d’écran montraient qu’aucun contenu n’avait été consulté et que le bot nommé n’est pas le sien.
Pourquoi cela compte (impact pour les développeurs/entreprises)
Pour les propriétaires de sites et les éditeurs, l’épisode met en évidence la pression continue exercée par les services IA pour obtenir des données et les défis pour faire respecter les droits de contenu. Le mélange de techniques de scraping, de robots.txt et de contre-mesures illustre des tensions persistantes entre les développeurs d’IA et les créateurs de contenu sur les droits d’usage et la monétisation. Les actions de Cloudflare — radiant les bots et renforçant les blocs — montrent comment les plateformes d’infrastructure évoluent pour aider les éditeurs à protéger leur contenu. Le mouvement plus large vers un marketplace de facturation des raspages, conjugué à des outils pour prévenir le scraping destiné à l’entraînement IA, signale un basculement vers une monétisation et un contrôle accrus des accès aux données.
Détails techniques ou Mise en œuvre
Points techniques clés évoqués par Cloudflare :
- Perplexity aurait utilisé plus que l’agent utilisateur déclaré, en plus de modifier ses signaux réseau (ASN) pour masquer le crawler.
- Lorsqu’elle était bloquée, Perplexity aurait basculé sur un signal de navigateur générique imitant Google Chrome sur macOS.
- L’activité a été observée sur des dizaines de milliers de domaines, avec des millions de requêtes par jour.
- Cloudflare affirme pouvoir identifier le crawler via une combinaison d’apprentissage automatique et de signaux réseau.
- En réponse, Cloudflare a radié les bots Perplexity de sa liste vérifiée et a introduit des techniques de blocage supplémentaires.
- Cloudflare adopte une position publique contre les crawlers IA et explore des modèles économiques autour de l’accès des raspages. Tableau: métriques et techniques observées
| Métrique | Description |
|---|---|
| Domaines affectés | Des dizaines de milliers |
| Requêtes quotidiennes | Des millions par jour |
| Techniques d’évasion | Changement d’agent utilisateur; modification de l’ASN; imitation d’un navigateur générique (Chrome sur macOS) lorsque bloqué |
| Statut de vérification | Bots Perplexity radiés de la liste vérifiée de Cloudflare |
| Actions politiques | Nouvelles techniques de blocage mises en place par Cloudflare |
Points-clés
- Cloudflare accuse Perplexity d’avoir contourné des blocs explicites et de camoufler son crawler.
- Perplexity nie les irrégularités, affirmant qu’aucun contenu n’a été consulté et que le bot nommé n’est pas le sien.
- L’épisode met en lumière les tensions autour des données d’IA et des droits des éditeurs, avec des acteurs d’infrastructure qui bloquent activement le scraping.
- Cloudflare continue d’étendre ses outils et politiques pour aider les éditeurs à protéger leur contenu, y compris un marketplace et des outils anti-scraping gratuits.
- Le dossier rappelle des critiques antérieures des médias et des discussions de l’industrie quant à la définition du plagiat dans les pipelines de données IA.
FAQ
-
- **Q : Que prétend Cloudflare sur le scraping de Perplexity ?**
Cloudflare affirme que Perplexity a ignoré les blocs, masqué son crawler et raspé des milliers de domaines avec des millions de requêtes quotidiennes, utilisant des techniques comme le changement d’agent utilisateur et d’ASN et en imitant un navigateur générique lorsqu’elle est bloquée. - **Q : Comment Perplexity a-t-elle réagi ?** **A :** Perplexity décrit le post de Cloudflare comme un « pitch de vente », affirme qu’aucun contenu n’a été consulté et déclare que le bot nommé n’est pas le sien. - **Q : Quelles actions Cloudflare a-t-elle prises ?** **A :** Cloudflare a radié les bots de Perplexity de sa liste vérifiée et a ajouté des techniques de blocage supplémentaires. - **Q : Quel contexte plus large encadre cette affaire ?** **A :** Cloudflare s’est récemment montrée critique envers les crawlers IA, a lancé un marketplace et propose des outils gratuits pour prévenir le scraping; Perplexity a déjà été évoquée dans des rapports sur le plagiat, avec des questionnements publics lors du Disrupt 2024. - **Q : Pourquoi cela importe-t-il pour les développeurs et les entreprises ?** **A :** Cela met en lumière les enjeux de sourcing de données, des droits d’auteur et la protection du contenu des publishers dans un paysage où les services IA dépendent de vastes jeux de données.
Références
More news
Comment une startup d’IA aide les riziculteurs à lutter contre le changement climatique
Mitti Labs utilise l’IA pour mesurer les émissions de méthane des rizières inondées et s’associe à The Nature Conservancy pour étendre l’agriculture régénérative sans brûlage en Inde, tout en suivant les crédits carbone pour soutenir les agriculteurs.
Des étudiants de Harvard lancent des lunettes intelligentes IA « toujours activées » qui écoutent et enregistrent les conversations
Deux anciens Harvard lancent Halo X, des lunettes intelligentes discrètes avec microphone toujours actif qui enregistrent, transcrivent et affichent des informations en temps réel, suscitant des questions sur la confidentialité et la réglementation.
Meta ajoute 100 MW d’énergie solaire avec du matériel fabriqué aux États‑Unis
Meta signe un accord de 100 millions de dollars pour une ferme solaire de 100 MW en Caroline du Sud afin d’alimenter un futur centre de données IA, avec des opérations prévues en 2027 et une majorité d’équipements fabriqués aux États‑Unis.
Les caméras d'arrêt d’Obvio utilisent l’IA pour repérer les conducteurs dangereux
Obvio, jeune pousse de San Carlos, installe des pylônes de caméras solaires à des stops pour détecter les infractions avec une IA locale, et finance sa technologie grâce aux citations. Levée de 22 M$ en série A et plans d’expansion au-delà du Maryland.
La croissance ultra-rapide des centres de données met à l’épreuve les objectifs de durabilité de Microsoft
Le rapport de durabilité de Microsoft montre que l’expansion rapide des centres de données pour l’IA et le cloud augmente les émissions, les scopes 3 représentant l’essentiel de l’empreinte.
Gridcare affirme que plus de 100 GW de capacité de centres de données est cachée dans le réseau
Gridcare soutient qu’il existe plus de 100 GW de capacité inexploitable du réseau pour les centres de données, via cartographie, IA et mise en relation avec les opérateurs.