Perplexity acusada de raspar sitios que bloquearon el scraping de IA

TL;DR

Cloudflare acusa a Perplexity de rastrear y extraer contenido de sitios que bloquean explícitamente el scraping de IA mediante Robots.txt, abarcando decenas de miles de dominios con millones de solicitudes diarias.
La empresa habría ocultado su identidad cambiando su agente de usuario y su ASN, e incluso imitado un navegador genérico para evitar las preferencias del sitio.
Perplexity refuta las acusaciones, diciendo que el artículo es un “pitch de ventas” y que las capturas muestran que no se accedió a contenido; aseguró que el bot citado no es suyo.
Cloudflare retiró los bots de Perplexity de su lista verificada y añadió nuevas técnicas para bloquearlos; la firma también subrayó una postura más amplia contra scrapers de IA.
El suceso se suma a acusaciones anteriores de Wired sobre plagio y al debate general sobre datos para IA.

Contexto y antecedentes

Los productos de IA dependen cada vez más de grandes volúmenes de datos disponibles en la red. Los sitios web utilizan Robots.txt para indicar qué se puede indexar o scrapear. Cloudflare publicó investigaciones que afirman que Perplexity continuó rastreando y extrayendo páginas incluso después de que los propietarios de los sitios impusieran bloqueos explícitos vía Robots.txt y otras directrices. Cloudflare dijo haber notado la actividad tras quejas de clientes de que Perplexity seguía accediendo a páginas a pesar de las reglas. La firma describe su análisis como una combinación de aprendizaje automático y señales de red para identificar a un crawler a gran escala. La actividad, según la información, ocurrió en decenas de miles de dominios y con millones de solicitudes por día. El crawler habría intentado evadir la detección al cambiar señales de identidad y al simular el comportamiento de otros navegadores. Perplexity ya había enfrentado escrutinio por el uso de contenidos públicos; reportes del año pasado indicaron que Perplexity plagió material de medios como Wired, y en Disrupt 2024, el CEO Aravind Srinivas fue cuestionado sobre la definición de plagio.

Qué hay de nuevo

El informe de Cloudflare se centra en la supuesta evasión de bloqueos a nivel de sitio. Según Cloudflare, Perplexity no solo usó su identidad de crawler declarada, sino que también empleó una firma de navegador genérica para parecer Google Chrome en macOS cuando bloqueado. Cloudflare afirmó que este comportamiento se observó en un amplio conjunto de dominios y que implementó defensas nuevas para bloquear de forma más eficaz a Perplexity. En respuesta, Cloudflare deslistó los bots de Perplexity de su lista verificada. La firma señala una postura más amplia contra scrapers IA, incluyendo un marketplace para cobrar a scrapers IA que visiten sitios de editores. El portavoz de Perplexity, Jesse Dwyer, desestimó el artículo como una “campaña de ventas” y dijo a TechCrunch que las capturas no mostraban acceso a contenido; también afirmó que el bot citado no es suyo. Cloudflare, por su parte, dijo haber realizado pruebas para confirmar la evasión de bloqueos y enfatizó que el comportamiento observado coincide con lo descrito en su informe.

Por qué importa (impacto para desarrolladores/empresas)

Protección de contenido y monetización: el episodio subraya las tensiones entre los datos abiertos de la web y los modelos de negocio de editores que dependen de ingresos por publicidad o suscripciones.
Datos de entrenamiento de IA: para desarrolladores, surgen preguntas sobre la procedencia de datos, el consentimiento y la fiabilidad de las fuentes utilizadas para entrenar modelos. Si los sitios bloquean el scraping, podría haber impactos en las cadenas de datos para IA.
Confianza y transparencia: la disputa recalca la necesidad de trazabilidad de datos y mecanismos de resolución de disputas entre editores y servicios de scraping IA.

Detalles técnicos o implementación

La narrativa de Cloudflare se centra en indicadores observables y técnicas de huella digital utilizadas por crawlers. La firma describe varias tácticas atribuidas a Perplexity:

Manipulación del agente usuario: Perplexity habría usado no solo su identidad de crawler declarada, sino también una firma de navegador genérica cuando estaba bloqueada.
Variabilidad de ASN: se reporta que el crawler cambiaba de ASN para parecer provenir de redes diferentes.
Suplantación de navegador: cuando se bloqueaba, se presentaba como un navegador genérico similar a Google Chrome en macOS.
Huella en múltiples dominios: actividad observada en decenas de miles de dominios con millones de solicitudes por día.
Respuesta a bloqueos: Cloudflare afirmó haber actualizado sus defensas y deslistado los bots de Perplexity.

Tabla: Indicadores clave (según Cloudflare)

Indicador	Descripción
Desalineación entre agente declarado y otras firmas	El crawler usaba el agente declarado y, cuando bloqueado, una firma genérica de navegador
Variabilidad de ASN	El crawler cambiaba de ASN para parecer de redes distintas
Suplantación de navegador	Aparecía como un navegador Chrome en macOS cuando estaba bloqueado
Huella en dominios	Actividad en decenas de miles de dominios con millones de solicitudes diarias
Reacción a bloqueos	Se implementaron nuevas técnicas de bloqueo por parte de Cloudflare

Qué hará Cloudflare a continuación

Cloudflare dijo que continuará refinando sus defensas contra crawlers IA y apoyando a editores con herramientas para gestionar scraping, incluyendo un marketplace para monetizar scraping IA y herramientas para prevenir scraping no autorizado.

Conclusiones clave

El debate sobre scraping para IA continúa mientras editores buscan proteger su contenido y monetización.
Cloudflare afirma que Perplexity esquivó bloqueos mediante máscaras de identidad e imitación de navegador, con una huella de tráfico significativa.
Perplexity niega las acusaciones y afirma que no hubo acceso a contenido; describe el informe como especulación.
Las medidas defensivas, deslistado de bots y movimientos hacia la monetización del scraping marcan un cambio de escenario para el scraping IA.
El contexto anterior, incluidas acusaciones de plagio y preguntas sobre la procedencia de datos, resaltan tensiones entre ética, derechos de autor y uso de datos para IA.

Preguntas frecuentes (FAQ)

P: ¿Qué afirma Cloudflare sobre el comportamiento de scraping de Perplexity? R: Cloudflare afirma que Perplexity ignoró bloques de Robots.txt, ocultó su identidad de crawler y dejó una huella de actividad en miles de dominios con millones de solicitudes diarias.
P: ¿Cómo respondió Perplexity? R: El portavoz lo calificó como una campaña de venta y señaló que las capturas no mostraban acceso a contenido; afirmó que el bot citado no es suyo.
P: ¿Qué acciones tomó Cloudflare? R: Cloudflare deslistó los bots de Perplexity de su lista verificada y fortaleció sus defensas; también mencionó un marketplace para monetizar scraping IA.
P: ¿Cuál es el contexto general? R: Se enmarca en tensiones continuas sobre la recopilación de datos para IA, el uso de Robots.txt y acusaciones de plagio previas contra Perplexity.

Referencias

TechCrunch: Perplexity accused of scraping websites that explicitly blocked AI scraping. https://techcrunch.com/2025/08/04/perplexity-accused-of-scraping-websites-that-explicitly-blocked-ai-scraping

Perplexity acusada de raspar sitios que bloquearon el scraping de IA

TL;DR

Contexto y antecedentes

Qué hay de nuevo

Por qué importa (impacto para desarrolladores/empresas)

Detalles técnicos o implementación

Tabla: Indicadores clave (según Cloudflare)

Qué hará Cloudflare a continuación

Conclusiones clave

Preguntas frecuentes (FAQ)

Referencias

More news

Cómo una startup de IA ayuda a los agricultores de arroz a enfrentar el cambio climático

Ex alumnos de Harvard lanzan gafas inteligentes con IA que escuchan y graban toda conversación

Meta añadirá 100 MW de energía solar con equipos estadounidenses para centro de datos IA en Carolina del Sur

Las Cámaras de Señales de Alto de Obvio Usan IA para Detectar Conductores Inseguros

El crecimiento vertiginoso de data centers desafía las metas de sostenibilidad de Microsoft

Gridcare cree que más de 100 GW de capacidad de centros de datos están ocultos en la red