Perplexity acusada de raspar sitios que bloquearon el scraping de IA
Sources: https://techcrunch.com/2025/08/04/perplexity-accused-of-scraping-websites-that-explicitly-blocked-ai-scraping, techcrunch.com
TL;DR
- Cloudflare acusa a Perplexity de rastrear y extraer contenido de sitios que bloquean explícitamente el scraping de IA mediante Robots.txt, abarcando decenas de miles de dominios con millones de solicitudes diarias.
- La empresa habría ocultado su identidad cambiando su agente de usuario y su ASN, e incluso imitado un navegador genérico para evitar las preferencias del sitio.
- Perplexity refuta las acusaciones, diciendo que el artículo es un “pitch de ventas” y que las capturas muestran que no se accedió a contenido; aseguró que el bot citado no es suyo.
- Cloudflare retiró los bots de Perplexity de su lista verificada y añadió nuevas técnicas para bloquearlos; la firma también subrayó una postura más amplia contra scrapers de IA.
- El suceso se suma a acusaciones anteriores de Wired sobre plagio y al debate general sobre datos para IA.
Contexto y antecedentes
Los productos de IA dependen cada vez más de grandes volúmenes de datos disponibles en la red. Los sitios web utilizan Robots.txt para indicar qué se puede indexar o scrapear. Cloudflare publicó investigaciones que afirman que Perplexity continuó rastreando y extrayendo páginas incluso después de que los propietarios de los sitios impusieran bloqueos explícitos vía Robots.txt y otras directrices. Cloudflare dijo haber notado la actividad tras quejas de clientes de que Perplexity seguía accediendo a páginas a pesar de las reglas. La firma describe su análisis como una combinación de aprendizaje automático y señales de red para identificar a un crawler a gran escala. La actividad, según la información, ocurrió en decenas de miles de dominios y con millones de solicitudes por día. El crawler habría intentado evadir la detección al cambiar señales de identidad y al simular el comportamiento de otros navegadores. Perplexity ya había enfrentado escrutinio por el uso de contenidos públicos; reportes del año pasado indicaron que Perplexity plagió material de medios como Wired, y en Disrupt 2024, el CEO Aravind Srinivas fue cuestionado sobre la definición de plagio.
Qué hay de nuevo
El informe de Cloudflare se centra en la supuesta evasión de bloqueos a nivel de sitio. Según Cloudflare, Perplexity no solo usó su identidad de crawler declarada, sino que también empleó una firma de navegador genérica para parecer Google Chrome en macOS cuando bloqueado. Cloudflare afirmó que este comportamiento se observó en un amplio conjunto de dominios y que implementó defensas nuevas para bloquear de forma más eficaz a Perplexity. En respuesta, Cloudflare deslistó los bots de Perplexity de su lista verificada. La firma señala una postura más amplia contra scrapers IA, incluyendo un marketplace para cobrar a scrapers IA que visiten sitios de editores. El portavoz de Perplexity, Jesse Dwyer, desestimó el artículo como una “campaña de ventas” y dijo a TechCrunch que las capturas no mostraban acceso a contenido; también afirmó que el bot citado no es suyo. Cloudflare, por su parte, dijo haber realizado pruebas para confirmar la evasión de bloqueos y enfatizó que el comportamiento observado coincide con lo descrito en su informe.
Por qué importa (impacto para desarrolladores/empresas)
- Protección de contenido y monetización: el episodio subraya las tensiones entre los datos abiertos de la web y los modelos de negocio de editores que dependen de ingresos por publicidad o suscripciones.
- Datos de entrenamiento de IA: para desarrolladores, surgen preguntas sobre la procedencia de datos, el consentimiento y la fiabilidad de las fuentes utilizadas para entrenar modelos. Si los sitios bloquean el scraping, podría haber impactos en las cadenas de datos para IA.
- Confianza y transparencia: la disputa recalca la necesidad de trazabilidad de datos y mecanismos de resolución de disputas entre editores y servicios de scraping IA.
Detalles técnicos o implementación
La narrativa de Cloudflare se centra en indicadores observables y técnicas de huella digital utilizadas por crawlers. La firma describe varias tácticas atribuidas a Perplexity:
- Manipulación del agente usuario: Perplexity habría usado no solo su identidad de crawler declarada, sino también una firma de navegador genérica cuando estaba bloqueada.
- Variabilidad de ASN: se reporta que el crawler cambiaba de ASN para parecer provenir de redes diferentes.
- Suplantación de navegador: cuando se bloqueaba, se presentaba como un navegador genérico similar a Google Chrome en macOS.
- Huella en múltiples dominios: actividad observada en decenas de miles de dominios con millones de solicitudes por día.
- Respuesta a bloqueos: Cloudflare afirmó haber actualizado sus defensas y deslistado los bots de Perplexity.
Tabla: Indicadores clave (según Cloudflare)
| Indicador | Descripción |
|---|---|
| Desalineación entre agente declarado y otras firmas | El crawler usaba el agente declarado y, cuando bloqueado, una firma genérica de navegador |
| Variabilidad de ASN | El crawler cambiaba de ASN para parecer de redes distintas |
| Suplantación de navegador | Aparecía como un navegador Chrome en macOS cuando estaba bloqueado |
| Huella en dominios | Actividad en decenas de miles de dominios con millones de solicitudes diarias |
| Reacción a bloqueos | Se implementaron nuevas técnicas de bloqueo por parte de Cloudflare |
Qué hará Cloudflare a continuación
Cloudflare dijo que continuará refinando sus defensas contra crawlers IA y apoyando a editores con herramientas para gestionar scraping, incluyendo un marketplace para monetizar scraping IA y herramientas para prevenir scraping no autorizado.
Conclusiones clave
- El debate sobre scraping para IA continúa mientras editores buscan proteger su contenido y monetización.
- Cloudflare afirma que Perplexity esquivó bloqueos mediante máscaras de identidad e imitación de navegador, con una huella de tráfico significativa.
- Perplexity niega las acusaciones y afirma que no hubo acceso a contenido; describe el informe como especulación.
- Las medidas defensivas, deslistado de bots y movimientos hacia la monetización del scraping marcan un cambio de escenario para el scraping IA.
- El contexto anterior, incluidas acusaciones de plagio y preguntas sobre la procedencia de datos, resaltan tensiones entre ética, derechos de autor y uso de datos para IA.
Preguntas frecuentes (FAQ)
- P: ¿Qué afirma Cloudflare sobre el comportamiento de scraping de Perplexity? R: Cloudflare afirma que Perplexity ignoró bloques de Robots.txt, ocultó su identidad de crawler y dejó una huella de actividad en miles de dominios con millones de solicitudes diarias.
- P: ¿Cómo respondió Perplexity? R: El portavoz lo calificó como una campaña de venta y señaló que las capturas no mostraban acceso a contenido; afirmó que el bot citado no es suyo.
- P: ¿Qué acciones tomó Cloudflare? R: Cloudflare deslistó los bots de Perplexity de su lista verificada y fortaleció sus defensas; también mencionó un marketplace para monetizar scraping IA.
- P: ¿Cuál es el contexto general? R: Se enmarca en tensiones continuas sobre la recopilación de datos para IA, el uso de Robots.txt y acusaciones de plagio previas contra Perplexity.
Referencias
- TechCrunch: Perplexity accused of scraping websites that explicitly blocked AI scraping. https://techcrunch.com/2025/08/04/perplexity-accused-of-scraping-websites-that-explicitly-blocked-ai-scraping
More news
Cómo una startup de IA ayuda a los agricultores de arroz a enfrentar el cambio climático
Mitti Labs usa IA para medir las emisiones de metano de los arrozales inundados y se alía con The Nature Conservancy para ampliar la agricultura regenerativa sin quema en India, mientras rastrea créditos de carbono para apoyar a los agricultores.
Ex alumnos de Harvard lanzan gafas inteligentes con IA que escuchan y graban toda conversación
Halo X, unas gafas inteligentes con IA siempre activas que oyen, graban y transcriben conversaciones y muestran información en tiempo real. Precio de 249 dólares; preorden inicia este miércoles; preocupaciones de privacidad en juego.
Meta añadirá 100 MW de energía solar con equipos estadounidenses para centro de datos IA en Carolina del Sur
Meta firma un acuerdo de 100 millones de dólares para un parque solar de 100 MW en Carolina del Sur, destinado a alimentar un centro de datos de IA planificado, con operaciones previstas para 2027 y la mayoría de equipos fabricados en EE. UU.
Las Cámaras de Señales de Alto de Obvio Usan IA para Detectar Conductores Inseguros
Obvio instala pilones de cámaras solares en señales de alto y usa IA en el dispositivo para detectar conductas peligrosas, devolver advertencias y emitir citaciones, sin convertirse en un sistema de vigilancia masiva. Serie A de US$22 millones para expandirse.
El crecimiento vertiginoso de data centers desafía las metas de sostenibilidad de Microsoft
El informe de sostenibilidad 2024 de Microsoft muestra que la expansión acelerada de data centers eleva las emisiones, con el Escopo 3 dominando, y desafíos continuos para descarbonizar acero, cemento y chips, a pesar de avances en energía solar.
Gridcare cree que más de 100 GW de capacidad de centros de datos están ocultos en la red
Gridcare afirma poder desbloquear más de 100 GW de capacidad para centros de datos identificando capacidad infrautilizada y conectando desarrolladores con utilidades, con IA para mapear la red.