Skip to content
Cloudflare acusa Perplexity de raspar sites que explicitamente bloquearam scraping de IA
Source: techcrunch.com

Cloudflare acusa Perplexity de raspar sites que explicitamente bloquearam scraping de IA

Sources: https://techcrunch.com/2025/08/04/perplexity-accused-of-scraping-websites-that-explicitly-blocked-ai-scraping, techcrunch.com

TL;DR

  • A Cloudflare alega que a Perplexity rastreou e raspou sites que explicitamente bloqueavam scraping de IA através de robots.txt e outras proteções.
  • A Perplexity contesta as acusações, chamando o post da Cloudflare de discurso de venda e afirmando que o bot citado não é deles e que nenhum conteúdo foi acessado.
  • A Cloudflare afirma ter removido os bots de Perplexity de sua lista verificada e adicionado técnicas de bloqueio, além de avançar com iniciativas de marketplace para cobrar scrapers de IA.
  • O episódio ocorre num contexto mais amplo de publishers buscando proteger conteúdo e levanta questões para desenvolvedores e empresas sobre acesso a dados para treinamento de IA.
  • O caso ecoa alegações anteriores de plágio e alimenta o debate sobre governança de dados da web usados para treinar grandes modelos de linguagem e outras IA.

Contexto e antecedentes

A Cloudflare publicou uma pesquisa detalhando o que descreve como atividade persistente de scraping pela Perplexity, incluindo tentativas de contornar preferências de sites que bloqueiam acesso automático. A empresa citou que bloqueios implementados por operadores, como diretivas de robots.txt, nem sempre são suficientes para afastar a Perplexity. Segundo a Cloudflare, a Perplexity foi observada ignorando esses bloqueios e tentando camuflar sua identidade ao acessar sites. O activity aconteceu em milhares de domínios e envolveu milhões de requisições por dia. A Cloudflare afirmou que usou uma combinação de aprendizado de máquina e sinais de rede para identificar o crawler. A Perplexity já enfrentava escrutínio prévio sobre uso de conteúdo e atribuição. Antes deste relatório, a Wired e outros veículos levantaram preocupações sobre possível plágio pela Perplexity, narrativa que a liderança da empresa respondeu em várias entrevistas. A questão está no cruzamento entre acesso a dados, dados de treinamento para IA e o debate sobre quem deve remunerar ou regular o uso de conteúdo na web.

O que houve de novo

No dia da publicação, a Cloudflare descreveu novas observações e testes que reforçaram a alegação de que a Perplexity contornou controles do site. Pesquisadores destacaram técnicas específicas usadas para ocultar a identidade, incluindo a mudança de string de user-agent declarada e, quando bloqueada, o uso de um user-agent de navegador genérico com a pretensão de imitar o Chrome no macOS. A Cloudflare também observou rotação de redes por meio de ASN para evitar bloqueios simples por IP. Segundo a empresa, a atividade foi observada em padrões consistentes que permitiram identificar o crawler pela combinação de sinais de máquina learning e de rede. Em resposta, o porta-voz da Perplexity, Jesse Dwyer, descartou o post como discurso de venda e afirmou por e-mail à TechCrunch que as capturas mostradas não representavam acesso real a conteúdo. Em comunicação subsequente, Dwyer afirmou que o bot citado pela Cloudflare não é o da Perplexity. A Cloudflare, por sua vez, disse ter observado o comportamento mesmo diante de bloqueios via robots.txt e outras medidas, e informou ter removido o bot de Perplexity da lista verificada e instalado novas técnicas de bloqueio. A Cloudflare posiciona esse episódio dentro de um esforço estratégico mais amplo contra rastreadores de IA. No início do ano, a empresa anunciou um marketplace que permite que proprietários de sites cobrem scrapers de IA pelo acesso ao conteúdo. A empresa também reiterou o compromisso com ferramentas para evitar scraping automático, incluindo uma ferramenta gratuita lançada no ano passado para limitar scraping de bots para treino de IA. O posicionamento reflete o debate sobre quem deve arcar com os custos e responsabilidades do scraping de dados para IA.

Por que isso importa (impacto para desenvolvedores/empresas)

Para desenvolvedores e empresas que constroem ou utilizam produtos de IA, este episódio reforça as tensões entre acesso a dados para treino de IA e proteções de publishers. A capacidade de um crawler de contornar bloqueios pode minar o conteúdo dos proprietários que dependem de robots.txt e outras políticas para gerenciar o uso de seus conteúdos. O caso também ressalta a importância de defesas anti scraping mais robustas e de potenciais ferramentas de plataformas para moderar ou cobrar pelo acesso a dados por serviços de IA. Publishers têm sustentado que modelos de IA dependem de conjuntos massivos de dados sem permissão explícita, levando a chamadas por políticas mais claras e mecanismos de compensação. A marketplace da Cloudflare sinaliza uma mudança rumo à monetização e à enforcement como alavancas para lidar com desequilíbrios na economia da web. Para empresas, isso significa pensar em como proteger seus próprios sites, como responder a solicitações de scraping por IA e como equilibrar abertura com proteção de receita.

Detalhes técnicos ou Implementação

O relatório da Cloudflare descreve sinais técnicos usados para identificar o tráfego da Perplexity. Analistas apontaram mudanças no user-agent declarado, incluindo o uso de um perfil de navegador genérico quando o crawler declarado era bloqueado. Além disso, a Perplexity supostamente alterou seu ASN para aparecer como parte de diferentes redes, uma tática para evitar bloqueios apenas por IP. A Cloudflare observou que as observações ocorreram em um conjunto amplo de domínios, com padrões consistentes que permitiram a identificação por meio de fingerprinting utilizando aprendizado de máquina e sinais de rede. O resultado prático é que bots podem usar identificadores aparentemente legítimos enquanto burlam políticas de sites. A Cloudflare afirmou ter removido os bots de Perplexity e implementado novas técnicas de bloqueio.

Fatos-chave e sinais observados

IndicadorDescrição
User agent declaradoPerplexity dizia ser um crawler, mas usava às vezes um user agent de navegador quando bloqueado
Mudanças de ASNO tráfego parecia rotacionar entre diferentes ASNs para evitar bloqueios por IP
Escopo da atividadeObservado em milhares de domínios com milhões de requisições por dia
Método de detecçãoFingerprinting por meio de aprendizado de máquina e sinais de rede
Resposta da CloudflareBot removido da lista verificada e novas técnicas de bloqueio implementadas

Principais conclusões

  • Proprietários de sites precisam de controles eficazes para gerenciar acesso automatizado e limitar danos de scraping não autorizado.
  • Plataformas podem desempenhar um papel ativo na proteção de conteúdo, incluindo ferramentas de bloqueio e esquemas de remuneração para uso de dados por IA.
  • A defesa contra scraping não autorizado é parte de uma conversa maior sobre governança de dados na IA, com implicações para desenvolvedores e empresas que dependem de dados web.
  • Casos públicos de alegações de plágio reforçam a necessidade de políticas claras de atribuição e uso de conteúdo na era de IA.

FAQ

  • O que a Cloudflare alegou sobre o comportamento da Perplexity?

    Cloudflare afirmou que a Perplexity rastreou e raspou sites que tinham bloqueios explícitos e contornou esses controles alterando sua identidade e comportamento em muitos domínios.

  • Como a Perplexity respondeu às alegações?

    Perplexity descreveu o post da Cloudflare como discurso de venda, afirmou que o bot citado não é deles e disse que nenhum conteúdo foi acessado.

  • ue ações a Cloudflare tomou?

    Cloudflare removeu os bots de Perplexity de sua lista verificada e adicionou técnicas de bloqueio, além de promover iniciativas de enforcement, como um marketplace para cobrar scrapers de IA.

  • ual o significado para publishers e desenvolvedores?

    Reforça a tensão entre acesso aberto a dados para IA e direitos de conteúdo dos publishers, influenciando como sites protegem seus conteúdos e como serviços de IA solicitam dados para treinamento.

Referências

More news