loader image

S

LETRA S·FAMÍLIA: INFRAESTRUTURA

Scraping (web scraping)

PUBLICADO 07.05.2026 · ATUALIZADO 01.05.2026 · VERSÃO 1.0

01 · Verbum

Definição

Técnica computacional de extração automatizada de dados de páginas web, frequentemente em larga escala, por meio de scripts ou robôs (bots) que simulam navegação humana e copiam conteúdo estruturado ou não estruturado dos sites visitados. É usado legitimamente em pesquisa acadêmica, jornalismo de dados, monitoramento de preços, agregadores de conteúdo, indexação por motores de busca e treinamento de modelos de inteligência artificial.

Mas também é instrumento central de práticas problemáticas e criminosas: coleta massiva de dados pessoais sem base legal, construção de bases para fraudes, treinamento de sistemas de reconhecimento facial sem consentimento, e violação sistemática de termos de uso de plataformas.

02 · Verbum

Contexto

O web scraping ocupa zona cinzenta jurídica em rápida evolução, com implicações jurídico-penais relevantes em múltiplas frentes.

(i) Tratamento ilícito de dados pessoais: a coleta massiva de dados pessoais publicamente acessíveis na internet — perfis de redes sociais, sites profissionais, fóruns — para finalidades diversas das originais pode violar a LGPD por ausência de base legal adequada, mesmo quando os dados são "públicos".

O caso emblemático é a Clearview AI, empresa americana que extraiu bilhões de imagens faciais de redes sociais para construir base de reconhecimento facial vendida a polícias — práticas declaradas ilegais por autoridades de proteção de dados na União Europeia, Reino Unido, Canadá e Austrália.

(ii) Treinamento de modelos de IA: a maior parte dos modelos de linguagem de grande escala (LLMs) foi treinada com dados extraídos massivamente da web, frequentemente sem autorização dos detentores dos direitos. Isso gerou litígios crescentes — caso New York Times v. OpenAI (direitos autorais), ações de artistas contra Stable Diffusion e Midjourney (uso não autorizado de obras protegidas para treinamento), e debates regulatórios sobre o que constitui "uso justo" no contexto de treinamento de IA.

(iii) Violação de termos de uso vs. crime: a violação de termos de uso de plataformas, isoladamente, não configura crime no Brasil — não há norma penal que tipifique especificamente o descumprimento contratual. Mas pode configurar invasão de dispositivo informático (art. 154-A do CP) quando há circumvenção de mecanismos técnicos de proteção (CAPTCHAs, rate limiting, autenticação).

O caso americano hiQ Labs v. LinkedIn estabeleceu que a violação de termos de uso de site público não configura, por si só, "acesso não autorizado" para fins do Computer Fraud and Abuse Act, embora a discussão permaneça aberta em outras jurisdições.

(iv) Scraping para fraudes: a extração de dados públicos de fontes diversas (LinkedIn, Facebook, Receita Federal, juntas comerciais, listas vazadas) é usada para construção de bases para spear phishing, engenharia social, fraudes financeiras, golpes do falso parente e crimes correlatos.

(v) Pesquisa acadêmica e jornalismo de dados: o scraping é instrumento essencial de pesquisa empírica sobre fenômenos digitais — desde estudos sobre desinformação e discurso de ódio até auditoria de algoritmos de plataformas. Há esforço crescente para reconhecer exceção legítima de pesquisa científica, com balizamento ético e metodológico próprio.

03 · Verbum

Legislação

LGPD — arts. 7º, 9º, 11 (bases legais para tratamento). Art. 154-A do Código Penal (invasão de dispositivo, quando há violação de mecanismo de segurança). Lei 9.610/1998 (direitos autorais). Marco Civil da Internet (art. 7º — proteção de dados). PL 2.338/2023. AI Act da União Europeia — Regulamento 2024/1689.

  • LGPD

    Lei Geral de Proteção de Dados Pessoais.

    LEI 13.709/2018 · VIGÊNCIA INTEGRAL DESDE 18.09.2020
  • Código Penal

    Código Penal Brasileiro.

    DECRETO-LEI 2.848/1940 · CÓDIGO VIGENTE
  • Lei 9.610/1998

    Lei de Direitos Autorais — disciplina os direitos autorais e conexos no Brasil (Ementa oficial: "Altera, atualiza e consolida a legislação sobre direitos autorais e dá outras providências").

    LEI 9.610/1998 · PUBLICAÇÃO EM 19.02.1998 · LEI DE DIREITOS AUTORAIS (LDA)
  • Marco Civil da Internet

    Estabelece princípios, garantias, direitos e deveres para o uso da Internet no Brasil.

    LEI 12.965/2014 · VIGÊNCIA DESDE 23.06.2014
  • PL 2.338/2023 (Marco Legal da IA)

    Marco Legal da Inteligência Artificial (em tramitação).

    PROJETO DE LEI · MARCO LEGAL DA IA
  • AI Act

    Regulamento de Inteligência Artificial da União Europeia.

    REGULAMENTO UE 2024/1689 · VIGÊNCIA PROGRESSIVA DESDE 2024

Como citar este verbete

Referência ABNT

ABNT NBR 6023

BIERRENBACH, Juliana. Scraping (web scraping). Arquivo Conceitual. TechCrime.Project. Bier.Tech, 7 maio 2026. Disponível em: https://firebrick-eel-641877.hostingersite.com/arquivo-conceitual/s/scraping/. Acesso em: [data de acesso].

Receber a Letter

Novos verbetes chegam antes aos assinantes da TechCrime.Letter

Toda semana, leitura crítica do que importa em direito penal e tecnologia, com os verbetes em construção comentados pela autora.

Conhecer a Letter