
PUBLICADO 07.05.2026 · ATUALIZADO 01.05.2026 · VERSÃO 1.0
Técnica computacional de extração automatizada de dados de páginas web, frequentemente em larga escala, por meio de scripts ou robôs (bots) que simulam navegação humana e copiam conteúdo estruturado ou não estruturado dos sites visitados. É usado legitimamente em pesquisa acadêmica, jornalismo de dados, monitoramento de preços, agregadores de conteúdo, indexação por motores de busca e treinamento de modelos de inteligência artificial. Mas também é instrumento central de práticas problemáticas e criminosas: coleta massiva de dados pessoais sem base legal, construção de bases para fraudes, treinamento de sistemas de reconhecimento facial sem consentimento, e violação sistemática de termos de uso de plataformas.Definição
O web scraping ocupa zona cinzenta jurídica em rápida evolução, com implicações jurídico-penais relevantes em múltiplas frentes.
(i) Tratamento ilícito de dados pessoais: a coleta massiva de dados pessoais publicamente acessíveis na internet — perfis de redes sociais, sites profissionais, fóruns — para finalidades diversas das originais pode violar a LGPD por ausência de base legal adequada, mesmo quando os dados são "públicos".
O caso emblemático é a Clearview AI, empresa americana que extraiu bilhões de imagens faciais de redes sociais para construir base de reconhecimento facial vendida a polícias — práticas declaradas ilegais por autoridades de proteção de dados na União Europeia, Reino Unido, Canadá e Austrália.
(ii) Treinamento de modelos de IA: a maior parte dos modelos de linguagem de grande escala (LLMs) foi treinada com dados extraídos massivamente da web, frequentemente sem autorização dos detentores dos direitos. Isso gerou litígios crescentes — caso New York Times v. OpenAI (direitos autorais), ações de artistas contra Stable Diffusion e Midjourney (uso não autorizado de obras protegidas para treinamento), e debates regulatórios sobre o que constitui "uso justo" no contexto de treinamento de IA.
(iii) Violação de termos de uso vs. crime: a violação de termos de uso de plataformas, isoladamente, não configura crime no Brasil — não há norma penal que tipifique especificamente o descumprimento contratual. Mas pode configurar invasão de dispositivo informático (art. 154-A do CP) quando há circumvenção de mecanismos técnicos de proteção (CAPTCHAs, rate limiting, autenticação).
O caso americano hiQ Labs v. LinkedIn estabeleceu que a violação de termos de uso de site público não configura, por si só, "acesso não autorizado" para fins do Computer Fraud and Abuse Act, embora a discussão permaneça aberta em outras jurisdições.
(iv) Scraping para fraudes: a extração de dados públicos de fontes diversas (LinkedIn, Facebook, Receita Federal, juntas comerciais, listas vazadas) é usada para construção de bases para spear phishing, engenharia social, fraudes financeiras, golpes do falso parente e crimes correlatos.
(v) Pesquisa acadêmica e jornalismo de dados: o scraping é instrumento essencial de pesquisa empírica sobre fenômenos digitais — desde estudos sobre desinformação e discurso de ódio até auditoria de algoritmos de plataformas. Há esforço crescente para reconhecer exceção legítima de pesquisa científica, com balizamento ético e metodológico próprio.
LGPD — arts. 7º, 9º, 11 (bases legais para tratamento). Art. 154-A do Código Penal (invasão de dispositivo, quando há violação de mecanismo de segurança). Lei 9.610/1998 (direitos autorais). Marco Civil da Internet (art. 7º — proteção de dados). PL 2.338/2023. AI Act da União Europeia — Regulamento 2024/1689.
Lei de Direitos Autorais — disciplina os direitos autorais e conexos no Brasil (Ementa oficial: "Altera, atualiza e consolida a legislação sobre direitos autorais e dá outras providências").
Estabelece princípios, garantias, direitos e deveres para o uso da Internet no Brasil.
Marco Legal da Inteligência Artificial (em tramitação).
Regulamento de Inteligência Artificial da União Europeia.
Continue a leitura por conexão
Dados pessoais
INFRAESTRUTURAManual · Letra RReconhecimento facial
REGULAçãOManual · Letra DDataset
REGULAçãOManual · Letra LLLM (Large Language Model)
INFRAESTRUTURAManual · Letra IIA generativa (inteligência artificial generativa)
INFRAESTRUTURAManual · Letra DDireitos autorais digitais
REGULAçãO
BIERRENBACH, Juliana. Scraping (web scraping). Arquivo Conceitual. TechCrime.Project. Bier.Tech, 7 maio 2026. Disponível em: https://firebrick-eel-641877.hostingersite.com/arquivo-conceitual/s/scraping/. Acesso em: [data de acesso].Referência ABNT
Toda semana, leitura crítica do que importa em direito penal e tecnologia, com os verbetes em construção comentados pela autora.Novos verbetes chegam antes aos assinantes da TechCrime.Letter
Este site utiliza cookies e tecnologias de armazenamento para duas finalidades distintas: as estritamente necessárias ao funcionamento e à segurança das páginas, que independem de consentimento, e as de análise de navegação, que registram comportamento e identificadores e dependem da sua autorização. Você pode aceitar ou recusar estas últimas livremente: a recusa não restringe o acesso ao conteúdo editorial e pode ser revista a qualquer momento. Consulte a Política de Cookies para a descrição detalhada de cada categoria.