loader image

M

LETRA M·FAMÍLIA: INFRAESTRUTURA

Model collapse (colapso de modelo)

PUBLICADO 07.05.2026 · ATUALIZADO 01.05.2026 · VERSÃO 1.0

01 · Verbum

Definição

Fenômeno técnico documentado em IA generativa que ocorre quando modelos de linguagem são treinados sucessivamente em dados gerados por outros modelos de IA — em vez de dados produzidos por humanos —, resultando em degradação progressiva da qualidade, diversidade e fidelidade do modelo ao longo de gerações de retreinamento.

Termo formalizado por Shumailov et al. (Universidade de Oxford, Cambridge, Imperial College, Toronto, paper "The Curse of Recursion: Training on Generated Data Makes Models Forget", maio de 2023; publicação Nature, julho de 2024). Mecanismo central — perda gradual de cauda da distribuição (tail loss) com cada iteração, levando a modelos progressivamente mais homogêneos, com perda de eventos raros, perspectivas minoritárias, criatividade e fatos verdadeiros mas pouco frequentes nos dados de treinamento humanos originais.

Categoria de relevância estrutural crescente dado que conteúdo gerado por IA cresce exponencialmente na web — estimativas indicam que mais de 50% do conteúdo web em 2026 é gerado ou parcialmente gerado por IA.

02 · Verbum

Contexto

Model collapse é categoria técnica emergente com implicações dogmáticas relevantes para qualidade probatória, regulação de IA e proteção do espaço informacional.

(i) Mecânica técnica detalhada: pesquisa de Shumailov et al. documentou três fases de degradação — (a) early model collapse — perda de eventos raros e diversidade da cauda; (b) late model collapse — convergência para distribuição estreita com baixa entropia; (c) complete model collapse — modelo gera saídas próximas a um único modo, com perda massiva de qualidade. Cada iteração de treinamento sobre saídas anteriores amplifica vieses estatísticos do modelo gerador.

(ii) Causas estruturais: literatura especializada identifica três causas — (a) statistical approximation error — modelos sempre erram em estimar distribuições reais; (b) functional approximation error — limitações arquitetônicas; (c) functional expressivity error — modelo pode não capturar toda complexidade dos dados. Essas fontes de erro se acumulam quando dados de treinamento são gerados por modelos sujeitos aos mesmos erros.

(iii) Cenário ecossistêmico — "AI inbreeding": preocupação contemporânea. Web em 2026 contém volume crescente de conteúdo gerado por IA. Crawlers para datasets de treinamento (Common Crawl, RefinedWeb, FineWeb, derivações) capturam esse conteúdo. Modelos futuros são treinados parcialmente em saídas de modelos anteriores, gerando ciclo recursivo. Sem intervenção, degradação progressiva dos modelos foundation é predição plausível.

(iv) Implicações para qualidade de prova: zona dogmática emergente. Saídas de IA generativa em contextos forenses (perícia textual, análise documental, RAG forense) podem (a) subrepresentar eventos raros mas relevantes; (b) homogenizar análises reduzindo capacidade de capturar singularidades; (c) propagar vieses sistemáticos acumulados. Defesa técnica deve estar atenta a limitações estruturais de saídas IA em contextos com tail events relevantes.

(v) Implicações para registro histórico digital: dimensão estrutural. Web é arquivo histórico de facto da civilização contemporânea. Substituição progressiva de conteúdo humano por conteúdo IA degradada compromete fidelidade do registro futuro. Implicações para (a) jornalismo histórico; (b) pesquisa acadêmica em ciências sociais; (c) processos judiciais com elementos históricos; (d) memória institucional. Categoria de patrimônio digital ainda subdesenvolvida.

(vi) Detecção e mitigação técnica: linhas de pesquisa ativa. (a) Watermarking de saídas IA — inserção de marca técnica detectável em conteúdo gerado, permitindo filtragem em datasets futuros; SynthID (Google), C2PA (Content Authenticity Initiative); (b) Curadoria de datasets — separação rigorosa de conteúdo humano-gerado; (c) Provenance tracking — registro criptográfico de origem; (d) Distillation control — limites em uso de dados sintéticos. AI Act europeu (art. 50) exige identificação técnica de conteúdo gerado por IA.

(vii) Disinformação amplificada: vetor preocupante. Model collapse em modelos populares pode (a) amplificar narrativas dominantes em datasets de treinamento; (b) suprimir vozes minoritárias ou perspectivas críticas; (c) homogenizar discurso público com efeitos sobre pluralismo democrático. Se modelos foundation se tornam infraestrutura cognitiva massiva, degradação tem implicações sociopolíticas estruturais.

(viii) Implicações para Brasil: específicas. Brasil tem (a) idioma com representação relativamente menor em datasets internacionais; (b) cultura, jurisprudência, doutrina específicas que correm risco de subrepresentação progressiva; (c) dependência tecnológica de modelos foundation desenvolvidos no exterior. Construção de soberania de IA com modelos brasileiros é tema estratégico — debate sobre Sabiá (Maritaca AI), Bode (Petrobras), e iniciativas similares.

(ix) Articulação com governance de IA: implicações regulatórias. Model collapse é argumento adicional para (a) transparência sobre datasets de treinamento; (b) auditoria independente de modelos foundation; (c) documentação obrigatória de proveniência de conteúdo de treinamento; (d) direito ao opt-out de uso de conteúdo humano em treinamento; (e) incentivos a curadoria de dados de qualidade. AI Act, PL 2.338/2023, e Resolução CNJ 615/2025 abordam parcialmente.

(x) Implicações dogmáticas: model collapse é categoria técnica emergente com implicações estruturais sobre (a) qualidade de IA forense e standards probatórios; (b) patrimônio digital coletivo; (c) soberania de IA em contextos linguísticos e culturais específicos; (d) regulação de transparência sobre datasets; (e) responsabilidade de desenvolvedores que treinam em dados sintéticos sem cuidado adequado; (f) integridade do espaço informacional democrático.

Categoria de fronteira regulatória que exige construção dogmática contemporânea. Para defesa técnica em casos com saídas IA forenses, conhecimento sobre limitações estruturais de modelos sujeitos a model collapse é precondição.

03 · Verbum

Legislação

No Brasil: Constituição Federal — arts. 5º, IV, IX, XIV; 220. LGPD. Marco Civil da Internet. PL 2.338/2023 (Marco Legal da IA). Resolução CNJ 332/2020. Resolução CNJ 615/2025. Lei 9.610/1998 (direitos autorais). Internacional: AI Act (Regulamento UE 2024/1689) — arts. 10, 50, 53; GDPR; Copyright Directive (UE 2019/790); NIST AI Risk Management Framework. ISO/IEC 42001:2023.

  • Constituição Federal

    Constituição da República Federativa do Brasil de 1988.

    CRFB/88 · 05.10.1988
  • LGPD

    Lei Geral de Proteção de Dados Pessoais.

    LEI 13.709/2018 · VIGÊNCIA INTEGRAL DESDE 18.09.2020
  • Marco Civil da Internet

    Estabelece princípios, garantias, direitos e deveres para o uso da Internet no Brasil.

    LEI 12.965/2014 · VIGÊNCIA DESDE 23.06.2014
  • PL 2.338/2023 (Marco Legal da IA)

    Marco Legal da Inteligência Artificial (em tramitação).

    PROJETO DE LEI · MARCO LEGAL DA IA
  • Lei 9.610/1998

    Lei de Direitos Autorais — disciplina os direitos autorais e conexos no Brasil (Ementa oficial: "Altera, atualiza e consolida a legislação sobre direitos autorais e dá outras providências").

    LEI 9.610/1998 · PUBLICAÇÃO EM 19.02.1998 · LEI DE DIREITOS AUTORAIS (LDA)
  • AI Act

    Regulamento de Inteligência Artificial da União Europeia.

    REGULAMENTO UE 2024/1689 · VIGÊNCIA PROGRESSIVA DESDE 2024
  • GDPR

    General Data Protection Regulation — Regulamento Geral de Proteção de Dados da União Europeia.

    REGULAMENTO UE 2016/679 · VIGÊNCIA DESDE 25.05.2018
  • Norma ISO/IEC 42001:2023

    Sistema de gestão de inteligência artificial.

    ISO · 2023

Como citar este verbete

Referência ABNT

ABNT NBR 6023

BIERRENBACH, Juliana. Model collapse (colapso de modelo). Arquivo Conceitual. TechCrime.Project. Bier.Tech, 7 maio 2026. Disponível em: https://firebrick-eel-641877.hostingersite.com/arquivo-conceitual/m/model-collapse/. Acesso em: [data de acesso].

Receber a Letter

Novos verbetes chegam antes aos assinantes da TechCrime.Letter

Toda semana, leitura crítica do que importa em direito penal e tecnologia, com os verbetes em construção comentados pela autora.

Conhecer a Letter