
PUBLICADO 07.05.2026 · ATUALIZADO 01.05.2026 · VERSÃO 1.0
Fenômeno técnico documentado em IA generativa que ocorre quando modelos de linguagem são treinados sucessivamente em dados gerados por outros modelos de IA — em vez de dados produzidos por humanos —, resultando em degradação progressiva da qualidade, diversidade e fidelidade do modelo ao longo de gerações de retreinamento. Termo formalizado por Shumailov et al. (Universidade de Oxford, Cambridge, Imperial College, Toronto, paper "The Curse of Recursion: Training on Generated Data Makes Models Forget", maio de 2023; publicação Nature, julho de 2024). Mecanismo central — perda gradual de cauda da distribuição (tail loss) com cada iteração, levando a modelos progressivamente mais homogêneos, com perda de eventos raros, perspectivas minoritárias, criatividade e fatos verdadeiros mas pouco frequentes nos dados de treinamento humanos originais. Categoria de relevância estrutural crescente dado que conteúdo gerado por IA cresce exponencialmente na web — estimativas indicam que mais de 50% do conteúdo web em 2026 é gerado ou parcialmente gerado por IA.Definição
Model collapse é categoria técnica emergente com implicações dogmáticas relevantes para qualidade probatória, regulação de IA e proteção do espaço informacional.
(i) Mecânica técnica detalhada: pesquisa de Shumailov et al. documentou três fases de degradação — (a) early model collapse — perda de eventos raros e diversidade da cauda; (b) late model collapse — convergência para distribuição estreita com baixa entropia; (c) complete model collapse — modelo gera saídas próximas a um único modo, com perda massiva de qualidade. Cada iteração de treinamento sobre saídas anteriores amplifica vieses estatísticos do modelo gerador.
(ii) Causas estruturais: literatura especializada identifica três causas — (a) statistical approximation error — modelos sempre erram em estimar distribuições reais; (b) functional approximation error — limitações arquitetônicas; (c) functional expressivity error — modelo pode não capturar toda complexidade dos dados. Essas fontes de erro se acumulam quando dados de treinamento são gerados por modelos sujeitos aos mesmos erros.
(iii) Cenário ecossistêmico — "AI inbreeding": preocupação contemporânea. Web em 2026 contém volume crescente de conteúdo gerado por IA. Crawlers para datasets de treinamento (Common Crawl, RefinedWeb, FineWeb, derivações) capturam esse conteúdo. Modelos futuros são treinados parcialmente em saídas de modelos anteriores, gerando ciclo recursivo. Sem intervenção, degradação progressiva dos modelos foundation é predição plausível.
(iv) Implicações para qualidade de prova: zona dogmática emergente. Saídas de IA generativa em contextos forenses (perícia textual, análise documental, RAG forense) podem (a) subrepresentar eventos raros mas relevantes; (b) homogenizar análises reduzindo capacidade de capturar singularidades; (c) propagar vieses sistemáticos acumulados. Defesa técnica deve estar atenta a limitações estruturais de saídas IA em contextos com tail events relevantes.
(v) Implicações para registro histórico digital: dimensão estrutural. Web é arquivo histórico de facto da civilização contemporânea. Substituição progressiva de conteúdo humano por conteúdo IA degradada compromete fidelidade do registro futuro. Implicações para (a) jornalismo histórico; (b) pesquisa acadêmica em ciências sociais; (c) processos judiciais com elementos históricos; (d) memória institucional. Categoria de patrimônio digital ainda subdesenvolvida.
(vi) Detecção e mitigação técnica: linhas de pesquisa ativa. (a) Watermarking de saídas IA — inserção de marca técnica detectável em conteúdo gerado, permitindo filtragem em datasets futuros; SynthID (Google), C2PA (Content Authenticity Initiative); (b) Curadoria de datasets — separação rigorosa de conteúdo humano-gerado; (c) Provenance tracking — registro criptográfico de origem; (d) Distillation control — limites em uso de dados sintéticos. AI Act europeu (art. 50) exige identificação técnica de conteúdo gerado por IA.
(vii) Disinformação amplificada: vetor preocupante. Model collapse em modelos populares pode (a) amplificar narrativas dominantes em datasets de treinamento; (b) suprimir vozes minoritárias ou perspectivas críticas; (c) homogenizar discurso público com efeitos sobre pluralismo democrático. Se modelos foundation se tornam infraestrutura cognitiva massiva, degradação tem implicações sociopolíticas estruturais.
(viii) Implicações para Brasil: específicas. Brasil tem (a) idioma com representação relativamente menor em datasets internacionais; (b) cultura, jurisprudência, doutrina específicas que correm risco de subrepresentação progressiva; (c) dependência tecnológica de modelos foundation desenvolvidos no exterior. Construção de soberania de IA com modelos brasileiros é tema estratégico — debate sobre Sabiá (Maritaca AI), Bode (Petrobras), e iniciativas similares.
(ix) Articulação com governance de IA: implicações regulatórias. Model collapse é argumento adicional para (a) transparência sobre datasets de treinamento; (b) auditoria independente de modelos foundation; (c) documentação obrigatória de proveniência de conteúdo de treinamento; (d) direito ao opt-out de uso de conteúdo humano em treinamento; (e) incentivos a curadoria de dados de qualidade. AI Act, PL 2.338/2023, e Resolução CNJ 615/2025 abordam parcialmente.
(x) Implicações dogmáticas: model collapse é categoria técnica emergente com implicações estruturais sobre (a) qualidade de IA forense e standards probatórios; (b) patrimônio digital coletivo; (c) soberania de IA em contextos linguísticos e culturais específicos; (d) regulação de transparência sobre datasets; (e) responsabilidade de desenvolvedores que treinam em dados sintéticos sem cuidado adequado; (f) integridade do espaço informacional democrático.
Categoria de fronteira regulatória que exige construção dogmática contemporânea. Para defesa técnica em casos com saídas IA forenses, conhecimento sobre limitações estruturais de modelos sujeitos a model collapse é precondição.
No Brasil: Constituição Federal — arts. 5º, IV, IX, XIV; 220. LGPD. Marco Civil da Internet. PL 2.338/2023 (Marco Legal da IA). Resolução CNJ 332/2020. Resolução CNJ 615/2025. Lei 9.610/1998 (direitos autorais). Internacional: AI Act (Regulamento UE 2024/1689) — arts. 10, 50, 53; GDPR; Copyright Directive (UE 2019/790); NIST AI Risk Management Framework. ISO/IEC 42001:2023.
Estabelece princípios, garantias, direitos e deveres para o uso da Internet no Brasil.
Marco Legal da Inteligência Artificial (em tramitação).
Lei de Direitos Autorais — disciplina os direitos autorais e conexos no Brasil (Ementa oficial: "Altera, atualiza e consolida a legislação sobre direitos autorais e dá outras providências").
Regulamento de Inteligência Artificial da União Europeia.
General Data Protection Regulation — Regulamento Geral de Proteção de Dados da União Europeia.
Continue a leitura por conexão
LLM (Large Language Model)
INFRAESTRUTURAManual · Letra IIA generativa (inteligência artificial generativa)
INFRAESTRUTURAManual · Letra MModelo fundacional (foundation model)
REGULAçãOManual · Letra FFine-tuning
INFRAESTRUTURAManual · Letra RRAG (Retrieval-Augmented Generation)
INFRAESTRUTURAManual · Letra AAlucinação de IA
INFRAESTRUTURA
BIERRENBACH, Juliana. Model collapse (colapso de modelo). Arquivo Conceitual. TechCrime.Project. Bier.Tech, 7 maio 2026. Disponível em: https://firebrick-eel-641877.hostingersite.com/arquivo-conceitual/m/model-collapse/. Acesso em: [data de acesso].Referência ABNT
Toda semana, leitura crítica do que importa em direito penal e tecnologia, com os verbetes em construção comentados pela autora.Novos verbetes chegam antes aos assinantes da TechCrime.Letter
Este site utiliza cookies e tecnologias de armazenamento para duas finalidades distintas: as estritamente necessárias ao funcionamento e à segurança das páginas, que independem de consentimento, e as de análise de navegação, que registram comportamento e identificadores e dependem da sua autorização. Você pode aceitar ou recusar estas últimas livremente: a recusa não restringe o acesso ao conteúdo editorial e pode ser revista a qualquer momento. Consulte a Política de Cookies para a descrição detalhada de cada categoria.