loader image

M

LETRA M·FAMÍLIA: REGULAçãO

Memorization mitigation (mitigação de memorização em IA)

PUBLICADO 07.05.2026 · ATUALIZADO 01.05.2026 · VERSÃO 1.0

01 · Verbum

Definição

Conjunto de técnicas voltadas a impedir que modelos de machine learning — especialmente modelos de linguagem de larga escala — memorizem e reproduzam literalmente conteúdos específicos presentes em seus dados de treinamento, quando tais conteúdos incluem informações pessoais, dados sensíveis, material protegido por direitos autorais, segredos comerciais ou qualquer informação cuja reprodução literal seja indesejada.

O problema da memorização em LLMs é bem documentado: ataques conhecidos como "training data extraction attacks" demonstraram ser possível recuperar, por meio de prompts específicos, dados pessoais precisos (nomes, endereços, números de telefone, trechos literais de textos) que estavam presentes nos corpora de treinamento — mesmo quando o modelo não foi explicitamente programado para memorizá-los.

As principais técnicas de mitigação incluem differential privacy aplicada ao treinamento (DP-SGD — Differentially Private Stochastic Gradient Descent), deduplicação rigorosa de dados de treinamento, filtragem de dados sensíveis antes do treinamento, regularização específica, e auditoria pós-treinamento para identificar e remover conhecimento memorizado indevidamente.

02 · Verbum

Contexto

A memorização indevida de dados em modelos de IA generativa tem relevância jurídico-penal crescente, em três frentes principais.

(i) Violação da LGPD por reprodução de dados pessoais: modelos treinados com dados públicos da internet frequentemente incluem informações pessoais de indivíduos específicos — quando o modelo reproduz esses dados em suas saídas, pode configurar tratamento irregular de dados pessoais pelo operador do modelo, com possíveis reflexos administrativos e, em situações qualificadas, penais.

O direito ao apagamento (art. 18, VI, da LGPD) torna-se tecnicamente complexo quando o dado está embutido nos pesos do modelo, e não em uma base de dados tradicional — gerando o debate sobre "machine unlearning".

(ii) Vazamento de segredos e dados sensíveis: quando modelos são treinados com dados corporativos internos — prática comum em sistemas de assistência ao desenvolvimento e customer service —, a memorização pode levar à exposição inadvertida de informações confidenciais a usuários não autorizados. O caso Samsung (2023), em que engenheiros inseriram código-fonte em ChatGPT e tiveram o conteúdo potencialmente incorporado ao modelo, é emblemático e levou a proibições corporativas amplas. Pode configurar quebra de sigilo empresarial e, em contextos regulados (saúde, direito, financeiro), violação de sigilo profissional.

(iii) Direito autoral: a reprodução literal de obras protegidas por modelos de IA generativa tem gerado litígios em múltiplas jurisdições — notadamente o caso New York Times vs. OpenAI, em que o jornal demonstrou ser possível induzir o ChatGPT a reproduzir trechos substanciais de artigos protegidos. A insuficiência de memorization mitigation adequada pode funcionar como elemento probatório em ações por violação de direitos autorais e, em casos extremos, em ações penais correlatas.

(iv) Dever de cuidado do desenvolvedor: a omissão em implementar técnicas de memorization mitigation em modelos treinados com dados sensíveis ou protegidos é elemento relevante para análise de responsabilização quando ocorrem vazamentos ou reproduções indevidas. O estado da arte técnico à época do treinamento é parâmetro para aferir a diligência esperada.

03 · Verbum

Legislação

LGPD — art. 18 (direitos do titular), art. 46 (medidas técnicas proporcionais). Lei 9.610/1998 (direitos autorais). Lei 9.279/1996 (propriedade industrial — segredos). PL 2.338/2023 (Marco Legal da IA). AI Act da União Europeia — Regulamento 2024/1689. Código Penal — art. 154 (violação de segredo profissional); art. 195 da Lei 9.279/1996 (crimes contra segredo de empresa).

  • LGPD

    Lei Geral de Proteção de Dados Pessoais.

    LEI 13.709/2018 · VIGÊNCIA INTEGRAL DESDE 18.09.2020
  • Lei 9.610/1998

    Lei de Direitos Autorais — disciplina os direitos autorais e conexos no Brasil (Ementa oficial: "Altera, atualiza e consolida a legislação sobre direitos autorais e dá outras providências").

    LEI 9.610/1998 · PUBLICAÇÃO EM 19.02.1998 · LEI DE DIREITOS AUTORAIS (LDA)
  • Lei 9.279/1996

    Lei de Propriedade Industrial — regula direitos e obrigações sobre patentes, marcas e segredos industriais (Ementa oficial: "Regula direitos e obrigações relativos à propriedade industrial").

    LEI 9.279/1996 · PUBLICAÇÃO EM 14.05.1996 · LEI DE PROPRIEDADE INDUSTRIAL (LPI)
  • PL 2.338/2023 (Marco Legal da IA)

    Marco Legal da Inteligência Artificial (em tramitação).

    PROJETO DE LEI · MARCO LEGAL DA IA
  • AI Act

    Regulamento de Inteligência Artificial da União Europeia.

    REGULAMENTO UE 2024/1689 · VIGÊNCIA PROGRESSIVA DESDE 2024
  • Código Penal

    Código Penal Brasileiro.

    DECRETO-LEI 2.848/1940 · CÓDIGO VIGENTE

Como citar este verbete

Referência ABNT

ABNT NBR 6023

BIERRENBACH, Juliana. Memorization mitigation (mitigação de memorização em IA). Arquivo Conceitual. TechCrime.Project. Bier.Tech, 7 maio 2026. Disponível em: https://firebrick-eel-641877.hostingersite.com/arquivo-conceitual/m/memorization-mitigation/. Acesso em: [data de acesso].

Receber a Letter

Novos verbetes chegam antes aos assinantes da TechCrime.Letter

Toda semana, leitura crítica do que importa em direito penal e tecnologia, com os verbetes em construção comentados pela autora.

Conhecer a Letter