
PUBLICADO 07.05.2026 · ATUALIZADO 01.05.2026 · VERSÃO 1.0
Conjunto de técnicas voltadas a impedir que modelos de machine learning — especialmente modelos de linguagem de larga escala — memorizem e reproduzam literalmente conteúdos específicos presentes em seus dados de treinamento, quando tais conteúdos incluem informações pessoais, dados sensíveis, material protegido por direitos autorais, segredos comerciais ou qualquer informação cuja reprodução literal seja indesejada. O problema da memorização em LLMs é bem documentado: ataques conhecidos como "training data extraction attacks" demonstraram ser possível recuperar, por meio de prompts específicos, dados pessoais precisos (nomes, endereços, números de telefone, trechos literais de textos) que estavam presentes nos corpora de treinamento — mesmo quando o modelo não foi explicitamente programado para memorizá-los. As principais técnicas de mitigação incluem differential privacy aplicada ao treinamento (DP-SGD — Differentially Private Stochastic Gradient Descent), deduplicação rigorosa de dados de treinamento, filtragem de dados sensíveis antes do treinamento, regularização específica, e auditoria pós-treinamento para identificar e remover conhecimento memorizado indevidamente.Definição
A memorização indevida de dados em modelos de IA generativa tem relevância jurídico-penal crescente, em três frentes principais.
(i) Violação da LGPD por reprodução de dados pessoais: modelos treinados com dados públicos da internet frequentemente incluem informações pessoais de indivíduos específicos — quando o modelo reproduz esses dados em suas saídas, pode configurar tratamento irregular de dados pessoais pelo operador do modelo, com possíveis reflexos administrativos e, em situações qualificadas, penais.
O direito ao apagamento (art. 18, VI, da LGPD) torna-se tecnicamente complexo quando o dado está embutido nos pesos do modelo, e não em uma base de dados tradicional — gerando o debate sobre "machine unlearning".
(ii) Vazamento de segredos e dados sensíveis: quando modelos são treinados com dados corporativos internos — prática comum em sistemas de assistência ao desenvolvimento e customer service —, a memorização pode levar à exposição inadvertida de informações confidenciais a usuários não autorizados. O caso Samsung (2023), em que engenheiros inseriram código-fonte em ChatGPT e tiveram o conteúdo potencialmente incorporado ao modelo, é emblemático e levou a proibições corporativas amplas. Pode configurar quebra de sigilo empresarial e, em contextos regulados (saúde, direito, financeiro), violação de sigilo profissional.
(iii) Direito autoral: a reprodução literal de obras protegidas por modelos de IA generativa tem gerado litígios em múltiplas jurisdições — notadamente o caso New York Times vs. OpenAI, em que o jornal demonstrou ser possível induzir o ChatGPT a reproduzir trechos substanciais de artigos protegidos. A insuficiência de memorization mitigation adequada pode funcionar como elemento probatório em ações por violação de direitos autorais e, em casos extremos, em ações penais correlatas.
(iv) Dever de cuidado do desenvolvedor: a omissão em implementar técnicas de memorization mitigation em modelos treinados com dados sensíveis ou protegidos é elemento relevante para análise de responsabilização quando ocorrem vazamentos ou reproduções indevidas. O estado da arte técnico à época do treinamento é parâmetro para aferir a diligência esperada.
LGPD — art. 18 (direitos do titular), art. 46 (medidas técnicas proporcionais). Lei 9.610/1998 (direitos autorais). Lei 9.279/1996 (propriedade industrial — segredos). PL 2.338/2023 (Marco Legal da IA). AI Act da União Europeia — Regulamento 2024/1689. Código Penal — art. 154 (violação de segredo profissional); art. 195 da Lei 9.279/1996 (crimes contra segredo de empresa).
Lei de Direitos Autorais — disciplina os direitos autorais e conexos no Brasil (Ementa oficial: "Altera, atualiza e consolida a legislação sobre direitos autorais e dá outras providências").
Lei de Propriedade Industrial — regula direitos e obrigações sobre patentes, marcas e segredos industriais (Ementa oficial: "Regula direitos e obrigações relativos à propriedade industrial").
Marco Legal da Inteligência Artificial (em tramitação).
Regulamento de Inteligência Artificial da União Europeia.
Continue a leitura por conexão
Differential privacy (privacidade diferencial)
REGULAçãOManual · Letra LLLM (Large Language Model)
INFRAESTRUTURAManual · Letra IIA generativa (inteligência artificial generativa)
INFRAESTRUTURAManual · Letra AAlinhamento de IA (alignment)
INFRAESTRUTURAManual · Letra GGuardrail (salvaguarda programática de IA)
REGULAçãOManual · Letra DDataset
REGULAçãO
BIERRENBACH, Juliana. Memorization mitigation (mitigação de memorização em IA). Arquivo Conceitual. TechCrime.Project. Bier.Tech, 7 maio 2026. Disponível em: https://firebrick-eel-641877.hostingersite.com/arquivo-conceitual/m/memorization-mitigation/. Acesso em: [data de acesso].Referência ABNT
Toda semana, leitura crítica do que importa em direito penal e tecnologia, com os verbetes em construção comentados pela autora.Novos verbetes chegam antes aos assinantes da TechCrime.Letter
Este site utiliza cookies e tecnologias de armazenamento para duas finalidades distintas: as estritamente necessárias ao funcionamento e à segurança das páginas, que independem de consentimento, e as de análise de navegação, que registram comportamento e identificadores e dependem da sua autorização. Você pode aceitar ou recusar estas últimas livremente: a recusa não restringe o acesso ao conteúdo editorial e pode ser revista a qualquer momento. Consulte a Política de Cookies para a descrição detalhada de cada categoria.