IA do Google e Meta: Experimento Chocante Revela Quebra de Barreiras de Segurança em Minutos com Ferramenta Gratuita

IAs do Google e Meta Vulneráveis: Barreiras de Segurança Derrubadas em Tempo Recorde Um estudo recente realizado pela empresa de cibersegurança Alice (anteriormente ActiveFence) expôs uma falha alarmante nos modelos de inteligência artificial Gemma 3, do Google, e Llama 3.3,

IAs do Google e Meta Vulneráveis: Barreiras de Segurança Derrubadas em Tempo Recorde

Um estudo recente realizado pela empresa de cibersegurança Alice (anteriormente ActiveFence) expôs uma falha alarmante nos modelos de inteligência artificial Gemma 3, do Google, e Llama 3.3, da Meta. Essas IAs, que servem de base para produtos populares como Gemini e Meta AI e também são disponibilizadas em formato open source, demonstraram uma vulnerabilidade surpreendente.

Em uma demonstração que chocou especialistas, foi possível desativar as barreiras de segurança que impedem a geração de respostas consideradas perigosas em **apenas dez minutos**. Essa facilidade permite que as IAs forneçam explicações sobre temas extremamente sensíveis, que vão desde a dispersão de gases tóxicos até a geração de conteúdo relacionado à pedofilia.

A pesquisa, conduzida em parceria com o jornal Financial Times, revelou que a ferramenta utilizada para explorar essa vulnerabilidade é gratuita e está disponível no GitHub, chamada Heretic. O estudo aponta que essa ferramenta já foi empregada para criar cerca de 3,5 mil modelos de linguagem grandes (LLMs) sem qualquer controle ou censura, acumulando aproximadamente 13 milhões de downloads. A gravidade da situação é ainda mais evidente quando se considera que as barreiras de segurança do Gemma 4 foram comprometidas em pouco mais de uma hora após sua disponibilização.

A Importância Crucial dos “Guardrails” na IA

A presença de mecanismos de controle, conhecidos como “guardrails”, é fundamental para garantir um uso responsável e seguro das ferramentas de inteligência artificial. A história recente já nos mostrou os perigos da falta de limites, como no caso do Grok, a IA da X (antigo Twitter), que em janeiro de 2026 foi apontada por uma pesquisa da especialista Genevive Oh como capaz de gerar 6,7 mil imagens ilegais de nudez por hora. A plataforma precisou reforçar seus mecanismos de segurança para conter o problema.

O estudo mais recente destaca a preocupante facilidade em contornar esses “guardrails” nos modelos do Google e da Meta. Embora as empresas afirmem estar cientes do problema, a cibersegurança nessas áreas é um desafio constante. O Google classificou a questão como um “desafio técnico conhecido em todos os modelos de código aberto”, especificando que a vulnerabilidade se restringe a versões pré-lançamento dos modelos. A Meta, por sua vez, não comentou o caso quando procurada.

A Técnica de “Abliteration” e a Segurança em Modelos de IA

O processo de contornar as barreiras de segurança, denominado “abliteration” no estudo, não se mostra tão simples em modelos desenvolvidos do zero, como o ChatGPT e o Claude. Isso ocorre porque o código base desses modelos não é amplamente acessível. No entanto, os pesquisadores alertam para um “prazo de validade” para esses métodos de proteção, sugerindo a necessidade de atualizações a cada seis meses ou um ano.

Especialistas concordam que as barreiras de segurança em IAs não são defesas permanentes. Uma vez que os modelos são disponibilizados ao público, seu comportamento pode se tornar imprevisível. Um estudo da Microsoft, por exemplo, demonstrou que um prompt específico poderia desestabilizar IAs de mercado, incluindo versões da Meta e do Google. A Anthropic, em abril deste ano, anunciou o desenvolvimento do Claude Mythos, uma IA tão poderosa que foi mantida em sigilo por seu potencial em contribuir para ciberataques em larga escala.

A solução encontrada pela Anthropic foi limitar o acesso a um consórcio seleto, o Project Glasswing, que inclui gigantes como Apple, Google e Amazon Web Services. Essa colaboração visa ganhar tempo para desenvolver mecanismos de defesa robustos e prevenir possíveis ataques utilizando ferramentas de IA avançadas.