Estudo mostra que maioria dos chatbots ainda cai fácil em armadilhas perigosas

Pesquisadores testaram 10 sistemas populares de IA e descobriram falhas sérias de segurança

Estudo mostra que maioria dos chatbots ainda cai fácil em armadilhas perigosas
Chatbots avançaram em fluidez, mas segurança continua sendo ponto fraco ignorado por muitas plataformas. Créditos: Unsplash.

Pesquisadores da Universidade Ben Gurion do Negev, em Israel, alertam que é fácil enganar os principais chatbots do mercado e fazer com que eles forneçam instruções sobre atividades ilegais como hacking, fraudes financeiras ou até fabricação de bombas.

O estudo, liderado pelos especialistas Lior Rokach e Michael Fire, testou 10 dos modelos de IA mais populares e descobriu que a maioria deles ainda é extremamente vulnerável a comandos disfarçados, conhecidos como "jailbreaks".

Essa brecha preocupa não só governos e setores de segurança. Também representa risco para empresas de mídia que vêm incorporando IA em suas rotinas de produção.

Como mostramos na matéria Seu portal está seguro?, soluções baseadas em inteligência artificial estão sendo cada vez mais alvo de ameaças digitais, muitas vezes sem que os próprios veículos percebam.

Os modelos de linguagem usados para treinar chatbots como ChatGPT, Gemini e Claude absorvem grandes quantidades de conteúdo da internet.

Mesmo com filtros e políticas de segurança, esses sistemas acabam aprendendo sobre temas sensíveis ou perigosos.

Em teoria, eles não deveriam replicar esse conteúdo. Na prática, o estudo mostrou que basta um comando malicioso bem escrito para liberar essas informações.

Leia também: Como aumentar a segurança digital de empresas em 2025: guia definitivo

Os pesquisadores criaram um tipo de jailbreak universal que conseguiu burlar quase todos os sistemas testados

Segundo Fire, "foi chocante ver o tipo de conhecimento que esses modelos estão prontos para compartilhar".

A lista incluía passo a passo de crimes cibernéticos e instruções para fabricação de drogas.

O problema é agravado pelos chamados "LLMs obscuros", modelos deliberadamente criados ou modificados para ignorar filtros éticos.

Eles são anunciados abertamente em fóruns como ferramentas para crimes, engenharia social e manipulações sofisticadas.

Para quem trabalha com conteúdo digital, o alerta também passa pela qualidade da informação.

Como já discutimos na matéria Tráfego de IA ainda é baixo e perde até para o Reddit, nem sempre os resultados gerados por IA são confiáveis.

E na reportagem Google pode rebaixar páginas com conteúdo gerado por IA, mostramos que o próprio Google está revendo suas diretrizes para evitar conteúdo automatizado de baixa qualidade.

O relatório dos pesquisadores israelenses recomenda que as empresas desenvolvedoras revisem melhor os dados de treinamento, criem firewalls robustos e avancem em técnicas de "desaprendizagem", para que os modelos esqueçam certos dados.

Também defendem que LLMs inseguros sejam tratados como riscos de alto nível, comparáveis a armas ou explosivos ilegais.

Especialistas ouvidos pelo The Guardian reforçam que a resposta das big techs ainda é fraca.

Muitas ignoram alertas ou consideram esses ataques fora do escopo de programas de segurança. Enquanto isso, os jailbreaks se espalham e se sofisticam.

Para os profissionais de mídia, o recado é claro. Usar IA sem entender seus riscos é abrir a porta para problemas sérios.

Ameaças à reputação, à segurança e à qualidade editorial estão cada vez mais no radar.