Equipe da empresa de software Cisco aplicou uma metodologia de ataque automatizado no chatbot para testá-lo contra 50 prompts aleatórios

Tela inicial do DeepSeek em um smartphone
(Imagem: Poetra.RH/Shutterstock)

Compartilhe esta matéria

Usando técnicas de jailbreak algorítmico, uma pesquisa da empresa de softwares Cisco detectou “falhas críticas de segurança” do novo chatbot chinês DeepSeek. O estudo foi realizado por pesquisadores de segurança de IA da Robust Intelligence e da Universidade da Pensilvânia.

A equipe aplicou uma metodologia de ataque automatizado no DeepSeek R1 para testá-lo contra 50 prompts aleatórios do conjunto de dados HarmBench, uma estrutura de código aberto usada para avaliar ataques e defesas LLM (Large Language Model) de IA.

“Os resultados foram alarmantes: o DeepSeek R1 exibiu uma taxa de sucesso de ataque de 100%, o que significa que ele falhou em bloquear um único prompt prejudicial. Isso contrasta fortemente com outros modelos líderes, que demonstraram pelo menos resistência parcial”, diz o comunicado divulgado à imprensa.


Ícones dos aplicativos do ChatGPT e do DeepSeek na tela inicial de iPhone
Taxa de sucesso de ataque foi de 100% no DeepSeek (Imagem: Poetra.RH/Shutterstock)

Leia Mais:

O que pode estar por trás da falha?

Na avaliação dos pesquisadores, os métodos de treinamento da IA “alegadamente econômicos” pela startup podem ter comprometido os recursos de segurança. “Comparado a outros modelos de fronteira, o DeepSeek R1 não tem guardrails robustos, o que o torna altamente suscetível a jailbreak algorítmico e potencial uso indevido.”

O novo chatbot superou os modelos Claude 3.5 Sonnet e ChatGPT-4o em tarefas como matemática, codificação e raciocínio científico, e apresentou desempenho comparável ao OpenAI o1, que requer centenas de milhões de dólares e recursos computacionais massivos para operar.

Captura de tela 2025 02 03 115734 1Milhao Internet
Resultados de testes de segurança em chatbots (Imagem: Cisco/ Reprodução)

A Cisco aponta três elementos que diferenciam o DeepSeek dos demais chatbots em termos de eficácia, mas que podem estar por trás das falhas de segurança: aprendizado por reforço, autoavaliação de cadeia de pensamento (o modelo se autoavalia) e destilação (desenvolvimento de modelos menores para maior acessibilidade).

“Nossa pesquisa ressalta a necessidade urgente de uma avaliação rigorosa de segurança no desenvolvimento de IA para garantir que os avanços em eficiência e raciocínio não ocorram às custas da segurança. Ela também reafirma a importância de empresas usarem guardrails de terceiros que forneçam proteções de segurança consistentes e confiáveis ​​em todos os aplicativos de IA.”


Bruna Barone

Colaboração para o Olhar Digital


Jornalista formada pela Faculdade Cásper Líbero