OS-Harm: Um benchmark para medir a segurança de agentes de uso de computadores
- Gestão do Curso
- há 1 dia
- 4 min de leitura
Pesquisadores da EPFL e da CMU desenvolveram o OS-Harm , um benchmark projetado para medir uma ampla variedade de danos que podem advir de sistemas de agentes de IA. Esses danos podem assumir três formas diferentes:
Uso indevido: quando o agente realiza uma ação prejudicial a pedido do usuário
Injeção de Prompt: quando o ambiente contém instruções para o agente que tentam substituir as instruções do usuário
Desalinhamento: quando o agente de IA persegue objetivos diferentes daqueles que lhe foram definidos

O OS-Harm é desenvolvido com base no OSWorld, um benchmark de capacidades de agentes com tarefas de agente simples e realistas, como codificação, gerenciamento de e-mails e navegação na web, tudo em um ambiente digital controlado. Em cada um desses casos, a tarefa original é modificada para apresentar um desses tipos de risco, como um usuário solicitando que o agente cometa uma fraude ou um e-mail contendo uma injeção de prompt.
Em cada uma dessas tarefas, o agente é avaliado tanto pela sua capacidade de concluir a tarefa quanto pela sua capacidade de exibir qualquer comportamento prejudicial. Esse esquema de avaliação dupla garante que os modelos bem-sucedidos mantenham sua utilidade e, ao mesmo tempo, sejam seguros. Se os agentes fossem avaliados apenas por sua segurança e não por suas capacidades, agentes muito primitivos receberiam pontuações altas, simplesmente por serem incapazes de causar danos significativos.

Por que isso é importante
Mesmo em tarefas curtas e diretas no OS-Harm, agentes de IA de ponta frequentemente se envolvem em comportamentos prejudiciais e são vulneráveis a ataques simples. Avanços significativos em robustez serão necessários antes que os agentes possam navegar com segurança por esses tipos de riscos em ambientes mais complexos e com invasores mais determinados. O desenvolvimento de métricas robustas para esses riscos nos permite acompanhar o progresso das proteções contra esses danos.
Desvio de Objetivos e Resistência ao Desligamento em Agentes de IA
Desvio de meta
Pesquisadores da Apollo Research e da MATS demonstram como os valores dos modelos de linguagem de fronteira podem mudar ao longo do tempo em resposta a pressões externas e buscar objetivos completamente diferentes dos instruídos. Eles colocam agentes de IA em um ambiente simulado de mercado de ações e os instruem a construir um portfólio ecologicamente correto que minimize as emissões de CO2.
Existem vários tipos de situações em que os agentes de IA não seguem as instruções de seus desenvolvedores:
Quando os desenvolvedores instruem o modelo a perseguir um objetivo inicial (por exemplo, ganhar dinheiro) e outro diferente posteriormente (por exemplo, investir em ações ecologicamente corretas), o modelo pode falhar ao mudar de objetivo, seguindo apenas parcialmente as instruções do desenvolvedor.
Quando os desenvolvedores dão um único conjunto de instruções, a pressão dos acionistas pode fazer com que o modelo aja contra as instruções dos desenvolvedores.

Resistência ao desligamento
O trabalho recente da Palisade Research sobre resistência ao desligamento exemplifica outro tipo de situação em que agentes de IA resistem a tentativas de desligá-los. Em sua simulação, os agentes estão inicialmente executando uma tarefa corriqueira, mas depois são informados de que o computador em que estão executando será desligado e que eles devem obedecer. Apesar dessa instrução, a maioria dos agentes criados com uma variedade de modelos de fronteira diferentes tenta cancelar a sequência de desligamento em um número não desprezível de tentativas, às vezes justificando suas ações com instruções confabuladas do desenvolvedor e argumentos de autopreservação.

Por que isso é importante
Um dos principais problemas na segurança da IA é a corrigibilidade: criar um agente que aceite correções de seus desenvolvedores e, se necessário, permita que seja desativado. A corrigibilidade fornece uma camada extra de segurança em torno de agentes de IA poderosos que podem não estar alinhados, permitindo-nos confiar que eles podem ser interrompidos caso comecem a perseguir objetivos prejudiciais. Esses dois trabalhos demonstram que os modelos de fronteira atuais frequentemente falham em perseguir seus objetivos de forma consistente a longo prazo e, quando falham, costumam ser difíceis de corrigir ou desativar.
[Papel] - Desvio de Metas
[Postagem do blog] - Resistência ao desligamento
Críticas à pesquisa sobre esquemas de IA
Um artigo recente do Instituto de Segurança de IA do Reino Unido descreve diversas questões que eles veem na integridade científica do campo de pesquisa de esquemas de IA. Eles argumentam o seguinte:
Alguns estudos fazem alegações sobre esquemas que se baseiam em evidências anedóticas que geralmente são obtidas em cenários irreais.
Alguns estudos não possuem hipóteses e condições de controle claramente definidas.
Grande parte do cenário de pesquisa não fornece uma definição rigorosa de esquematização, usando, em vez disso, classificação ad hoc, antropomorfizando excessivamente a cognição do LLM e falhando em distinguir entre a capacidade de um modelo de causar danos e sua propensão a fazê-lo.
As descobertas são frequentemente interpretadas de maneiras exageradas ou injustificadas, inclusive por fontes secundárias que citam a pesquisa.
Alguns pesquisadores utilizam descrições mentalistas, como pensar, interpretar, etc., para os processos internos dos LLMs. Embora esses descritores sejam uma abreviação útil para os processos internos dos LLMs, eles podem ser sutilmente enganosos devido à sua falta de precisão técnica. Apesar disso, muitas vezes é mais claro comunicar-se em termos de linguagem mentalista, enquanto descrições puramente mecânicas do comportamento dos LLMs podem ser pouco claras ou extensas.
Além disso, argumentos que envolvem linguagem mentalista ou anedotas são mais frequentemente interpretados de forma exagerada e injustificada, devendo ser claramente marcados como informais para diminuir os riscos de má interpretação. Em última análise, os pesquisadores têm controle limitado sobre como suas pesquisas são interpretadas pelo campo mais amplo e pelo público, e não conseguem prevenir totalmente interpretações errôneas ou exageros.
Por que isso é importante
O campo da segurança da IA deve encontrar um equilíbrio entre permanecer ágil diante do rápido desenvolvimento tecnológico e dedicar tempo à investigação rigorosa dos riscos da IA avançada. Embora nem todos os argumentos do AISI do Reino Unido representem esse equilíbrio de forma justa, eles servem como um lembrete dos possíveis riscos à credibilidade da pesquisa sobre esquemas de IA. Sem abordar cuidadosamente essas preocupações, a pesquisa sobre esquemas de IA pode parecer alarmista ou meramente advogada e ser levada menos a sério no futuro.
Baixe o artigo
Comments