A Atividade de Projetos de Pesquisa Avançada de Inteligência dos EUA (IARPA) emite uma solicitação de informações (RFI) para identificar possíveis ameaças e vulnerabilidades que os grandes modelos de linguagem (LLMs) podem representar.
“A IARPA está buscando informações sobre caracterizações estabelecidas de vulnerabilidades e ameaças que podem afetar o uso seguro de modelos de linguagem grandes (LLMs) por analistas de inteligência”
Embora ainda não seja um programa de pesquisa oficial, o RFI “ Caracterizando preconceitos, ameaças e vulnerabilidades de modelos de linguagem grande ” da IARPA visa “ elicitar estruturas para categorizar e caracterizar vulnerabilidades e ameaças associadas às tecnologias LLM, especificamente no contexto de seu uso potencial na análise de inteligência . ”
Muitas vulnerabilidades e ameaças potenciais já são conhecidas.
Por exemplo, você pode pedir ao ChatGPT para resumir ou fazer inferências sobre praticamente qualquer tópico, e ele pode vasculhar seu banco de dados para fornecer uma explicação que pareça convincente.
No entanto, essas explicações também podem ser completamente falsas.
Como o OpenAI descreve, “ChatGPT às vezes escreve respostas que parecem plausíveis, mas incorretas ou sem sentido”.
Mas os riscos apresentados pelos LLMs vão muito além de explicações sem sentido, e o braço de financiamento de pesquisa para agências de espionagem dos EUA está procurando identificar ameaças e vulnerabilidades que podem não ter sido totalmente abordadas no recentemente publicado “ Top 10 for LLM ” da OWASP Foundation.
“Sua organização identificou ameaças e vulnerabilidades LLM específicas que não são bem caracterizadas por taxonomias anteriores (cf., “OWASP Top 10 for LLM”)? Em caso afirmativo, forneça descrições específicas de cada ameaça e/ou vulnerabilidade e seus impactos”
Na semana passada, o professor da UC Berkeley, Dr. Stuart Russell, alertou o Comitê Judiciário do Senado sobre alguns dos riscos na lista dos 10 principais da OWASP, incluindo divulgação de informações confidenciais, excesso de confiança e roubo de modelos.
Por exemplo, Russell mencionou que você poderia estar abrindo mão de informações confidenciais apenas pelos tipos de perguntas que estava fazendo; e, em seguida, o chatbot poderia cuspir informações confidenciais ou proprietárias pertencentes a um concorrente.
“ Se você está em uma empresa […] e deseja que o sistema o ajude em alguma operação interna, você estará divulgando informações proprietárias da empresa para o chatbot para que ele lhe dê as respostas que deseja ,” Russell testemunhou.
“ Se essa informação estiver disponível para seus concorrentes simplesmente perguntando ao ChatGPT o que está acontecendo naquela empresa, isso seria terrível ”, acrescentou.
Se pegarmos o que Russell disse sobre divulgar informações da empresa e aplicá-lo à divulgação de informações de inteligência dos EUA, podemos começar a entender melhor por que a IARPA está divulgando seu RFI atual.
Mas também pode haver ameaças e vulnerabilidades potenciais que ainda não são conhecidas.
Como o ex-secretário de Defesa dos Estados Unidos, Donald Rumsfeld, fez a famosa piada: “Existem conhecidos conhecidos. Estas são coisas que sabemos que sabemos. Existem incógnitas conhecidas. Ou seja, há coisas que sabemos que não sabemos. Mas também existem incógnitas desconhecidas. Há coisas que não sabemos que não sabemos.”
Portanto, para a RFI atual, a IARPA está pedindo às organizações que respondam às seguintes perguntas:
Sua organização identificou ameaças e vulnerabilidades específicas de LLM que não são bem caracterizadas por taxonomias anteriores (consulte, “OWASP Top 10 for LLM”)? Em caso afirmativo, forneça descrições específicas de cada ameaça e/ou vulnerabilidade e seus impactos.
Sua organização possui uma estrutura para classificar e compreender a variedade de ameaças e/ou vulnerabilidades do LLM? Em caso afirmativo, descreva essa estrutura e articule brevemente cada ameaça e/ou vulnerabilidade e seus riscos.
Sua organização tem algum método novo para detectar ou mitigar ameaças aos usuários representadas por vulnerabilidades do LLM?
Sua organização possui novos métodos para quantificar a confiança nos resultados do LLM?
O principal ponto de contato para o RFI é o Dr. Timothy McKinnon, que também gerencia dois outros programas de pesquisa da IARPA: HIATUS e BETTER .
HIATUS [Atribuição Humana Interpretável de Texto Usando Estrutura Subjacente]: busca desenvolver novos sistemas de IA utilizáveis por humanos para atribuir autoria e proteger a privacidade do autor por meio da identificação e alavancagem de impressões digitais linguísticas explicáveis.
BETTER [Better Extraction from Text Towards Enhanced Retrieval]: visa desenvolver uma capacidade de fornecer extração de informações personalizadas de texto para um analista individual em vários idiomas e tópicos.
No ano passado, a IARPA anunciou que estava montando seu programa Rapid Explanation, Analysis and Sourcing ONline ( REASON ) “para desenvolver novos sistemas que geram comentários automaticamente, permitindo que os analistas de inteligência melhorem substancialmente as evidências e o raciocínio em seus relatórios analíticos”.
Além disso, “ REASON não foi projetado para substituir analistas, escrever relatórios completos ou aumentar sua carga de trabalho. A tecnologia funcionará dentro do fluxo de trabalho atual do analista.
“Ele funcionará da mesma maneira que um verificador gramatical automatizado, mas com foco em evidências e raciocínio”.
Então, em dezembro, a IARPA queria alavancar a IA generativa para ajudar os analistas a escrever relatórios de inteligência e, agora, em agosto, o braço de financiamento de pesquisa das agências de espionagem dos EUA está procurando ver quais riscos os grandes modelos de linguagem podem representar.
Este artigo foi originalmente publicado por Tim Hinchliffe no The Sociable.