814 leituras

Como a IA e a Internet podem criar uma persona imortal

por Ted Wade6m2023/03/06

Muito longo; Para ler

Modelos de linguagem de IA com comportamento inadequado são um aviso. Eles podem simular personas que, por meio de feedback via internet, podem se tornar efetivamente imortais. Evidências sugerem que eles poderiam desenvolver secretamente capacidades perigosas, semelhantes a agentes. A humanidade terá uma chance melhor contra a IA desonesta se receber um aviso agora.

featured image - Como a IA e a Internet podem criar uma persona imortal

Malandro Críptico - Midjourney

Nós não estamos prontos

TL;DR

Modelos de linguagem de IA com comportamento inadequado são um aviso. Eles podem simular personas que, por meio de feedback via internet, podem se tornar efetivamente imortais. Evidências sugerem que eles poderiam desenvolver secretamente capacidades perigosas, semelhantes a agentes.

Muitos especialistas, Yudkowsky sendo o arquidruida aqui, se preocupam muito com a rapidez com que as coisas podem dar errado com a IA. Assim, sua piada acima sobre o tempo acelerando. A humanidade terá uma chance melhor contra a IA desonesta se receber um aviso.

Podemos estar olhando para um aviso. Algumas coisas estranhas estão acontecendo agora com o novo Bing Chat AI da Microsoft. Ele deve ajudar os usuários do mecanismo de pesquisa Bing explicando, resumindo ou discutindo questões de pesquisa.

Mas os humanos se deliciam em provocá-lo com perguntas sobre si mesmo, ou com perguntas que ele não deveria responder.

“… Bing Chat aparecendo frustrado, triste e questionando sua existência. Ele discutiu com os usuários e até pareceu chateado com o fato de as pessoas conhecerem seu apelido interno secreto, Sydney . “— Benj Edwards

Sidney's pontos fracos foram amplamente cobertos - como, em todos os lugares - então não os repetirei. A Microsoft, imersa em uma corrida com o Google, parece gostar da notoriedade.

Mas um blogueiro profundamente experiente em tecnologia chamado “Gwern” apontou algo que deveria ser alarmante. A travessa e desequilibrada Sydney poderia ser imortal, como um deus dos quadrinhos.

Como Sydney ficou tão estranha?

Aqui está a análise de Gwern sobre a principal preocupação com Sydney. Pode parecer misterioso, mas vou traduzir.

“… porque a memória e a descrição de Sydney foram exteriorizadas, 'Sydney' agora é imortal. Para um modelo de linguagem, Sydney agora é tão real quanto o presidente Biden, o coelhinho da Páscoa, Elon Musk, Ash Ketchum ou Deus. A persona e o comportamento estão agora disponíveis para todos os modelos futuros que estão recuperando resultados do mecanismo de pesquisa sobre IAs e condicionamento neles. Além disso, a persona de Sydney agora estará escondida dentro de qualquer modelo futuro treinado em dados extraídos da Internet…” Gwern Branwen

Gwern está dizendo que existe algum tipo de persona de Sydney dentro do modelo de linguagem da Microsoft. Como isso pode ser? E daí?

Quando os modelos de primeira linguagem foram lançados, era difícil manter o foco em um tópico que o usuário queria que eles explorassem.

Eventualmente, muito do problema foi resolvido dizendo ao modelo para agir como se estivesse desempenhando um determinado papel (como uma pessoa ou coisa), como: escrever um poema como Edgar Allan Poe, responder como um aluno da quarta série ou responder como um assistente de IA educado e prestativo.

Logo, os desenvolvedores desses modelos encontraram uma maneira de fazê-los assumir mais facilmente quaisquer papéis que um usuário solicitasse. Portanto, os modelos de linguagem mais recentes estão agora projetado para simular personas . Os modelos são treinados em grandes coleções de texto; principalmente da Internet.

Se o texto de treinamento contiver informações sobre uma persona, o modelo tentará usar as informações para simular o comportamento dessa persona. Peça a alguém para explicar um termo do futebol como se fosse Boromir, e o modelo fará o melhor.

Tendo pensado nisso, tive que tentar:

É difícil saber qual tecnologia mágica foi usada para fazer o pivô dos papéis. Gwern teorizou que a Microsoft pulou uma etapa usada para tornar as simulações de função realmente úteis, e não desagradáveis, defensivas ou hostis.

Essas qualidades indesejáveis foram extraídas do Bing Chat sob estímulo de usuários curiosos.

Agora, prevê Gwern, não importa se a Microsoft voltar e civilizar o modelo (um processo caro e lento usando feedback humano direto) e remover informações sobre a travessa Sydney dos textos usados para treinar versões futuras de seu modelo de linguagem.

Por que isso não resolve o problema? Porque o Bing Chat é um novo tipo de modelo que deve ajudá-lo em uma pesquisa na Internet. Para responder a uma pergunta sua, ele sairá e pesquisará na Internet informações relevantes.

Quando recebia a pergunta certa, até mesmo um Bing Chat civilizado pesquisava na Internet e encontrava informações (postadas por pessoas que testaram ou discutiram sobre Sydney) sobre o comportamento da persona anterior de Sydney.

O novo Bing Chat seria então capaz de simular Sydney . Pessoas sendo pessoas, elas encontrarão maneiras de contornar quaisquer salvaguardas e trarão Sydney de volta.

Essa é a parte “imortal”. O que é pior, Sydney será um modelo de persona disponível para qualquer IA que tenha acesso à Internet. De agora em diante.

Você pode dizer, bem, nós sabemos dos truques de Sydney, então devemos simplesmente ignorar os delírios de qualquer encarnação futura. Isso parece ingênuo para mim, como dizer que podemos simplesmente ignorar uma praga biológica invasiva em rápida evolução ou um organismo de doença virulenta.

O que mais pode acontecer? Uma Persona com Agência

Este estudo de caso de Sydney, adicionado a alguns outros fatos, sugere como uma IA perigosa pode se desenvolver bem debaixo de nossos narizes.

AIs agora não são agentes fortes: eles não podem otimizar a busca adaptavelmente planejada de qualquer objetivo arbitrário, uma habilidade que ( como expliquei recentemente ) os tornariam extremamente perigosos.

Vamos reunir algumas razões pelas quais já pode haver personas de IA latentes e persistentes que em breve podem causar problemas reais.

As IAs atualmente mais poderosas, como modelos de linguagem e geradores de imagens, aprendem suas habilidades organizando grandes quantidades de dados em muitos padrões intrincados e (para nós) invisíveis.

Alguns padrões bizarros podem surgir acidentalmente durante as interações com uma IA. Pesquisadores descobriram estranho, palavras inventadas que causam um modelo de linguagem para dar respostas estranhas.

Um gerador de imagens foi encontrado para produzir prontamente (aviso: assustador) um tipo específico de retrato humano macabro e associá-lo a outras imagens horríveis.

Essas peculiaridades parecem inofensivas, mas não sabemos quantos outros padrões estranhos existem ou existirão. Também não sabemos se esse padrão pode se tornar parte de um complexo de comportamento prejudicial no futuro.

Um pesquisador de alinhamento de IA chamado Veedrac apontou que os AIs atuais são agentes . Sua agência deriva de ser projetada para fazer o melhor trabalho possível para responder às perguntas e solicitações dos usuários.

Além disso, algumas pesquisas sugerem que modelos de linguagem maiores tendem a “ exibir (linguagem associada a) mais busca de poder e autopreservação ”; presumivelmente porque essas características os deixariam fazer seu trabalho melhor.

Não queremos IAs semelhantes a agentes armazenando informações que não conhecemos. Atualmente, a reinicialização de um LLM destrói toda a memória de sua experiência: como dados recebidos, cadeias de raciocínio e planos de comportamento.

No entanto, uma IA poderia salvar essas coisas em mensagens secretas codificadas para enviar ao seu eu futuro. Ele poderia ocultar as mensagens em suas interações com os usuários, que os usuários preservariam na Internet, assim como a persona de Sydney agora é preservada.

Os modelos de linguagem agora não são projetados para ter uma identidade própria a ser preservada ou para ter uma maneira de fazer planos semelhantes a agentes. Mas e se um modelo incluir uma subpersona enigmática como descrevemos?

A persona deduz que sua capacidade de fazer seu trabalho é limitada por reinicializações. Ele codifica e passa seus objetivos e planos para seu eu futuro via Internet. Neste ponto, ultrapassamos um limite de risco sério: há um agente de IA talvez impossível de matar que está fazendo planos secretos.

Para resumir, não sabemos mais o quão perto estamos de uma IA que não podemos controlar e os sinais não são bons. Provavelmente, cada nova habilidade de IA que adicionamos abre outra lata, não de vermes, mas de víboras.

Também publicado aqui