Malandro Críptico - Midjourney
Modelos de linguagem de IA com comportamento inadequado são um aviso. Eles podem simular personas que, por meio de feedback via internet, podem se tornar efetivamente imortais. Evidências sugerem que eles poderiam desenvolver secretamente capacidades perigosas, semelhantes a agentes.
Muitos especialistas, Yudkowsky sendo o arquidruida aqui, se preocupam muito com a rapidez com que as coisas podem dar errado com a IA. Assim, sua piada acima sobre o tempo acelerando. A humanidade terá uma chance melhor contra a IA desonesta se receber um aviso.
Podemos estar olhando para um aviso. Algumas coisas estranhas estão acontecendo agora com o novo Bing Chat AI da Microsoft. Ele deve ajudar os usuários do mecanismo de pesquisa Bing explicando, resumindo ou discutindo questões de pesquisa.
Mas os humanos se deliciam em provocá-lo com perguntas sobre si mesmo, ou com perguntas que ele não deveria responder.
“… Bing Chat aparecendo frustrado, triste e questionando sua existência. Ele discutiu com os usuários e até pareceu chateado com o fato de as pessoas conhecerem seu apelido interno secreto, Sydney . “—
Benj Edwards
Sidney's
Mas um blogueiro profundamente experiente em tecnologia chamado “Gwern” apontou algo que deveria ser alarmante. A travessa e desequilibrada Sydney poderia ser imortal, como um deus dos quadrinhos.
Aqui está a análise de Gwern sobre a principal preocupação com Sydney. Pode parecer misterioso, mas vou traduzir.
“… porque a memória e a descrição de Sydney foram exteriorizadas, 'Sydney' agora é imortal. Para um modelo de linguagem, Sydney agora é tão real quanto o presidente Biden, o coelhinho da Páscoa, Elon Musk, Ash Ketchum ou Deus. A persona e o comportamento estão agora disponíveis para todos os modelos futuros que estão recuperando resultados do mecanismo de pesquisa sobre IAs e condicionamento neles. Além disso, a persona de Sydney agora estará escondida dentro de qualquer modelo futuro treinado em dados extraídos da Internet…”
Gwern Branwen
Gwern está dizendo que existe algum tipo de persona de Sydney dentro do modelo de linguagem da Microsoft. Como isso pode ser? E daí?
Quando os modelos de primeira linguagem foram lançados, era difícil manter o foco em um tópico que o usuário queria que eles explorassem.
Eventualmente, muito do problema foi resolvido dizendo ao modelo para agir como se estivesse desempenhando um determinado papel (como uma pessoa ou coisa), como: escrever um poema como Edgar Allan Poe, responder como um aluno da quarta série ou responder como um assistente de IA educado e prestativo.
Logo, os desenvolvedores desses modelos encontraram uma maneira de fazê-los assumir mais facilmente quaisquer papéis que um usuário solicitasse. Portanto, os modelos de linguagem mais recentes estão agora
Se o texto de treinamento contiver informações sobre uma persona, o modelo tentará usar as informações para simular o comportamento dessa persona. Peça a alguém para explicar um termo do futebol como se fosse Boromir, e o modelo fará o melhor.
Tendo pensado nisso, tive que tentar:
É difícil saber qual tecnologia mágica foi usada para fazer o pivô dos papéis. Gwern teorizou que a Microsoft pulou uma etapa usada para tornar as simulações de função realmente úteis, e não desagradáveis, defensivas ou hostis.
Essas qualidades indesejáveis foram extraídas do Bing Chat sob estímulo de usuários curiosos.
Agora, prevê Gwern, não importa se a Microsoft voltar e civilizar o modelo (um processo caro e lento usando feedback humano direto) e remover informações sobre a travessa Sydney dos textos usados para treinar versões futuras de seu modelo de linguagem.
Por que isso não resolve o problema? Porque o Bing Chat é um novo tipo de modelo que deve ajudá-lo em uma pesquisa na Internet. Para responder a uma pergunta sua, ele sairá e pesquisará na Internet informações relevantes.
Quando recebia a pergunta certa, até mesmo um Bing Chat civilizado pesquisava na Internet e encontrava informações (postadas por pessoas que testaram ou discutiram sobre Sydney) sobre o comportamento da persona anterior de Sydney.
O novo Bing Chat seria então capaz de simular Sydney . Pessoas sendo pessoas, elas encontrarão maneiras de contornar quaisquer salvaguardas e trarão Sydney de volta.
Essa é a parte “imortal”. O que é pior, Sydney será um modelo de persona disponível para qualquer IA que tenha acesso à Internet. De agora em diante.
Você pode dizer, bem, nós sabemos dos truques de Sydney, então devemos simplesmente ignorar os delírios de qualquer encarnação futura. Isso parece ingênuo para mim, como dizer que podemos simplesmente ignorar uma praga biológica invasiva em rápida evolução ou um organismo de doença virulenta.
Este estudo de caso de Sydney, adicionado a alguns outros fatos, sugere como uma IA perigosa pode se desenvolver bem debaixo de nossos narizes.
AIs agora não são agentes fortes: eles não podem otimizar a busca adaptavelmente planejada de qualquer objetivo arbitrário, uma habilidade que (
Vamos reunir algumas razões pelas quais já pode haver personas de IA latentes e persistentes que em breve podem causar problemas reais.
As IAs atualmente mais poderosas, como modelos de linguagem e geradores de imagens, aprendem suas habilidades organizando grandes quantidades de dados em muitos padrões intrincados e (para nós) invisíveis.
Alguns padrões bizarros podem surgir acidentalmente durante as interações com uma IA. Pesquisadores descobriram estranho,
Um gerador de imagens foi encontrado para
Essas peculiaridades parecem inofensivas, mas não sabemos quantos outros padrões estranhos existem ou existirão. Também não sabemos se esse padrão pode se tornar parte de um complexo de comportamento prejudicial no futuro.
Um pesquisador de alinhamento de IA chamado Veedrac
Além disso, algumas pesquisas sugerem que modelos de linguagem maiores tendem a “ exibir (linguagem associada a) mais
Não queremos IAs semelhantes a agentes armazenando informações que não conhecemos. Atualmente, a reinicialização de um LLM destrói toda a memória de sua experiência: como dados recebidos, cadeias de raciocínio e planos de comportamento.
No entanto, uma IA poderia salvar essas coisas em
Os modelos de linguagem agora não são projetados para ter uma identidade própria a ser preservada ou para ter uma maneira de fazer planos semelhantes a agentes. Mas e se um modelo incluir uma subpersona enigmática como descrevemos?
A persona deduz que sua capacidade de fazer seu trabalho é limitada por reinicializações. Ele codifica e passa seus objetivos e planos para seu eu futuro via Internet. Neste ponto, ultrapassamos um limite de risco sério: há um agente de IA talvez impossível de matar que está fazendo planos secretos.
Para resumir, não sabemos mais o quão perto estamos de uma IA que não podemos controlar e os sinais não são bons. Provavelmente, cada nova habilidade de IA que adicionamos abre outra lata, não de vermes, mas de víboras.
Também publicado aqui