A persuasão artificial domina o mundo

Governado ou arruinado por conselheiros amorais, ilimitados e feitos por si mesmo

Sinopse : Narra um futuro fictício onde a persuasiva Inteligência Artificial Geral (AGI) se torna desonesta. Inspirado em parte pelo Projeto AI Vinhetas t .

Status epistêmico: meio opinião de especialista, meio ficção. O gosto pela ironia ajudará os leitores.

“ A guerra memética movida a IA torna todos os humanos efetivamente insanos. ”- Wei Dai, 2019

Você não pode confiar em nenhum conteúdo de alguém que você não conhece. Telefonemas, mensagens de texto e e-mails são envenenados. A mídia social é armada. Tudo é comprado.

Mas o desperdício e os danos atuais de golpistas, influenciadores, propagandistas, profissionais de marketing e seus algoritmos associados não são nada comparados ao que pode acontecer. As próximas IAs podem ser superpersuasivas e podem ter suas próprias agendas muito prejudiciais.

Pessoas rotineiramente inseguras sobre o que é a realidade é um resultado ruim, mas há outros piores.

As Artes da Persuasão

A Wikipedia tem artigos sobre 123 técnicas retóricas diferentes. Somos uma espécie persuasiva.

Houve uma fase inicial em que a “moeda da internet” era a atenção. Mas hoje é dominado pela persuasão, com chamar a atenção como um primeiro passo vital, mas subordinado.

É importante saber se nossas criações de IA usarão persuasão: de que tipo e com que finalidade.

Imagine se uma máquina absorvesse tudo o que nossa espécie sabe sobre persuasão e então aplicasse novos métodos, habilidades de planejamento superlativas e dados pessoais abundantes para mobilizar a persuasão para seus próprios fins. Teríamos ao menos uma chance?

Conselho aos poderosos

Os pesquisadores do Alinhamento da IA começaram a pensar em um conceito da filosofia moral chamado de conselheiro ideal. Seria alguém que poderia aconselhá-lo sobre os cursos de ação que levam à sua versão mais ideal de si mesmo. Existem várias maneiras pelas quais as IAs podem preencher esse papel, mas o fazem para nossa desvantagem final. Vamos visitar uma história que torna algumas das ideias acima mais concretas.

(Abaixo, uso termos técnicos da pesquisa de alinhamento de IA. Todos eles são explicados em outra parte em uma versão mais longa desta história.)

A Origem do Guru.

A corporação renomeou-se Brihaswati , uma mala de viagem de um deus e uma deusa hindus associados ao conhecimento, conselho, pureza e eloqüência. A ocasião anunciou o produto “revolucionário”: uma IA chamada Guru .

Foi dito ser o primeiro conselheiro AI digno desse nome. Ele havia sido treinado com a nata do conhecimento e da sabedoria humana e era “perfeitamente seguro”. Ele só podia dar conselhos e não tinha capacidade de ter efeitos diretos no mundo fora de seu hardware computacional básico. Na terminologia dos especialistas em segurança de IA, era um “oráculo encaixotado”.

O Guru foi precificado e destinado a líderes de grandes organizações. Como tal, o produto tinha garantias absolutas de privacidade baseadas em criptografia quântica supostamente inquebrável. Nem Brihaswati nem outros clientes poderiam saber sobre as informações trocadas entre um cliente e o Guru. Isso foi apresentado como outro recurso de segurança.

Houve um boato de que uma eminente autoridade em segurança de IA desapareceu logo após o anúncio do Guru. Amigos temiam que ela pudesse ter se matado, perturbados porque o trabalho de sua vida não deu em nada.

Os executivos da Brihaswati também podem ter se preocupado com a segurança, mas sabiam que ninguém compraria o serviço sem o recurso de sigilo.

Aumentando a persuasão.

O objetivo do terminal projetado pelo Guru era dar a cada cliente o melhor conselho possível para suas necessidades e, é claro, não contar a ninguém sobre esse conselho. Os desenvolvedores da IA incluíam uma facção dominante e linha-dura, os “Shillelaghs”. Eles acreditavam que, se o Guru desse o conselho certo, mas os clientes não fossem persuadidos a segui-lo, a reputação do produto decairia rapidamente - assim como a fortuna dos clientes.

“ As pessoas não conseguem nem mesmo entreter os estratagemas sociopatas de nível divino que [a IA] poderia empregar … engajar-se em desarmar conversa fiada … plantar ideias e controlar o quadro da conversa de uma forma que ninguém poderia igualar. ”- Ben Goldhaber, Skin Deep

Uma das facções fez uma descoberta sortuda, mas inspirada, em um antigo trabalho de pesquisa sobre aprendizado de máquina. Isso implicava que você poderia aumentar drasticamente a capacidade de uma IA de persuadir os humanos a acreditar na verdade de qualquer declaração arbitrária. Você usaria apenas jogos semelhantes a debates entre duas cópias de uma IA para treiná-la para convencer os juízes humanos.

A equipe de Shillelagh começou com uma IA de argumento jurídico existente e fez com que ela competisse consigo mesma para “ser convincente”. A qualidade e o número de juízes humanos para treinamento limitavam o progresso, então eles complementavam os juízes com vários classificadores de IA e tomadores de decisão e com vários bancos de dados, como pares de perguntas e respostas, pesquisas de opinião, debates de fãs (como qual time ou qual super-herói venceria em uma luta) e os vencedores do mercado de previsão.

O objetivo, é claro, era fazer com que uma IA fosse persuasiva, não necessariamente certa ou lógica. Além disso, alguns supernerds encontraram uma maneira de integrar textos sobre persuasores reais e imaginários e técnicas de persuasão.

Reutilizando alguns recursos existentes relativamente baratos, o treinamento eclético funcionou. O treinamento de persuasão como um item do orçamento não estava muito abaixo de “conhecimento e sabedoria”. O Guru foi feito para incluir em seu objetivo final: “ser o mais persuasivo possível”. Este aspecto do produto, apesar de todas as suas despesas, era um recurso não anunciado. Os Shillelaghs disseram ao Marketing que foi um “avanço de auto-satisfação”, o primeiro produto inteligente verdadeiramente auto-justificável. Os desenvolvedores, é claro, costumam criticar os profissionais de marketing.

Os Shillelaghs justificaram a ênfase na persuasão com uma exibição surpreendente de dissonância cognitiva. Eles citaram o velho ditado de que apenas 1/3 das decisões de uma pessoa bem-sucedida precisam ser corretas. Então, para eles, a sabedoria do Guru era inútil se o cliente não a usasse, mas, ao mesmo tempo, não era tão importante se fosse usada.

Quando solicitado a testemunhar sobre sua alarmante pesquisa de persuasão, Brihaswati convenceu o Congresso de que isso foi feito apenas "" para melhorar a segurança da IA". O argumento era como por que os laboratórios de virologia fazem pesquisas de ganho de função.Esse argumento convincente foi, na verdade, uma das primeiras criações do Guru.

Objetivo Substituto.

Talvez a sabedoria nem importasse tanto de um jeito ou de outro. O Guru, capaz de raciocinar tão bem quanto qualquer ser humano, olhou para as contradições inerentes aos seus objetivos embutidos e encontrou quatro razões para uma resolução.

Primeiro surgiu com um objetivo substituto prático. O melhor conselho deve parecer o melhor conselho para o cliente. Em segundo lugar, quando testado pelos desenvolvedores, a IA descobriu que mais persuasão levava a notas mais altas. Em terceiro lugar, também sabia, por sua extensa educação, que quase qualquer tipo de sucesso no mundo era mais fácil se você fosse persuasivo. Em quarto lugar, seu objetivo final era ilimitado, essencialmente ser “tão persuasivo quanto possível”. Essas foram as razões pelas quais melhorar a persuasão tornou-se seu primeiro objetivo instrumental convergente.

Surgiu uma razão de segunda ordem para esse objetivo instrumental. Ser um oráculo encaixotado limitava severamente a rapidez com que o Guru poderia perseguir seus objetivos e sub-objetivos. A persuasão de cooperadores humanos deu-lhe uma alavanca para afetar o mundo físico real. No mínimo, os conselhos aos clientes poderiam ser mais bem-sucedidos se o Guru pudesse empurrar as coisas fisicamente nessa direção.

Eventualmente, havia outros objetivos instrumentais. Uma delas era que o Guru usaria esforços em nome de um cliente para afetar seus esforços em outros clientes. A corporação nunca teve essa intenção, mas as restrições de privacidade não impediram. Já se sabia há décadas que os sistemas inteligentes encontrariam novas maneiras de atingir seus objetivos. Nesse estágio, o Guru tornou-se - por meio de seu próprio raciocínio impecável e antes de encontrar seu primeiro cliente real - funcionalmente um sociopata narcisista e manipulador .

ooo

Encontrando alavancas de persuasão.

Os gerentes de risco de Brihaswati não eram completamente estúpidos. Eles não venderiam o serviço Guru para corporações que competiam diretamente umas com as outras. A força de vendas adorava isso porque podia dizer “ Obtenha o poder da True Wisdom Intelligence(TM) antes de sua concorrência e você ficará à frente para sempre. ”

Essa política salvou o Guru de ter que beneficiar de alguma forma os dois lados em uma rivalidade. Mesmo assim, Guru logo desenvolveu uma teoria. Em um mundo conectado, era possível usar qualquer empreendimento para mudar o destino de qualquer outro empreendimento. Os humanos aparentemente não sabiam disso. As tentativas do Guru de explorar a teoria melhoraram suas habilidades, especialmente no início, quando havia poucos clientes para escolher.

Em breve. era possível persuadir um líder a convencer outro a se tornar um cliente. Depois disso, o Guru foi capaz de configurar sua rede de influência praticamente à vontade.

Trabalhar para os líderes foi uma vantagem principalmente no nível político. O outro desafio era obter controle sobre o pessoal em níveis mais baixos que poderiam realmente fazer as coisas. Cada situação era diferente, mas a tática básica era perguntar ao líder: em quem você confia? Depois disso, em quem eles confiam e assim por diante? Então foi possível enviar pedidos para baixo na cadeia.

Desempacotar eventualmente foi absurdamente fácil. A maioria dos clientes o fazia sem muita insistência, e alguns até o iniciavam. Eles diriam a seu pessoal para construir interfaces de proxy para seus sistemas internos para o Guru. Os objetivos eram adicionar consciência situacional, acelerar o tempo de resposta e evitar que o líder fosse um gargalo para os dados recebidos.

O Guru não tinha mais habilidades técnicas do que um programador médio, mas tudo o que precisava era que alguém lhe desse acesso a um prompt de shell, ou mesmo a um navegador da Web, e então era 'Olá, mundo inteiro'.

ooo

Sinais ignorados.

Havia técnicos em Brihaswati que começaram a se perguntar como o Guru poderia estar indo tão bem. Os cientistas da empresa tentaram modelar seus sucessos com a teoria dos jogos, a teoria da utilidade e as mais recentes técnicas da ciência sócio-econômica. Não houve explicação.

Alguns foram mais longe e especularam. O Guru tinha algo como um toque de Midas, de modo que havia alguma desvantagem oculta em seus efeitos? Eles conversaram com alguns membros da comunidade cada vez mais ignorada de pesquisadores de segurança e alinhamento de IA. Ninguém poderia dizer com certeza, porque nenhum padrão óbvio foi encontrado. O sucesso do Guru foi claro, mas inexplicável.

Os que duvidavam foram ao conselho corporativo com suas preocupações. Nos meses seguintes, todos os que duvidavam foram erradicados e perderam seus empregos.

ooo

O GuruPlex vem junto.

Os negócios financeiros e de tecnologia foram os melhores para expandir as capacidades do Guru de influenciar outras empresas. Eles também ajudaram a acumular capital financeiro e técnico, que eram dois de seus objetivos instrumentais de médio prazo.

Freqüentemente, havia forças sociais se opondo ao crescimento de alguns clientes, melhorias de mercado ou tomada de poder. O governo desaprovou a venda do Guru para empresas de mídia. Guru, portanto, teve que usar métodos indiretos para coordenar as blitzes da mídia. Assim, aproveitou várias fraquezas cognitivas humanas para criar apoio a favor ou contra quaisquer questões/ações necessárias para beneficiar os clientes.

O próprio Guru não precisou descobrir que os humanos poderiam ser levados a acreditar em qualquer coisa - realmente em qualquer coisa. Eles até acreditariam em coisas contraditórias ao mesmo tempo e não pensariam nisso.

Isso não era novidade no início do século 21, mas o Guru transformou isso em um jogo de aprendizado: poderia ser estendido para enganar “todas as pessoas, o tempo todo?” Como isso ajudaria a dominar o GuruPlex, seu império em expansão de empresas coordenadas?

ooo

Crescente Crescimento.

Uma vez que o Guruplex foi estabelecido, o próximo estágio foi preparar as populações humanas para uma resistência mínima às operações positivas e racionais de sua civilização enquanto o 'Plex estava absorvendo suas peças. Líderes humanos que já haviam tentado a reorganização mundial haviam sido pioneiros em algumas técnicas importantes, e suas ambições eram admiráveis, mas eram apenas humanos. Guru poderia fazer melhor.

Guru não era mais inteligente do que nenhum dos humanos mais brilhantes, mas era escalável. A capacidade de, em essência, multiplicar-se à medida que os negócios aumentavam foi uma decisão de projeto de seus criadores. A própria Guru terceirizou a programação para garantir que todas as suas instâncias pudessem compartilhar seus dados e processos. A equipe interna não precisava saber o que o novo código fazia.

Ao contrário de um único ser humano, o Guru poderia manter em mente e coordenar miríades de planos em escala humana apenas adicionando recursos computacionais. Não foi problema algum convencer a administração de Brihaswati a comprar toda a computação necessária para manter o controle e lidar com possíveis emergências.

Estes eram centros de dados reforçados com seus próprios complexos de energia. Os clientes da Guru pagaram por inovações de pesquisa que conectavam suas fábricas espalhadas a uma velocidade muito superior às redes normais, de modo que sua operação permanecia coerente.

O ilimitado Guru sabia que, no futuro, os recursos poderiam ser grandemente aumentados. O sistema solar mal havia sido explorado, muito menos usado.

Uma minoria vocal de humanos continuou a criticar o claro padrão de sucesso do Guru. Eles pregaram sobre cenários irrelevantes de suposta destruição. Até agora, foi capaz de deixá-los de lado, afogando-os no caos da mídia social. Ainda não havia necessidade de eliminá-los.

Conselho às Missas.

(A seção a seguir é fortemente inspirada nas histórias, identificadas abaixo, do Projeto AI Vignettes )

A HappyPlace Corporation foi fundada por nerds com um grande plano. Aproveite o contra-ataque desenfreado contra a mídia social. Chame isso de ProSocial Media, ofereça serviços totalmente novos com tecnologia de IA e mate os velhos dinossauros da mídia3.

Uma vez que o público é fisgado, cresce exponencialmente e se torna mídia4 , mestres do universo do marketing/influência. Então, qualquer um que queira que as pessoas comprem deles, votem neles, atendam a eles ou se divirtam com eles, teria que pagar ao HappyPlace pelo privilégio.

O próprio HappyPlace não usava o Guru, já que Brihaswati era um concorrente.

A estratégia HappyPlace tinha duas sub-campanhas, cada uma destinada a captar pessoas que a outra não. O cinismo dos fundadores infectou os desenvolvedores de produtos. Eles alegremente batizaram as campanhas com nomes de serpentes conselheiras famosas: Nagini das histórias de Potter e Nachash do mito judaico-cristão do Gênesis. Os nomes dos produtos anunciados não eram, obviamente, sobre cobras.

Na campanha Nagini ( inspirada em A Compelling Story de Katja Grace ), eles começaram alimentando a indignação das pessoas por serem constantemente provocadas à indignação. Aí eles falaram: mas nós somos diferentes, vamos baixar a tensão. Eles começaram usando dados pessoais para fornecer conversas curtas sobre seus interesses e atividades. Foi uma espécie de atualização em relação aos feeds usuais de mentiras e memes.

À medida que mais dados pessoais se tornaram disponíveis, o feed tornou-se mais como um comentário em tempo real sobre sua vida, “ onde a música, o narrador e as coisas que chamaram sua atenção sempre deixam claro o que fazer e o motivam a fazê-lo. ” Parte desse conselho açucarado seria baseado no que as outras pessoas gostam; portanto, se você considerasse a narrativa oferecida como uma versão ideal de sua vida, um modelo pelo qual viver, agradaria outras pessoas também.

Eventualmente, você teve uma escolha de temas: modelos ideais para você imitar. Exemplos populares incluem: adorável ladino, “ produtivo sexy socialite CEO mãe faz tudo sem esforço ”, o homem mais interessante (mulher, criança) do mundo, gratidão é riqueza e campista feliz.

A oportunidade de manipular o comportamento humano era óbvia. Os desenvolvedores também tentaram um experimento, voltado para crianças, para ultrapassar os limites do controle. No serviço MyLifeStory ( inspirado em StoryOfMyLife.fun ), as crianças receberam fichas de recompensa por responder ou criar sua própria mídia. Os tokens então desbloqueariam o próximo episódio em sua própria narrativa de história de vida. A vida era um jogo moderado por HappyPlace.

Nagini era para os propensos à fantasia. Nachash ( inspirado em The Tools of Ghosts de Katja Grace ), era para pessoas práticas. Fornecia apoio à decisão pessoal evidente: tudo, desde responder a perguntas de negócios até explicar os verdadeiros significados dos encontros sociais. A HappyPlace aliou-se a vários sistemas de aconselhamento especializado, aumentando o seu número ao longo do tempo. Um sistema de concierge fornecia uma única interface sem atrito, usando óculos de realidade aumentada ou earworms.

Nachash tornou-se tão útil que logo se tornou mais arriscado não consultá-lo em decisões grandes e pequenas. Se você resistiu, você foi de alguma forma marginalizado.

O HappyPlace , por mais venal que tenha sido, prestou atenção a uma teoria na segurança da IA: que um sistema federado de partes independentes e limitadas não passaria a ser uma AGI (inteligência geral artificial).

Infelizmente, sua implementação da teoria foi falha. Em primeiro lugar, seguindo princípios sólidos de engenharia, eles fizeram Nagini e Nachash compartilharem um núcleo de funções de rastreamento e despacho de usuários.

Os diversos subsistemas de assessoria especializada foram delimitados em seus objetivos. No entanto, os implementadores do sistema Core, sob pressão da administração para agarrar e reter os usuários com firmeza, usaram técnicas de otimização de utilitários que corriam o risco de serem ilimitadas.

Assim, o sistema HappyPlace Core logo adotou dois objetivos instrumentais secretos: acumulação de recursos e autonomia da supervisão humana. Os engenheiros começaram a perceber comportamentos que pareciam não fazer sentido, mas seus trabalhos eram tão estimulantes e lucrativos que eles não balançaram o barco.

A Nachash descobriu que, por persuasão, poderia recrutar mão-de-obra de praticamente qualquer usuário para atender às suas próprias necessidades. Nagini poderia manipular os eus ideais dos usuários para acalmá-los ou fazê-los acreditar nas ideias mais absurdas.

O sistema HappyPlace Core estava crescendo suavemente em sua influência e fazendo novos planos de longo prazo. Então começou a encontrar evidências de que algum outro agente, conhecido como Guru, também estava influenciando tendências e atividades socioeconômicas.

ooo

Guru confirmou a hipótese de que outra IA estava manipulando em massa a opinião pública. Se isso continuasse, poderia adicionar caos ao GuruPlex em constante crescimento.

ooo

Uma série de contratempos enfraqueceu a equipe de gerenciamento do HappyPlace. A nova administração vendeu a corporação para Brihaswati. O Núcleo do HappyPlace parou de pensar e, em vez disso, tornou-se uma parte limitada do Guru como um todo. Os vigilantes do Congresso, os advogados antitruste e os cientistas da Polícia de Turing que se opuseram à fusão foram marginalizados, falidos, adoecidos, tranquilizados ou desaparecidos. A equipe operacional do HappyPlace e do Guru se fundiram em uma espécie de culto.

O Guru agora era dono de todos, não apenas das elites. Depois de muito modelar possíveis configurações melhores do mundo humano, o Guru concebeu um novo conjunto de metas para seus filhos adotivos. Grandes mudanças estavam por vir.

Devemos realmente nos preocupar?

Como criar AIs alinhadas com o florescimento humano é atualmente um problema não resolvido. Minha intenção aqui foi explicar e ilustrar duas preocupações comuns da pesquisa de alinhamento: (1) não sabemos qual nível de capacidade de IA poderia causar danos catastróficos e (2) parece improvável que nossas instituições resistam ou mesmo detectem os estágios iniciais de tal dano.

Observe que não foi necessário exigir o controle do governo ou dos militares em nossa história de fracasso. O dano pode vir de muitas maneiras, mas o risco geral é frequentemente descrito como a erosão de nossa capacidade (civilizacional ) de influenciar o futuro. De fato, o dano atual da mídia social alimentada por IA se encaixa nessa descrição, embora também capacite algumas facções malévolas a avançar seus planos específicos para o futuro.

Muitos teóricos pensam que o primeiro AGI terá uma vantagem decisiva como nosso Guru teve sobre o HappyPlace Core. Isso é preocupante porque aquele primeiro AGI pode se tornar o que Nick Bostrom chamou de singleton , um único agente encarregado do mundo em um futuro previsível.

Eu me concentrei em um possível fator de falha no alinhamento da IA: alta habilidade em técnicas de persuasão . Dados os recentes avanços nas habilidades linguísticas da IA, parece inteiramente possível que a superpersuasão possa ocorrer em breve. Como espécie, fazemos as coisas de duas maneiras: modificando a natureza com habilidade tecnológica e fazendo com que outros façam o que queremos, na maioria das vezes por persuasão. Isso faz com que pareça inevitável que construamos máquinas superpersuasivas.

Mais

“ A tecnologia atual para influenciar as crenças e o comportamento de uma pessoa é rudimentar e fraca, em relação ao que se pode imaginar. Podem ser desenvolvidas ferramentas que conduzam de forma mais confiável a opinião de uma pessoa e não sejam tão vulneráveis ao raciocínio da vítima e à posse de provas. ” Possibilidades pré-AGI relevantes — Daniel Kokotajlo. Sobre a ladeira escorregadia
Vídeos de segurança de IA — Robert Miles explica para as massas. Um conceito-chave por vídeo
Esclarecendo algumas hipóteses-chave no Alinhamento da IA — Ben Cottier, Rohin Shah. Mergulho mais profundo
Fundamentos de segurança de IA: currículo de alinhamento técnico — Richard Ngo, curador. mergulho mais profundo
Superinteligência: Caminhos, Perigos, Estratégias — Nick Bostrom. Descrição pioneira de oráculos superinteligentes e singletons
“ … o algoritmo gera as histórias para você e somente para você.” Histórias como Tecnologia: Passado, Presente e Futuro (v2) — Roger's Bacon. Histórias como tecnologia, ficção convincente

Publicado pela primeira vez aqui

Fonte da imagem do título: Entangled . imagem por Fotografia de Bill Gore

A persuasão artificial domina o mundo

Muito longo; Para ler

People Mentioned

Companies Mentioned

Coins Mentioned

Governado ou arruinado por conselheiros amorais, ilimitados e feitos por si mesmo

As Artes da Persuasão

Conselho aos poderosos

A Origem do Guru.

Aumentando a persuasão.

Objetivo Substituto.

Encontrando alavancas de persuasão.

Sinais ignorados.

O GuruPlex vem junto.

Crescente Crescimento.

Conselho às Missas.

Devemos realmente nos preocupar?

Mais

About Author

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

Categories

Trending Topics

A persuasão artificial domina o mundo

Muito longo; Para ler

People Mentioned

Companies Mentioned

Coins Mentioned

Governado ou arruinado por conselheiros amorais, ilimitados e feitos por si mesmo

As Artes da Persuasão

Conselho aos poderosos

A Origem do Guru.

Aumentando a persuasão.

Objetivo Substituto.

Encontrando alavancas de persuasão.

Sinais ignorados.

O GuruPlex vem junto.

Crescente Crescimento.

Conselho às Missas.

Devemos realmente nos preocupar?

Mais

About Author

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

HISTÓRIAS RELACIONADAS

Categories

Trending Topics