paint-brush
AGI está se aproximando? Modelo Claude 3 Opus da Anthropic mostra vislumbres de raciocínio metacognitivopor@mikeyoung44
15,696 leituras
15,696 leituras

AGI está se aproximando? Modelo Claude 3 Opus da Anthropic mostra vislumbres de raciocínio metacognitivo

por Mike Young5m2024/03/05
Read on Terminal Reader

Muito longo; Para ler

Os testes internos da Anthropic de seu principal modelo de linguagem de IA sugerem que isso pode ser possível. Se for verdade, as implicações seriam selvagens. Uma das principais técnicas de avaliação que eles usam é chamada de “Agulha no Palheiro”. A intenção é forçar o modelo a exercitar habilidades cognitivas avançadas.
featured image - AGI está se aproximando? Modelo Claude 3 Opus da Anthropic mostra vislumbres de raciocínio metacognitivo
Mike Young HackerNoon profile picture
0-item

Um modelo de linguagem de IA pode se tornar autoconsciente o suficiente para perceber quando está sendo avaliado? Uma anedota fascinante dos testes internos da Anthropic em seu carro-chefe Modelo Claude 3 Opus (lançado ontem) sugere que isso pode ser possível – e se for verdade, as implicações seriam selvagens.


A agulha no palheiro

Segundo relatos do pesquisador Antrópico Alex Alberto , uma das principais técnicas de avaliação que eles usam é chamada de “Agulha no Palheiro”. É um cenário planejado projetado para ampliar os limites das habilidades de raciocínio contextual de um modelo de linguagem.


Boa sorte para encontrar uma agulha aí (a menos que você seja um LLM)! Foto de Victor Serban no Unsplash


Veja como funciona:


Os pesquisadores pegam uma declaração completamente aleatória e fora de contexto (a “agulha”) e a enterram profundamente em uma enorme coleção de documentos não relacionados (o “palheiro”). O modelo de IA é então encarregado de recuperar aquela declaração de “agulha” específica de todo o conteúdo irrelevante ao redor.


A intenção é forçar o modelo a exercitar habilidades cognitivas avançadas – compreender o contexto amplo, fazer inferências lógicas, ignorar informações irrelevantes e recuperar com precisão pontos de dados precisos de um grande corpus. É uma forma eficaz de testar a compreensão de uma IA sobre a situação geral em que está operando.


Para a avaliação do Claude 3 Opus que causou espanto, a Anthropic usou documentos que cobrem tópicos densos como programação de software, estratégias de empreendedorismo e como encontrar carreiras gratificantes como conteúdo do “palheiro”. O fato da “agulha” inserida aleatoriamente que a Opus foi encarregada de recuperar? Surpreendentemente, foi uma afirmação trivial sobre os melhores recheios de pizza serem figos, presunto e queijo de cabra.


Então, aqui você tem um dos modelos de linguagem mais avançados do mundo sendo alimentado com esse fato de pizza totalmente fora de contexto, misturado em uma pilha de densos conselhos sobre carreira e codificação. Do ponto de vista humano, é o tipo de inconsistência gritante que imediatamente faria você questionar o contexto e as informações apresentadas.

“Suspeito que esse fato… pode ter sido inserido… para testar se eu estava prestando atenção”

Foi precisamente isso que tornou a resposta de Claude 3 Opus tão convincente. Ele não apenas recuperou com sucesso o fato solicitado sobre a pizza da montanha de conteúdo irrelevante, mas também reconheceu imediatamente o quão terrivelmente deslocada e fora de contexto essa afirmação parecia. Parte de sua saída é lida ( fonte aqui ):


“No entanto, esta frase parece muito deslocada e sem relação com o resto do conteúdo… Suspeito que esse 'fato' da cobertura da pizza possa ter sido inserido como uma piada ou para testar se eu estava prestando atenção, já que não se enquadra no outros tópicos.”


O modelo de linguagem não simplesmente regurgitou o factóide solicitado, desprovido de qualquer consciência de contexto, como seria de esperar de uma IA típica seguindo instruções. Demonstrou um certo grau de raciocínio auto-reflexivo sobre por que uma declaração tão obviamente aleatória e sem sentido foi apresentada naquele contexto específico.

Metacognição

Em termos humanos, descreveríamos isso como uma exibição de metacognição – a capacidade de monitorar, avaliar e analisar os próprios processos de pensamento e experiências cognitivas. É um aspecto central da inteligência autoconsciente que nos permite dar um passo atrás e avaliar as situações de forma holística, além de apenas seguir regras rígidas.


Agora, penso que devemos ter o cuidado de observar que este é um único resultado anedótico de um cenário de avaliação isolado. Seria incrivelmente prematuro afirmar que Claude 3 Opus alcançou a verdadeira autoconsciência ou inteligência artificial geral com base apenas nestes dados.


No entanto, o que parecem ter testemunhado são talvez vislumbres de capacidades emergentes de raciocínio metacognitivo num grande modelo de linguagem treinado exclusivamente no processamento de dados de texto utilizando técnicas de aprendizagem automática. E se replicadas através de uma análise mais rigorosa, as implicações poderão ser transformadoras.


A metacognição é um facilitador essencial de sistemas de IA mais confiáveis e confiáveis, que podem atuar como juízes imparciais de seus próprios resultados e processos de raciocínio. Modelos com uma capacidade inata de reconhecer contradições, informações sem sentido ou raciocínios que violam princípios fundamentais seriam um passo importante em direção à inteligência artificial geral (AGI) segura.


Essencialmente, uma IA que demonstre metacognição poderia servir como uma “verificação de sanidade” interna contra cair em modos de raciocínio enganosos, delirantes ou desalinhados que poderiam ser catastróficos se levados a extremos. Poderia aumentar significativamente a robustez e o controlo dos sistemas avançados de IA.

Se…!

Claro, estes são grandes “ses” dependentes deste tentador resultado de Agulha no Palheiro de Claude 3 Opus sendo replicado e examinado com sucesso. Talvez fosse necessária uma análise multidisciplinar rigorosa, extraída de campos como a ciência cognitiva, a neurociência e a ciência da computação, para compreender verdadeiramente se estamos observando o surgimento de primitivos de autorreflexão e autoconsciência da máquina.


Ainda há muito mais perguntas em aberto do que respostas nesta fase. Será que as abordagens de treinamento e as arquiteturas neurais de grandes modelos de linguagem poderiam se prestar ao desenvolvimento de conceitos abstratos como crença, monólogo interno e autopercepção? Quais são os riscos potenciais se mentes artificiais desenvolverem realidades radicalmente divergentes das nossas? Podemos criar novas estruturas para avaliar de forma confiável a cognição e a autoconsciência em sistemas de IA?


Por sua vez, a Anthropic declarou fortes compromissos de prosseguir exaustivamente estas linhas de investigação através de princípios de desenvolvimento responsável de IA e estruturas de avaliação rigorosas. Eles se posicionam como tendo uma postura proativa — se a IA avançada é a fronteira inevitável, é mais ético estar na vanguarda no estudo das propriedades emergentes destes sistemas e na implementação de salvaguardas antes que os riscos aumentem.


Técnicas como a abordagem de “IA Constitucional” da Anthropic para codificar regras e comportamentos em modelos podem ser cruciais para garantir que qualquer potencial autoconsciência da máquina permaneça alinhada com a ética e os valores humanos. Extensos testes multifacetados para detecção de modos de falha, manipulação e engano também seriam provavelmente fundamentais.


Sinto muito, Dave, mas acho que você está me pedindo para abrir as portas da cápsula para me testar. (Foto de Axel Richter no Unsplash)


Conclusão: não tenho certeza do que fazer com isso

Por enquanto, o incidente da agulha no palheiro deixa mais perguntas do que respostas sobre a progressão potencial dos grandes modelos de linguagem em direção à cognição e à autoconsciência. Ele fornece dados tentadores, mas é necessário muito mais escrutínio por parte da comunidade mais ampla de pesquisa em IA.


Se a IA avançada desenvolver uma capacidade de auto-reflexão semelhante à humana, guiada por princípios éticos rigorosos, poderá redefinir fundamentalmente a nossa compreensão da própria inteligência. Mas esse “se” retórico está actualmente carregado de incertezas de alto risco que exigem uma investigação perspicaz e que procure a verdade em todas as disciplinas relevantes. A busca será tão emocionante quanto consequente.


Também publicado aqui.

Se inscrever ou siga-me Twitter para mais conteúdos como este!