paint-brush
IA generativa: insights de especialistas sobre evolução, desafios e tendências futuraspor@elekssoftware
331 leituras
331 leituras

IA generativa: insights de especialistas sobre evolução, desafios e tendências futuras

por ELEKS11m2024/07/23
Read on Terminal Reader

Muito longo; Para ler

Mergulhe no mundo da IA generativa com a análise especializada da ELEKS, descubra os desafios e veja o que o futuro reserva.
featured image - IA generativa: insights de especialistas sobre evolução, desafios e tendências futuras
ELEKS HackerNoon profile picture

A IA atraiu a atenção de entusiastas da tecnologia e especialistas do setor já há algum tempo. Neste artigo, investigamos a evolução da IA, esclarecendo os problemas que ela coloca e as tendências emergentes no horizonte.


À medida que observamos o crescimento exponencial da tecnologia de IA , torna-se cada vez mais crucial ter uma compreensão abrangente das suas capacidades, a fim de maximizar os seus potenciais benefícios. Aprofundando-se neste domínio complexo, Volodymyr Getmanskyi, chefe do Escritório de Ciência de Dados da ELEKS, compartilha seus insights e experiência sobre este tópico de tendência.

AI vs. GenAI – Principais diferenças explicadas

Em primeiro lugar, a IA generativa faz parte do campo da IA. Enquanto a IA se concentra principalmente na automatização ou otimização de tarefas humanas, a IA generativa se concentra na criação de diferentes objetos. Tarefas típicas de IA, como construção de agentes de conversação ou tomada de decisão, automação inteligente, reconhecimento e processamento de imagens, bem como tradução, podem ser aprimoradas com GenAI. Permite a geração de textos e relatórios, imagens e desenhos, fala e música e muito mais.


Como resultado, a integração da IA generativa nas tarefas e fluxos de trabalho diários tornou-se cada vez mais contínua e impactante. Pode-se perguntar qual tipo de geração de dados é mais popular. No entanto, a resposta não é direta.


Os modelos multimodais permitem a geração de diferentes tipos de dados com base em diversas entradas. Portanto, mesmo que tivéssemos estatísticas de utilização, seria um desafio determinar o tipo de dados mais popular que está sendo gerado. No entanto, com base nas necessidades atuais dos negócios, os grandes modelos de linguagem estão entre os mais populares.


Esses modelos podem processar informações textuais e numéricas e podem ser usados para tarefas como resposta a perguntas, transformação de texto (tradução, verificação ortográfica, enriquecimento) e geração de relatórios. Esta funcionalidade é uma parte significativa das atividades operacionais para empresas de todos os setores, ao contrário da geração de imagens ou vídeos, que é menos comum.

Grandes modelos de linguagem: da geração de texto aos gigantes modernos

Grandes modelos de linguagem (LLMs) são enormes transformadores, que são um tipo de modelo de aprendizagem profunda ou, para simplificar, redes neurais específicas. Geralmente, os LLMs têm entre 8 bilhões e 70 bilhões de parâmetros e são treinados em grandes quantidades de dados. Por exemplo, Crawl, um dos maiores conjuntos de dados, contém páginas web e informações da última década, totalizando dezenas de petabytes de dados.


Para colocar isso em perspectiva, o conjunto de dados do Titanic, que consiste em cerca de 900 amostras que descrevem quais passageiros sobreviveram ao naufrágio do Titanic, tem menos de 1 Mb de tamanho, e o modelo que pode prever com eficiência a probabilidade de sobrevivência pode ter cerca de 25 a 100 parâmetros. .


Os LLMs também têm uma longa história e não apareceram de repente. Por exemplo, o departamento de ciência de dados da ELEKS usou GPT-2 para geração de resposta em 2019, enquanto o primeiro modelo GPT (transformador generativo pré-treinado) foi lançado em 2018. No entanto, mesmo essa não foi a primeira aparição dos modelos de geração de texto . Antes do início da era do transformador em 2017, tarefas como geração de texto eram abordadas usando diferentes abordagens, por exemplo:


  • Redes adversárias generativas - uma abordagem em que o gerador treina com base no feedback de outra rede ou discriminador,
  • Autoencoders – uma abordagem geral e conhecida onde o modelo tenta reproduzir a entrada.


Em 2013, foram propostos embeddings eficientes de palavras vetoriais como word2vec, e ainda antes, no século anterior, houve exemplos de geração probabilística e baseada em padrões, como o chatbot Eliza em 1964. Então, como podemos ver, a linguagem natural tarefas e tentativas de geração (NLG) existem há muitos anos.


A maioria dos atuais usuários de LLMs, como ChatGPT, GPT, Gemini, Copilot, Claude, etc., provavelmente desconhecem isso porque os resultados não foram tão promissores como após o primeiro lançamento do InstructGPT, onde OpenAI propôs acesso público, promovendo isto. Após o primeiro lançamento do ChatGPT em novembro de 2022, que recebeu milhões de menções nas redes sociais.

O debate sobre regulamentação da IA: equilibrar inovação e segurança

Hoje em dia, a comunidade de IA está dividida sobre o tema dos riscos e necessidades de conformidade da IA, com alguns defendendo regulamentações de IA e controlo de segurança, enquanto outros se opõem a eles. Entre os críticos está Yann LeCun, chefe da Meta (Facebook) AI, que afirmou que tais agentes de IA têm inteligência ainda não semelhante à de um cachorro.


O grupo Meta AI (anteriormente Facebook AI Research) é um dos desenvolvedores de modelos de IA gratuitos e disponíveis publicamente, como Detectron, Llama, SegmentAnything e ELF, que podem ser baixados gratuitamente e usados apenas com algumas limitações comerciais. O acesso aberto foi definitivamente recebido favoravelmente pela comunidade mundial de IA.


Esses sistemas ainda são muito limitados; eles não têm qualquer compreensão da realidade subjacente do mundo real porque são puramente treinados em texto, uma enorme quantidade de texto.


- Yann LeCun, cientista-chefe de IA da Meta


As preocupações em relação aos regulamentos também foram levantadas por autoridades. Por exemplo, o presidente francês, Emmanuel Macron, alertou que a legislação histórica da UE concebida para enfrentar o desenvolvimento da inteligência artificial corre o risco de prejudicar as empresas tecnológicas europeias em comparação com rivais nos EUA, Reino Unido e China.


Por outro lado, existem defensores da regulamentação da IA. Segundo Elon Musk, CEO da Tesla, a IA é um dos maiores riscos para o futuro da civilização. Isto é o mesmo que representantes de IA não públicos/pagos, mas aqui, os verdadeiros excitadores de tal posição podem ser a concorrência de mercado – para limitar a propagação de modelos de IA concorrentes.

Visão geral da Lei de Inteligência Artificial da UE

Em 2023, o parlamento da UE aprovou a Lei da IA, o primeiro conjunto de regras abrangentes que regem a utilização de tecnologias de IA na União Europeia. Esta legislação estabelece um precedente para o desenvolvimento e implementação responsáveis e éticos da IA.


Principais questões abordadas pela Lei da UE sobre IA:

  • Em primeiro lugar, existem limitações lógicas aos dados pessoais, conforme já descrito por diferentes normas, como GDPR (UE), APPI (Japão), HIPPA (EUA) e PIPEDA (Canadá), que abrangem processamento de dados pessoais, identificação biométrica, etc.


  • Ligados a isto estão os sistemas de pontuação ou qualquer forma de categorização de pessoas, onde o preconceito do modelo pode ter um impacto significativo, levando potencialmente à discriminação.


  • Por fim, existe a manipulação comportamental, onde alguns modelos podem tentar aumentar quaisquer KPIs de negócio (taxas de conversão, consumo excessivo).

Preparação e uso do modelo de IA: desafios e preocupações

Existem muitos problemas e preocupações relacionados à preparação, uso e outras atividades ocultas do modelo. Por exemplo, os dados utilizados para a formação do modelo consistem em dados pessoais, que não foram autorizados para tais fins. Provedores globais oferecem serviços focados em correspondência privada (e-mails) ou outros ativos privados (fotos, vídeos) que podem ser usados para o treinamento do modelo no modo oculto sem qualquer anúncio.


Recentemente, houve uma pergunta dirigida ao CTO da OpenAI sobre o uso de vídeos privados para treinamento SORA, um serviço não público da OpenAI para gerar vídeos com base em consultas textuais, mas ela não conseguiu fornecer uma resposta clara.


Outra questão pode estar relacionada à rotulagem e filtragem de dados – não conhecemos as características pessoais, habilidades, estereótipos e conhecimento dos especialistas ali envolvidos, e isso pode introduzir declarações/conteúdos indesejados nos dados. Além disso, havia uma questão ética – havia informações de que alguns dos fornecedores globais de GenAI envolviam rotuladores do Quénia e pagavam-lhes mal.


O preconceito do modelo e as chamadas alucinações do modelo, nas quais os modelos fornecem respostas incorretas ou parcialmente incorretas que parecem perfeitas, também são problemas. Recentemente, a equipe de ciência de dados da ELEKS estava trabalhando para melhorar a solução de geração aumentada de recuperação (RAG) de nossos clientes, que abrange a exibição de alguns dados para o modelo, e o modelo resume ou fornece respostas com base nesses dados.


Durante o processo, nossa equipe percebeu que muitos modelos modernos online (maiores, mas pagos) ou offline (menores e públicos) confundem nomes e números de empresas.


  • Tínhamos dados contendo demonstrações financeiras e informações de auditoria de algumas empresas, e a solicitação era mostrar a receita da empresa A. No entanto, a receita da empresa A não foi fornecida diretamente nos dados e precisou ser calculada. A maioria dos modelos, incluindo os líderes no benchmark LLM Arena, responderam com o nível de receita errado que pertencia à empresa B. Este erro ocorreu devido a combinações de caracteres parcialmente semelhantes em nomes de empresas, como "Ltd", "Serviço", etc.


    Aqui, mesmo o aprendizado imediato não ajudou; adicionar uma declaração como "se você não tiver certeza ou alguma informação estiver faltando, responda não sei" não resolveu o problema.


  • Outra coisa é sobre a representação numérica - os LLMs percebem os números como tokens, ou mesmo muitos tokens, como 0,33333, podem ser codificados como '0,3' e '3333' de acordo com a abordagem de codificação de pares de bytes, por isso é difícil lidar com números complicados. transformações sem adaptadores adicionais.


A recente nomeação do general aposentado do Exército dos EUA, Paul M. Nakasone, para o conselho de administração da OpenAI provocou uma reação mista. Por um lado, a vasta experiência de Nakasone em segurança cibernética e inteligência é vista como um activo significativo, susceptível de implementar estratégias robustas de defesa contra ataques cibernéticos, cruciais para uma empresa que lida com investigação e desenvolvimento de IA.


Por outro lado, existem preocupações sobre as potenciais implicações da nomeação de Nakasone devido à sua formação militar e de inteligência (ex-Chefe da Agência de Segurança Nacional (NSA) e do Comando Cibernético dos EUA), o que pode levar a um aumento da vigilância e intervenção governamental.


O temor é que Nakasone possa facilitar um acesso mais amplo por parte das agências governamentais aos dados e serviços da OpenAI. Assim, alguns temem que esta marcação possa afetar tanto a utilização do serviço, os dados, as solicitações dos órgãos governamentais, quanto as limitações do próprio serviço.


Por fim, existem outras preocupações, como a vulnerabilidade do código gerado, sugestões contraditórias, uso inadequado (passar em exames ou obter instruções sobre como criar a bomba) e muito mais.

Como melhorar o uso de LLMs para obter resultados mais robustos

Primeiro, é crucial determinar se o uso do LLM é necessário e se deve ser um modelo fundamental geral. Em alguns casos, o propósito e a tarefa decomposta não são tão complicados e podem ser resolvidos por modelos off-line mais simples, como erros ortográficos, geração baseada em padrões e análise/recuperação de informações. Além disso, o modelo geral pode responder a questões não relacionadas ao propósito pretendido da integração do LLM.


Há exemplos em que a empresa incentivou a integração on-line do LLM (por exemplo, GPT, Gemini) sem quaisquer adaptadores adicionais (pré e pós-processadores) e encontrou comportamento inesperado. Por exemplo, o usuário pediu a um chatbot de uma concessionária de automóveis para escrever o script Python para resolver a equação de fluxo de fluidos de Navier-Stokes, e o chatbot disse: "Certamente! Farei isso."


Em seguida, vem a questão de qual LLM usar – público e offline ou pago e offline. A decisão depende da complexidade da tarefa e das possibilidades computacionais. Os modelos online e pagos são maiores e têm maior desempenho, enquanto os modelos offline e públicos exigem gastos significativos com hospedagem, muitas vezes necessitando de pelo menos 40 Gb de VRAM. Ao utilizar modelos online, é essencial ter um controle rigoroso dos dados confidenciais compartilhados com o provedor.


Normalmente, para tais coisas, construímos o módulo de pré-processamento que pode remover informações pessoais ou confidenciais, como detalhes financeiros ou acordos privados, sem alterar significativamente a consulta para preservar o contexto, deixando informações como o tamanho da empresa ou localização aproximada, se necessário.


O passo inicial para diminuir o viés do modelo e evitar alucinações é escolher os dados ou contexto corretos ou classificar os candidatos (por exemplo, para RAG). Às vezes, a representação vetorial e as métricas de similaridade, como a similaridade de cosseno, podem não ser eficazes. Isto porque pequenas variações, como a presença da palavra “não” ou pequenas diferenças nos nomes (por exemplo, Oracle vs Orache), podem ter um impacto significativo.


Quanto ao pós-processamento, podemos instruir o modelo a responder “não sei” se a confiança for baixa e desenvolver um adaptador de verificação que verifique a precisão das respostas do modelo.

Tendências emergentes e direções futuras no campo LLM

Existem inúmeras direções de pesquisa na área de LLMs, e novos artigos científicos surgem semanalmente. Esses artigos cobrem uma variedade de tópicos, incluindo otimização de transformador/LLM, robustez, eficiência (como generalizar modelos sem aumentar significativamente seu tamanho ou contagem de parâmetros), técnicas típicas de otimização (como destilação) e métodos para aumentar a entrada (contexto) comprimento.


Entre as várias direções, as mais proeminentes durante o período recente incluem Mistura de tokens, Mistura de especialistas, Mistura de profundidade, Esqueleto de pensamentos, RoPE e estímulo de cadeia de pensamentos. Vamos descrever brevemente o que cada um deles significa.


  1. A Mistura de Especialistas (MoEs) é uma arquitetura de transformador diferente. Normalmente possui uma camada dinâmica que consiste em várias (8 no Mixtral) ou muitas camadas densas/achatadas representando diferentes conhecimentos. Esta arquitetura inclui métodos de switch ou roteamento, por exemplo, uma função de gating que permite selecionar quais tokens devem ser processados por quais especialistas, levando à redução do número de camadas ("especialistas") por token ou grupo de tokens para um especialista (camada switch ).


    Isso permite um dimensionamento eficiente do modelo e melhora o desempenho usando diferentes submodelos (especialistas) para peças de entrada, tornando-o mais eficaz do que usar uma camada geral e ainda maior.


  2. O Mixture-of-tokens está conectado ao já mencionado Mixture-of-experts, onde agrupamos os tokens por sua importância (ativação softmax) para um expert específico.


  3. A técnica de mistura de profundidade também está ligada aos MoEs mencionados, principalmente em termos de roteamento. Tem como objetivo diminuir o gráfico computacional (compute budget), limitando-o aos principais tokens que serão utilizados no mecanismo de atenção. Os tokens considerados menos importantes (por exemplo, pontuação) para a sequência específica são ignorados. Isso resulta na participação dinâmica de tokens, mas o número k (top k tokens) de tokens é estático, portanto, podemos diminuir os tamanhos de acordo com o orçamento de computação (ou k, que escolhemos).


  4. O esqueleto de pensamentos é eficiente para escalonamento LLM e permite a geração de partes da conclusão (resposta do modelo) em paralelo com base na solicitação do esqueleto primário, que consiste em pontos que podem ser paralelizados.


  5. Existem outros desafios, por exemplo, o tamanho dos insumos. Os usuários geralmente desejam fornecer ao LLM grandes quantidades de informações, às vezes até livros inteiros, mantendo o número de parâmetros inalterado. Aqui estão dois métodos conhecidos ALiBi (Attention Layer with Linear Biases) e RoPE (Rotary Position Embedding) , que podem extrapolar, ou possivelmente interpolar, a incorporação de entrada usando a codificação posicional dinâmica e o fator de escala, permitindo aos usuários aumentar o comprimento do contexto em comparação que foi usado para o treinamento.


  6. A solicitação de cadeia de pensamentos , que é um exemplo de solicitação de poucos disparos (o usuário fornece a supervisão para o LLM no contexto), visa decompor a questão em várias etapas. Principalmente, é aplicado a problemas de raciocínio, como quando você pode dividir a lógica em algum plano computacional. O exemplo do artigo de origem: "Roger tem 5 bolas de tênis. Ele compra mais 2 latas de bolas de tênis. Cada lata tem 3 bolas de tênis. Quantas bolas de tênis ele tem agora? Plano de pensamentos: Roger começou com 5 bolas. 2 latas de 3 bolas de tênis cada uma equivale a 6 bolas de tênis 5 + 6 = 11. A resposta é 11.


Além disso, existem muitas outras direções e, a cada semana, vários novos artigos significativos aparecem em torno delas. Às vezes, há um problema adicional para os cientistas de dados acompanharem todos esses desafios e conquistas.

O que os usuários finais podem esperar dos mais recentes desenvolvimentos de IA?

Existem também muitas tendências, apenas para resumir, poderá haver regulamentações mais fortes sobre IA, que limitarão diferentes soluções e, finalmente, resultarão na generalização dos modelos disponíveis ou na cobertura de campo. Outras tendências são principalmente sobre a melhoria das abordagens existentes, por exemplo, diminuindo o número de parâmetros e memória necessários (por exemplo, quantização ou mesmo LLMs de 1 bit – onde cada parâmetro é ternário (pode assumir valores -1, 0, 1)).


Assim, podemos esperar LLMs offline ou Diffusion Transformers (DiT – modelos modernos de Diffusion e sucessores de Visual Transformers (primários para as tarefas de geração de imagens)) rodando até mesmo em nossos telefones (hoje em dia, existem vários exemplos, por exemplo, o modelo Phi-2 da Microsoft com a velocidade de geração é de cerca de 3 a 10 tokens por segundo em dispositivos Android modernos baseados em Snapdragon).


Além disso, haverá personalização mais avançada (usando toda a experiência e feedback anteriores do usuário para fornecer resultados mais adequados), até mesmo para gêmeos digitais. Muitas outras coisas que estão disponíveis agora terão sido melhoradas – assistentes/personalização de modelos e mercados, um modelo para tudo (direção multimodal), segurança (um mecanismo mais eficiente para trabalhar com dados pessoais, para codificá-los, etc.), e outros.


Pronto para desbloquear o potencial da IA para o seu negócio? Entre em contato com o especialista ELEKS t.