TLDR 1: o conjunto de dados não é mais um requisito rígido
A ideia de que você precisa de toneladas de dados para criar IA baseada em texto agora está parcialmente desatualizada.
Mesmo um conjunto de dados extremamente pequeno pode produzir resultados valiosos (1 frase ~ 1 GB).
Algo que quase todas as startups estão sentadas ou são capazes de produzir manualmente.
TLDR 2: Tem casos de uso muito amplos
Você pode pensar no GPT 3.5 como um “estagiário universitário sob demanda” remoto e pago
Você nunca pode confiar que os estagiários estejam 100% certos, mas eles podem fornecer valor útil com supervisão, orientação e planejamento adequados.
Um valor que agora pode crescer e escalar perfeitamente (ao contrário de estagiários humanos reais)
TLDR 3: Custo e Limitações
O modelo clássico de economia de unidade para SaaS e serviços online será um desafio devido ao custo operacional extremamente alto da maioria dos LLM
A OpenAI também possui um monopólio efetivo (temporário), para a infraestrutura neste espaço, e pode ser um parceiro e um futuro concorrente não intencional ao mesmo tempo
Se você estava de férias e não tem ideia do que são ChatGPT ou LLM (large language models) - você pode encontrar o briefing sobre a tecnologia aqui:
Então, o que quero dizer com uma forma mais longa?
Pegue uma xícara de café e acomode-se um pouco…
Nota: Este artigo discute apenas requisitos de dados para modelos baseados em texto e não se aplica a modelos de imagem em muitos casos (por exemplo, visão computacional).
No passado, a construção de um modelo de IA normalmente envolvia a coleta de um conjunto de dados grande o suficiente para um caso de uso específico. Existem diferentes técnicas e ferramentas de treinamento de modelos de IA para otimizar o processo de treinamento ou seus custos computacionais.
No entanto, o tamanho e a qualidade do conjunto de dados ainda eram um dos fatores predominantes no treinamento de uma IA.
Isso resultaria em um gráfico mais ou menos como o seguinte:
Todos os números são grandes aproximações e mudarão drasticamente dependendo do caso de uso, modelo de IA e qualidade dos dados. As escalas nos eixos são intencionalmente vagas e imprecisas porque são subjetivas. Para números técnicos, leia os artigos nas citações para casos de uso específicos.
A ideia geral permanece, no entanto, onde conjuntos de dados de pequena escala produzem dados efetivamente aleatórios antes de se tornarem lentamente melhores e, finalmente, serem úteis em aproximadamente 500 GB.
Isso levou à corrida armamentista do conjunto de dados, ocorrendo em quase todos os campos de especialização relacionados à IA (especialmente qualquer coisa relacionada à visão computacional).
O que ocorreu em várias startups de 2009 em diante até hoje, com algumas startups notáveis sendo adquiridas em parte por seus valiosos conjuntos de dados (e geralmente talentos).
Como a corrida armamentista aumentava constantemente, tornou-se cada vez mais difícil para as novas startups competir com seus modelos de IA (pequenos conjuntos de dados) contra os titulares (conjuntos de dados maiores).
Por exemplo, em uilicious.com (uma startup de automação de teste de IU de baixo código), usamos nosso conjunto de dados limitado para treinar um modelo de IA (chamado TAMI v0.1). Descobrimos que ele estava vomitando lixo na metade do tempo, levando-nos a deixar o modelo de lado e fazer a empresa crescer sem IA enquanto construímos nosso conjunto de dados.
De uma maneira muito generalizada e não técnica, a IA treinada dessa maneira será chamada de "Modelos especializados" daqui em diante.
Na busca por uma IA verdadeiramente universal ou de propósito geral, especialmente no campo das interações de fala humana (já que os humanos são a mais aleatória de todas as variáveis), surgiram esforços para treinar um novo tipo de IA baseada em texto para conjuntos de dados extremamente grandes. de dados públicos (pense na Wikipedia, Quora, StackOverflow e metade do texto da Internet).
Como esses novos modelos ultrapassaram os limites dos tamanhos dos conjuntos de dados e do tamanho do modelo (pense no tamanho do cérebro), os métodos usados para construí-los divergiram dos modelos especializados (que tendem a ter mais ênfase na precisão e na eficiência).
Os modelos de IA de texto treinados dessa maneira agora são chamados coletivamente de "Modelos de linguagem grande" (LLMs).
A desvantagem dessa abordagem foi enorme, impedindo sua aplicação antecipada em muitos casos de uso:
O LLM foi dominado pelo Google (que já tinha os dados e tinha o motivo de fazê-lo para seu assistente de IA) e OpenAI inicialmente. Mais tarde, Microsoft, Amazon, Apple, Salesforce, Meta e alguns outros entraram na corrida. No entanto, devido ao tamanho e custo para treinar esse modelo, geralmente é reservado para grandes empresas de tecnologia com bolsos cheios.
Embora as primeiras gerações de LLMs possam ter produzido resultados decepcionantes, pois perderam para quase todos os modelos especializados em todas as tarefas, as coisas mudaram com o passar dos anos e eles aumentaram tanto no tamanho do conjunto de dados quanto no tamanho do modelo.
Seus benefícios tornaram-se mais visíveis:
Isso fez mudanças drásticas nas curvas:
Também desencadeou uma nova onda de modelos de negócios apoiados por IA em 2019. As startups agora podem treinar novos modelos de IA em cima de LLMs existentes com conjuntos de dados ao seu alcance, de chatbots a geradores de slides de apresentação, copilotos de código, direitos autorais e até mestres de jogos D&D.
Esses modelos de IA não eram mais de domínio exclusivo de grandes empresas de tecnologia. Por uma pequena taxa para treinar e executar a IA em sua infraestrutura, a OpenAI e o Google começaram a abrir seus modelos para outros desenvolverem como um meio de lucrar com os LLMs.
Isso também foi benéfico para as startups, pois elas não precisavam mais de milhões de dólares em investimentos em P&D necessários para construir esses grandes modelos internamente, permitindo que chegassem ao mercado mais rapidamente com suas provas de conceito.
Data ainda era, de certa forma, rei. Ele pode ter movido a curva para ficar mais acessível, mas ainda exigia uma equipe para criar grandes conjuntos de dados e ajustar o modelo.
Como resultado, embora muitas das startups de 2019 tenham achado significativamente mais fácil construir seus protótipos, muitas acharam difícil cruzar o limite "útil", pois precisavam ampliar seu conjunto de dados com retornos decrescentes.
Isso é consistente com os primeiros testes internos dos modelos uilicious.com TAMI v0.2 AI - embora o GPT tenha sido uma grande melhoria em relação ao lixo, ainda estava entre interessante e "meh".
Mas é aí que as coisas começam a realmente mudar em 2022....
O lançamento do GPT3.5 (ou chatGPT, como é conhecido na internet) no mês passado (dezembro de 2022) teve grandes implicações na forma como os modelos de IA são treinados e ajustados.
Ele desbloqueou a possibilidade de criar IA utilizável com conjuntos de dados extremamente pequenos - algo que a maioria das startups tem acesso ou pode criar manualmente. Esta é uma mudança fundamental na forma como pensamos sobre o treinamento de IA.
Em uilicious.com , ficamos surpresos quando descobrimos que um pequeno conjunto de dados de amostra menor que 1 GB, de nosso conjunto de dados maior de aproximadamente 100 GB, quando convertido e otimizado com as novas técnicas de treinamento, havia excedido o "limiar útil" - o ponto em que o A IA poderia ser utilizada por nossos usuários e superar tudo o que tínhamos anteriormente.
Enquanto experimentos subsequentes com conjuntos de dados maiores mostraram retornos decrescentes. A principal conclusão foi o quão poucos dados eram necessários para "criar um produto útil". Levamos menos tempo para criar uma IA de prova de conceito ajustada para nosso caso de uso proprietário do que para escrever este artigo.
Usando o GPT3.5 como um bloco de construção básico, agora é possível criar aplicativos de IA úteis para vários casos de uso sem a necessidade de uma equipe ou indivíduo especializado.
Dependendo do caso de uso, o conjunto de dados pode ser tão pequeno quanto uma única frase ou parágrafo, ou até 100 MB ou 1 GB - um tamanho alcançável para muitas startups.
Alternativamente, se você conseguir que o chatGPT aja de uma maneira que considere útil e valiosa para sua startup, você pode construí-lo como um serviço de IA dedicado.
A redução drástica no conjunto de dados necessário possibilitou a construção de um modelo de IA "útil" com apenas uma pequena fração de nosso conjunto de dados completo - algo que antes era "inútil" ou "impossível" em nossa escala.
De muitas maneiras, os dados não são mais o rei, encontrar e construir aplicativos úteis são os verdadeiros reis com esta nova IA. Onde ideias podem ser construídas e testadas em semanas (não anos).
A captura de tela é uma demonstração de nossa IA em ação, gerando scripts completos de teste de interface do usuário, a partir de um prompt, como um exemplo de integração. (uma das muitas possibilidades)
Algo que agora é factível em uma semana, com a equipe certa e os dados certos.
Entre em contato conosco se estiver interessado no futuro dos testes de IA e IU.
GPT-3.5 e todos os outros modelos de linguagem grandes têm limites em sua precisão e confiabilidade. Isso se deve em parte à sua natureza de sonhar com respostas .
Embora em teoria (ainda a ser comprovado), dado um conjunto de dados especializado grande o suficiente, sua precisão pode ser drasticamente melhorada para casos de uso especializados. No entanto, se você tiver um conjunto de dados tão grande, é provável que já possa criar "modelos especializados".
Ainda assim, esse limite de precisão e confiabilidade é apenas uma questão crítica em setores sensíveis (por exemplo, medicina). Na maioria dos casos, é apenas uma distração para encontrar casos de uso. Uma vez que a IA cruza o limite “bom o suficiente” (o que acontece).
Uma abordagem mais saudável e realista para o problema é imaginar o GPT-3.5 como um “estagiário universitário inteligente sob demanda” pago e remoto
Porque, realisticamente, a IA tem todas as mesmas limitações nesses casos de uso, além de ser remota e online:
O único benefício real que o modelo de IA tem sobre os estagiários da vida real é:
A desvantagem que a IA tem sobre os humanos é que eles não podem pegar café para você pessoalmente.
Depois de enquadrar nesses termos, fica significativamente mais fácil descobrir como integrar a IA aos processos ou produtos de negócios existentes.
Em um nível um pouco mais técnico:
Essa é a maior fraqueza dessa abordagem mais recente em IA, baseada em modelos maiores e melhores. Infelizmente, não existe almoço grátis.
Embora seja mais barato e fácil treinar para tarefas específicas em termos de tamanho do conjunto de dados, é significativamente mais caro de executar em comparação com os modelos de IA mais tradicionais.
Não é barato; o custo por solicitação e resposta varia entre um centavo e cinquenta centavos, dependendo da quantidade de dados necessária para treinar ou usar no processo. Isso é drasticamente maior do que um servidor de API típico, que pode lidar com um milhão de solicitações por dólar.
Para simplificar, custa mais em hardware de servidor lidar com uma consulta de IA para um usuário em um determinado segundo do que atender a um milhão de solicitações de usuários para um site típico da Shopify de tamanho médio.
Isso não se deve ao fato de a OpenAI ou o Azure tentarem apenas lucrar; depende da infraestrutura de hardware de servidor pura necessária para executar modelos tão grandes.
Como resultado, por mais poderoso que seja, a incorporação de uma IA de modelo de linguagem tão grande tem um preço alto e pode não ser aplicável a todos os casos de uso devido apenas a essa limitação.
O resultado final é que, embora muitos casos de uso possam se beneficiar do uso de tal IA, nem todos os casos de uso podem arcar com isso; e isso deve ser uma consideração importante para qualquer implementação.
Para um service desk de suporte, uma equipe de suporte típica pode atender dez clientes por hora, com cada cliente tendo uma média de quinze prompts de ida e volta. Se for cinco centavos por prompt - isso soma US $ 7,50 por hora se uma IA for usada para imitar uma única equipe de suporte.
Isso não é apenas mais barato do que o salário médio típico da equipe de call center dos EUA de US $ 15 por hora, mas também é muito mais flexível (sem sobrecarga de pessoal, pode aumentar e diminuir instantaneamente).
Da mesma forma, também é possível fazer a mesma abordagem "interna", onde essa IA de suporte serve apenas como suporte L1, permitindo que os humanos lidem com os casos mais complicados. Nesse cenário, faz sentido quando feito e dimensionado adequadamente por prompt (ou por hora).
O trabalhador de escritório médio responde a aproximadamente quarenta e-mails por dia de trabalho ou aproximadamente 880 e-mails por mês. Mesmo a cinco centavos por e-mail, isso daria uma média de US$ 44 por mês por usuário apenas para lidar com as respostas de e-mail.
O que piora é que é razoável esperar que, com esse serviço, um funcionário de escritório seja capaz de responder a mais e-mails em média. Não seria razoável que a média dobrasse para dois mil e-mails, ou cem dólares por mês, apenas em custos puros de IA.
Nesse caso, se a startup de SaaS fizesse um preço simples, digamos dez dólares por mês, ela poderia ter grandes perdas potenciais ao longo do tempo.
Esse modelo de negócios e custo de preços é contrário ao modelo típico de preços por usuário que é comum em SaaS. É por isso que é comum que essas integrações tenham um sistema de "créditos" como forma de limitar o uso e um meio de cobrança de tal IA.
Espera-se que com o tempo, com melhor ajuste, competição e otimização de custos, o preço por prompt possa cair. Outro método notável é usar a IA original mais cara primeiro no lançamento enquanto coleta mais dados, que são então usados para treinar um modelo mais especializado e mais barato. No entanto, todos esses métodos entram em detalhes técnicos profundos, que podem ser exclusivos para cada caso de uso e geralmente exigem tempo e esforço significativos.
E mesmo assim, embora possa ser uma economia drástica de dez vezes, é fundamentalmente mais caro do que os serviços SaaS API tradicionais.
Embora existam Modelos de Linguagem Grande de código aberto existentes, em termos muito francos, eles são comparáveis ao GPT2 ou em algum lugar entre ele e o GPT3.5.
Para alguns casos simples, uma vez que eles começam a construir um conjunto de dados razoável, esses modelos menores (e mais baratos) podem ser úteis para migrar como um meio de corte de custos.
No entanto, para outros casos complexos, tal movimento pode não ser possível devido à complexidade de sua IA, dando à OpenAI um monopólio efetivo sem incentivo para preços mais baixos.
Acredita-se, no entanto, que ao longo dos próximos um ou dois anos, a comunidade de código aberto se recuperará e, ao fazê-lo, talvez permita que os preços melhorem devido a melhores provedores de infraestrutura alternativa.
No entanto, por se tratar de um futuro incerto, vale a pena destacar.
Embora não intencionalmente, é fundamental que as startups dentro desse espaço criem conjuntos de recursos que sejam defensáveis além de seus bots de prompt para texto.
Por exemplo, havia várias startups menores que criaram bots baseados em GPT3 ou SaaS em torno de casos de uso específicos de prompt para texto, como geradores de nomes ou geradores de ideias com uma interface simples.
Literalmente da noite para o dia, com o lançamento do chatGPT, esses pequenos SaaS de texto para texto de caso de uso único se tornaram redundantes, pois as pessoas comuns agora podem obter a mesma funcionalidade via chatGPT gratuitamente.
Embora possa não ter sido a intenção da OpenAI competir com os próprios parceiros que os desenvolvem, pode ser inevitável fazê-lo, pois eles continuam melhorando seu modelo e chatGPT.
Assim, para garantir que isso não se repita, é fundamental para qualquer modelo de negócios em torno dessa tecnologia descobrir qual valor adicional eles fornecem além de apenas prompt para texto, talvez melhor experiência do usuário ou integrações com ferramentas existentes, etc.
Um lembrete do modelo interno, não espere usar isso para curar o câncer amanhã. Então, por favor, não coloque IA em todos os produtos e startups na Terra quando isso não traz nenhum benefício para o usuário final.
~ Até a próxima 🖖 vida longa e próspera
Eugene Cheah: CTO da uilicious.com
Este artigo foi publicado originalmente na subpilha do autor
swyx também faz um excelente trabalho ao tentar consolidar diversas informações, neste espaço cada vez mais caótico e em rápido crescimento, que vale muito a pena ler (recomendado!!!)
Atualmente, o BLOOM é o principal concorrente de código aberto para GPT3 (não 3.5): https://towardsdatascience.com/run-bloom-the-largest-open-access-ai-model-on-your-desktop-computer-f48e1e2a9a32
Na indústria de AI/ML, a capacidade de um LLM de aprender rapidamente novos conceitos e aplicá-los é quantificada e medida por testes denominados aprendizados "Zero-Shot", "One-Shot" e "Few-Shot".
Geralmente, quanto melhor a IA se sai nesses testes, menos dados você precisa para treiná-la para o seu caso de uso.
Na minha opinião: isso faz sentido em retrospectiva - quem teria pensado que uma rede neural modelada a partir dos humanos agiria como humanos? E beneficie-se do modelo educacional T-Shape. Onde uma grande amplitude de conhecimento generalizado ajuda a melhorar a capacidade de aprender conhecimento especializado em uma área de especialização. (esta declaração não é apoiada por nenhum dado)