paint-brush
Se os dados de treinamento são ruins, a IA também é ruimpor@mytiki
751 leituras
751 leituras

Se os dados de treinamento são ruins, a IA também é ruim

por mytiki.com5m2023/05/31
Read on Terminal Reader

Muito longo; Para ler

Muitos dados de treinamento são uma merda. Não descobri a correlação entre a sucção de dados de treinamento e as vendas de aparelhos de barbear Gillette, mas imagino que haja algo aí. Além de ruim, é caro.
featured image - Se os dados de treinamento são ruins, a IA também é ruim
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

Um homem sofre de insônia e sai da cama às 4h30. O sol está a horas de fazer sua estreia diária, mas isso não importa para este homem. Não há necessidade de fazer a barba. Ele não faz isso há quatro dias. Ele imediatamente acende um cigarro - um cigarro enrolado à mão de origem desconhecida (para você). Ele liga o rádio. Imediatamente desliga. Este momento merece silêncio. Olha para o espelho. Nu. Nu. Olha para si mesmo. Profundamente em si mesmo. Apaga o cigarro nas costas da mão e joga-o no vaso sanitário. Finalmente, as palavras que ecoam em seu cérebro deslizam por seus lábios em um murmúrio exasperado: “Nossos dados de treinamento são uma merda.”


E é caro também!


Olha, todo mundo e sua avó sabem que a IA é enorme. Talvez sua avó provavelmente fale mais com o Snapchat AI do que com você. De qualquer forma, embora a IA certamente forneça um fator de entretenimento, mais do que tudo, ela pode ser absolutamente útil . E as empresas estão adotando iniciativas de IA em um ritmo sem precedentes. Sei que o mundo não precisa de outro blog sobre o crescimento da IA, mas vou misturar tudo em um segundo.


Primeiro, entenda: em 1923, apenas 0% das empresas consideravam a inteligência artificial de alta prioridade para sua organização. Uau. Em 2020, 54% dos profissionais de TI pesquisados estavam priorizando a IA. No final de 2022, esse número subiu para 69% (legal), um aumento de 15% em apenas dois anos.


Porém, quase metade (47%) dos usuários de IA/ML iniciaram suas iniciativas nos últimos dois anos e 78% dos entrevistados passaram do estágio de concepção para a execução. O que isto significa? Estatisticamente falando, há muitas empresas por aí executando programas e iniciativas de IA que são totalmente novatos no campo e provavelmente não têm ideia do que estão fazendo. Qual porcentagem dos 47% é aquele meme do velho químico? Bem, eu não posso responder isso para você. O que posso dizer é que o maior desafio relatado nas jornadas de IA/ML das empresas é a escassez de talentos qualificados (67%), seguido por falha de algoritmo e modelo (61%). Quando se trata de adotar IA, a barreira mais relatada é o custo de implementação. E o que ocupa a maior parte dos orçamentos de IA? Fornecimento e implementação de dados de treinamento, verificando 13% dos orçamentos.


Muitos dados são simplesmente ruins . Não é confiável, é difícil de gerenciar e é totalmente possível que a IA seja treinada em dados lavados , o que significa que os dados usados para treinar o modelo são provenientes de outro modelo de IA que já foi treinado em dados incompletos. Grite para Olga Mack pela introdução a esta terminologia.


Portanto, os dados são ruins, são caros, podem ser o equivalente a uma camiseta com erros de digitação comprada em um brechó (grite para a camisa do Red Sox Nomar “Garciapara” do meu amigo) e uma gigantesca faixa de empresas implementando IA é nova e carecem de recursos e talento para fazer as coisas funcionarem, quanto mais para mantê-las sustentáveis.


Para esse fim, impressionantes 87% dos executivos estão dispostos a pagar mais por dados de treinamento de maior qualidade , enquanto 66% preveem que sua necessidade de dados de treinamento apenas aumentará em comparação com 0% deles prevendo que diminuirá. Este é um aumento de 0% em relação à minha pesquisa fictícia de 1923.


Mais números que você diz? Mais números você receberá. Em 2022, o gasto global com inteligência artificial foi de cerca de US$ 118 bilhões . Até 2026, o número deve chegar a US$ 300 bilhões. 13% de US$ 300 bilhões são… US$ 39 bilhões. Agora eu sei que não é exatamente assim que as estatísticas funcionam, então não me irrite. Resumindo: o gasto global com dados de treinamento para IA é uma indústria multibilionária. Considere que 66% desses executivos esperam que a necessidade de dados de treinamento aumente e 87% estão dispostos a gastar mais para obter dados de maior qualidade do que... bem, você entendeu.

Mais fatores

Além disso, a capacidade de obter dados confiáveis é muito mais difícil em 2023 do que no passado. Iniciativas de privacidade como GDPR e CCPA visam proteger os dados do consumidor. Os principais players de tecnologia, como Google e Apple, estão tornando a coleta de dados de terceiros cada vez mais difícil. Batalhas legais em andamento têm dados de treinamento de IA em primeiro plano, com um sentimento popular de que coletar dados da web para treinar IA e alegar que é “uso justo” corre o risco de se tornar uma coisa do passado. Uma comparação adequada pode ser a queda do Napster no início dos anos 2000. Embora fosse claramente evidente que o Napster era alimentado pelo compartilhamento ilegal de material protegido por direitos autorais e propriedade intelectual, uma trajetória semelhante é algo que as empresas que usam IA são forçadas a considerar. A areia pode escorrer pela ampulheta, e “To Whom the Bell Tolls” do Metallica provavelmente tocará para aqueles que não se esforçaram para preparar suas iniciativas de IA para o futuro.

Um novo Spotify

Então qual é a solução? Bem, é complicado. Mas das cinzas do Napster, Kazaa e Limewire surgiu o Spotify, que operava com a premissa de construir algo “melhor que a pirataria”. Isso envolveu acordos com gravadoras e agências para licenciar adequadamente o conteúdo transmitido nas plataformas Spotify. A mesma coisa é possível para IA? Nós pensamos assim. 85% dos consumidores vão trocar dados por cupons ou descontos. Isso abre caminho para um modelo de aquisição de dados que incentiva os usuários a participar, gerando dados valiosos de terceiros que podem ser usados para uma infinidade de coisas, incluindo treinamento de IA. Criamos algo para licenciar dados de terceiros e até criamos um recurso em parceria com a Snowflake para permitir que as empresas listassem novamente os dados licenciados de terceiros. Com base no desejo de dados de treinamento de alta qualidade, isso pode ser uma oportunidade gigantesca para um fluxo de receita adicional que também pode fidelizar o cliente. Mas chega de coisas de marca. Você pode aprender mais aqui .

Resumindo…

Muitos dados de treinamento são uma merda. Não descobri a correlação entre a sucção de dados de treinamento e as vendas de aparelhos de barbear Gillette, mas imagino que haja algo aí. Além de ruim, é caro. Cada vez mais empresas estão dedicando tempo e recursos para implementar IA, mas muitas delas são novas no jogo e carecem de equipe, infraestrutura e dados de qualidade adequados para otimizar suas iniciativas. As batalhas legais prejudicaram os “velhos métodos” de obtenção e coleta de dados de treinamento de IA, e as iniciativas de privacidade tornaram cada vez mais difícil para as empresas coletar os dados necessários para alimentar seus negócios. Buscando inspiração em empresas como o Spotify, sabe-se que é possível superar o aspecto legal. Dado o sentimento do consumidor sobre o compartilhamento de dados, juntamente com o desejo de mais personalização e personalização em suas experiências de marca, reconhecemos um mercado gigante para licenciar dados de terceiros para revenda (entre muitos outros casos de uso). Ei, o que é 13% de $ 300 bilhões de novo?


Escrito por Shane Faria, cofundador da @TIKI