paint-brush
Você pode usar o ChatGPT da OpenAI sem vazar o IP da sua empresa?por@artyfishle
963 leituras
963 leituras

Você pode usar o ChatGPT da OpenAI sem vazar o IP da sua empresa?

por Arty Fishle6m2023/07/19
Read on Terminal Reader

Muito longo; Para ler

As APIs de conclusão do ChatGPT e OpenAI são usadas por desenvolvedores para criar aplicativos e usar modelos de linguagem de última geração. Se não forem usadas corretamente, essas ferramentas podem expor inadvertidamente a propriedade intelectual (IP) da sua empresa em modelos futuros de IA generativa. Falaremos sobre os riscos potenciais de usar o ChatGPT com dados internos da empresa e como você pode reduzir o risco para sua empresa.
featured image - Você pode usar o ChatGPT da OpenAI sem vazar o IP da sua empresa?
Arty Fishle HackerNoon profile picture
0-item
1-item
2-item

Na era da IA, ferramentas como o ChatGPT tornaram-se uma solução obrigatória para muitas organizações, trazendo maior eficiência e produtividade. Os dados não mentem: é provável que você ou seus funcionários estejam usando o ChatGPT para redigir e-mails, gerar conteúdo, realizar análises de dados e até auxiliar na codificação.


No entanto, se não forem usadas corretamente, essas ferramentas podem expor inadvertidamente a propriedade intelectual (IP) da sua empresa em futuros modelos de IA generativa, como GPT-3.5, GPT-4 e, eventualmente, GPT-5, o que significa que qualquer usuário do ChatGPT pode acessar essas informações.


Caso em questão: Samsung

Os engenheiros da Samsung usaram o ChatGPT para ajudar na verificação do código-fonte, mas o The Economist Korea relatou três instâncias separadas de funcionários da Samsung vazando involuntariamente informações confidenciais por meio da ferramenta . Isso fez com que o código-fonte confidencial e o conteúdo gravado da reunião acabassem em domínio público, utilizável por futuras iterações do ChatGPT ( Fonte ).


Com certeza, a política de privacidade ChatGPT da OpenAI é muito clara:


Quando você usa nossos serviços de consumidor não API ChatGPT ou DALL-E, podemos usar os dados que você nos fornece para melhorar nossos modelos.


Como seus dados são usados para melhorar o desempenho do modelo


Neste post, falaremos sobre os riscos potenciais do uso das APIs do ChatGPT e da OpenAI com dados internos da empresa e como você pode reduzir ao máximo o risco para sua empresa. Também discutiremos outras opções para sua empresa, como treinar seu próprio modelo de idioma que replica a funcionalidade do ChatGPT ou usar um modelo de código aberto. Ambas as opções oferecem caminhos para obter os benefícios de produtividade do ChatGPT sem enviar dados para o OpenAI.

Use as APIs de conclusão do OpenAI

As APIs de conclusão da OpenAI são usadas por desenvolvedores para criar aplicativos e usar os modelos de linguagem de última geração da OpenAI, como GPT-3 e GPT-4, os modelos que alimentam o ChatGPT. Essas APIs oferecem um nível adicional de proteção pronto para uso. Ao contrário do ChatGPT, seus dados são visualizados apenas por uma equipe de moderação contratada e não são reciclados para treinamento futuro dos modelos da OpenAI. Suas APIs seguem uma política de dados que não permite que as informações enviadas sejam usadas para treinar modelos futuros ( a política de uso de dados da API afirma que seus dados são retidos apenas por 30 dias para monitoramento de abuso e uso indevido. Em seguida, são removidos.)


No entanto, dependendo da natureza de seus dados enviados à API, você pode decidir que usar a API da OpenAI ainda é muito arriscado. Eventualmente, um funcionário ou contratado da OpenAI examinará alguns dos dados que você envia para a API e, se contiver informações confidenciais, de identificação pessoal ou de saúde pessoal, isso pode significar muitos problemas.

Desativar histórico de bate-papo e treinamento

Botão Histórico de bate-papo e treinamento na página de configurações do ChatGPT

No final de abril de 2023, o ChatGPT lançou uma forma de gerenciar seus dados , um botão “Histórico de bate-papo e treinamento” nas configurações do ChatGPT. Com esse recurso desativado, todos os dados compartilhados na plataforma não são usados para treinar futuros modelos. Abaixo do botão, há uma observação: “Chats não salvos serão excluídos de nossos sistemas em até 30 dias”. Esta nota de 30 dias provavelmente se refere à política de monitoramento de abuso e uso indevido. Isso traz os mesmos riscos do uso das APIs da OpenAI, conforme observado acima.

Treinando seu próprio modelo

Algumas empresas podem considerar o treinamento de seus próprios modelos como alternativa, seguindo o caminho que a Samsung supostamente embarcou após o incidente de vazamento de dados. Essa abordagem pode parecer uma bala de prata: você manteria controle total sobre seus dados, evitaria possíveis vazamentos de IP e obteria uma ferramenta adaptada às suas necessidades específicas.


Mas vamos fazer uma pausa por um momento. Treinar seu próprio modelo de linguagem não é uma tarefa fácil. É intensivo em recursos, exigindo experiência significativa, poder computacional e dados de alta qualidade. Mesmo depois de desenvolver um modelo, você enfrentaria os desafios contínuos de mantê-lo, melhorá-lo e adaptá-lo às suas necessidades em evolução.


Além disso, a qualidade dos modelos de linguagem depende em grande parte da quantidade e diversidade de dados em que são treinados. Dados os vastos conjuntos de dados usados por empresas como a OpenAI para treinar seus modelos, é um desafio para as empresas individuais igualar esse nível de sofisticação e versatilidade. As empresas bem-sucedidas são empresas como a Bloomberg, que criou a BloombergGPT a partir de seus 40 anos de dados e documentos financeiros ( Fonte ). Às vezes, os dados simplesmente não são atingíveis para pequenas empresas que tentam obter uma vantagem.

Use modelos de código aberto ou auto-hospedados

O estado da arte dos modelos de código aberto está avançando rapidamente. Um modelo de código aberto pode ser baixado e executado em sua máquina, tornando-o auto-hospedável e eliminando a necessidade de uma empresa como a OpenAI estar envolvida.


Modelos treinados por organizações como o Open Assistant estão produzindo resultados notáveis e são totalmente de código aberto. A comunidade deles está coletando dados ativamente para se envolver no mesmo loop de feedback humano de aprendizado por reforço (RLHF) que o OpenAI utilizou com o ChatGPT. O desempenho do modelo é impressionante, especialmente considerando sua dependência da comunidade de código aberto (incluindo minhas próprias contribuições). No entanto, o Open Assistant é transparente sobre as limitações de seu modelo , reconhecendo que seus dados são tendenciosos para um grupo demográfico masculino de 26 anos. Eles apenas recomendam usar seu modelo em ambientes de pesquisa, demonstrando um comportamento responsável na divulgação desses dados demográficos. Kudos para Open Assistant!


O Orca é um modelo de código aberto promissor e inédito, treinado pela Microsoft. É menor que o GPT-3, mas produz resultados iguais e às vezes melhores que o GPT-3. Há um ótimo vídeo de IA explicado no Orca se você estiver interessado. No entanto, você não pode usar os modelos da OpenAI para treinar seus próprios modelos, pois isso constituiria uma violação dos Termos de Serviço da OpenAI. Orca é explicitamente treinado em saídas de GPT-3.5 e GPT-4, então a Microsoft afirma que lançará este modelo apenas para “pesquisa”.


Ambos os modelos são projetados especificamente para fins de pesquisa, tornando-os inadequados para aplicativos de negócios. Depois de revisar outros modelos de código aberto como alternativas, descobri que a maioria deles é derivada do modelo LLAMA da Meta (portanto, sujeita às mesmas limitações de “pesquisa”) ou muito grande para ser executada com eficiência.


Uma opção encorajadora é aproveitar uma empresa como a MosaicML para hospedar sua inferência de forma privada. MosaicML se destaca como um dos poucos modelos de linguagem de código aberto comercialmente disponíveis. Eles afirmam que seu modelo MPT-30b atinge qualidade comparável ao GPT-3 . Embora eles não forneçam benchmarks específicos, estou inclinado a confiar em suas afirmações, como amigo e comecei a testar um de seus modelos menores (MPT-7b), e os resultados iniciais são promissores!

Modelo MPT-7b-Chat respondendo a uma pergunta sobre as diferenças entre fissão e fusão nuclear. Ele fornece uma resposta convincente e completa!

Conclusão

Dependendo da natureza de seus dados e casos de uso, usar o ChatGPT ou a API do OpenAI pode ser inadequado para sua empresa. Se sua empresa não possui políticas sobre quais dados podem ser enviados ou salvos no ChatGPT, agora é a hora de iniciar essas conversas.


O uso indevido dessas ferramentas em ambientes de negócios privados pode levar ao vazamento de IP. As implicações de tal exposição são enormes, variando de perda de vantagem competitiva a possíveis questões legais.

Se você estiver interessado em uma exploração mais aprofundada dos modelos do MosaicML, que estão entre as opções limitadas de código aberto e comercialmente disponíveis para grandes modelos de linguagem, informe-nos ! Compartilhamos o mesmo interesse e estamos ansiosos para explorar mais esse tópico juntos.


Se você estiver interessado em uma solução que ofereça geração aumentada de recuperação segura usando os dados de sua própria empresa, estamos desenvolvendo uma ferramenta projetada especificamente para proteger seus dados com conformidade com SOC2, integrar-se com seus provedores de SSO, permitir o compartilhamento de conversas em sua organização e aplicar políticas sobre entradas de dados. Nosso objetivo final é fornecer qualidade ChatGPT para seus dados sem qualquer risco de vazamento de IP. Se você estiver interessado em tal ferramenta, nós o encorajamos a preencher nossa pesquisa ou visitar mindfuldataai.com .


Obrigado por tomar o tempo para ler este post!