paint-brush
귀하의 비즈니스 IP를 유출하지 않고 OpenAI의 ChatGPT를 사용할 수 있습니까?~에 의해@artyfishle
963 판독값
963 판독값

귀하의 비즈니스 IP를 유출하지 않고 OpenAI의 ChatGPT를 사용할 수 있습니까?

~에 의해 Arty Fishle6m2023/07/19
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

ChatGPT 및 OpenAI의 Completion API는 개발자가 애플리케이션을 만들고 최첨단 언어 모델을 사용하는 데 사용됩니다. 이러한 도구를 제대로 사용하지 않으면 향후 생성 AI 모델에서 회사의 지적 재산(IP)이 실수로 노출될 수 있습니다. 회사 내부 데이터에 ChatGPT를 사용할 때 발생할 수 있는 위험과 회사의 위험을 줄이는 방법에 대해 이야기하겠습니다.
featured image - 귀하의 비즈니스 IP를 유출하지 않고 OpenAI의 ChatGPT를 사용할 수 있습니까?
Arty Fishle HackerNoon profile picture
0-item
1-item
2-item

AI 시대에 ChatGPT 와 같은 도구는 많은 조직에서 사용하는 솔루션이 되어 효율성과 생산성을 향상시켰습니다. 데이터는 거짓말을 하지 않습니다. 귀하 또는 귀하의 직원은 ChatGPT를 사용하여 이메일 초안을 작성하고, 콘텐츠를 생성하고, 데이터 분석을 수행하고, 코딩을 지원할 가능성이 높습니다.


그러나 이러한 도구를 적절하게 사용하지 않으면 GPT-3.5, GPT-4, 최종적으로는 GPT-5와 같은 미래 생성 AI 모델에서 회사의 지적 재산(IP)이 실수로 노출될 수 있으며, 이는 모든 ChatGPT 사용자가 해당 정보에 액세스할 수 있음을 의미합니다.


적절한 사례: 삼성

삼성 엔지니어는 ChatGPT를 사용하여 소스 코드 확인을 지원했지만 이코노미스트 코리아는 삼성 직원이 의도치 않게 이 도구를 통해 민감한 정보를 유출한 세 가지 사례를 보고했습니다. 이로 인해 기밀 소스 코드와 녹화된 회의 내용이 공개 도메인에 들어가 향후 ChatGPT 반복에서 사용할 수 있게 되었습니다( 출처 ).


물론 OpenAI의 ChatGPT 개인 정보 보호 정책은 매우 명확합니다.


귀하가 API가 아닌 소비자 서비스인 ChatGPT 또는 DALL-E를 사용하는 경우 당사는 모델을 개선하기 위해 귀하가 제공한 데이터를 사용할 수 있습니다.


모델 성능을 개선하기 위해 데이터를 사용하는 방법


이 게시물에서는 ChatGPT 및 OpenAI API를 회사 내부 데이터와 함께 사용할 때 발생할 수 있는 잠재적인 위험과 회사의 위험을 최대한 줄일 수 있는 방법에 대해 설명하겠습니다. 또한 ChatGPT의 기능을 복제하는 자체 언어 모델을 교육하거나 오픈 소스 모델을 사용하는 등 회사를 위한 다른 옵션에 대해서도 논의합니다. 이 두 옵션 모두 OpenAI로 데이터를 전송하지 않고도 ChatGPT의 생산성 이점을 얻을 수 있는 방법을 제공합니다.

OpenAI의 완성 API 사용

OpenAI의 Completion API는 개발자가 애플리케이션을 만들고 ChatGPT를 지원하는 모델인 GPT-3 및 GPT-4와 같은 OpenAI의 최첨단 언어 모델을 사용하는 데 사용됩니다. 이러한 API는 기본적으로 추가적인 보호 수준을 제공합니다. ChatGPT와 달리 귀하의 데이터는 계약된 중재 팀에서만 볼 수 있으며 향후 OpenAI 모델 교육에 재활용되지 않습니다. 해당 API는 제출된 정보가 향후 모델 교육에 사용되는 것을 허용하지 않는 데이터 정책을 따릅니다( API 데이터 사용 정책 에 따르면 데이터는 남용 및 오용 모니터링을 위해 30일 동안만 보관되며 그 후에는 삭제됩니다).


그러나 API에 제출된 데이터의 성격에 따라 OpenAI의 API를 사용하는 것이 여전히 너무 위험하다고 결정할 수 있습니다. 결국 OpenAI 직원이나 계약자는 귀하가 API로 전송하는 일부 데이터를 살펴보고, 여기에 민감한 개인 식별 정보 또는 개인 건강 정보가 포함되어 있으면 많은 문제를 일으킬 수 있습니다.

채팅 기록 및 교육 비활성화

ChatGPT 설정 페이지의 채팅 기록 및 교육 버튼

2023년 4월 말, ChatGPT는 데이터를 관리하는 방법인 ChatGPT 설정의 '채팅 기록 및 교육' 버튼을 출시했습니다 . 이 기능을 끄면 플랫폼에서 공유되는 모든 데이터가 향후 모델을 훈련하는 데 사용되지 않습니다. 버튼 아래에는 "저장되지 않은 채팅은 30일 이내에 시스템에서 삭제됩니다"라는 메모가 있습니다. 이 30일 메모는 남용 및 오용 모니터링 정책을 언급하는 것으로 보입니다. 이는 위에서 언급한 OpenAI의 API를 사용하는 것과 동일한 위험을 초래합니다.

자신만의 모델 학습

일부 기업은 데이터 유출 사건 이후 삼성이 시작한 길을 따라 자체 모델 교육을 대안으로 고려할 수도 있습니다. 이 접근 방식은 묘책처럼 보일 수 있습니다. 데이터에 대한 완전한 제어권을 유지하고 잠재적인 IP 유출을 방지하며 특정 요구 사항에 맞는 도구를 얻을 수 있습니다.


하지만 잠시 멈춰보자. 자신의 언어 모델을 훈련시키는 것은 작은 일이 아닙니다. 이는 리소스 집약적이며 상당한 전문 지식, 계산 능력 및 고품질 데이터가 필요합니다. 모델을 개발한 후에도 이를 유지 관리, 개선하고 변화하는 요구 사항에 맞게 조정해야 하는 지속적인 과제에 직면하게 됩니다.


더욱이 언어 모델의 품질은 학습되는 데이터의 양과 다양성에 따라 크게 달라집니다. OpenAI와 같은 회사가 모델을 훈련하기 위해 사용하는 방대한 데이터 세트를 고려할 때 개별 회사가 해당 수준의 정교함과 다양성을 일치시키는 것은 어렵습니다. 실제로 성공한 기업은 40년간의 재무 데이터와 문서를 바탕으로 BloombergGPT를 만든 Bloomberg와 같은 기업입니다( 출처 ). 때때로, 한발 더 나아가려는 소규모 회사가 데이터를 얻을 수 없는 경우도 있습니다.

오픈 소스 또는 자체 호스팅 모델 사용

오픈 소스 모델의 최신 기술은 빠르게 발전하고 있습니다. 오픈 소스 모델을 다운로드하여 컴퓨터에서 실행할 수 있으므로 자체 호스팅이 가능하며 OpenAI와 같은 회사가 참여할 필요가 없습니다.


Open Assistant 와 같은 조직에서 훈련한 모델은 놀라운 결과를 낳고 있으며 완전한 오픈 소스입니다. 해당 커뮤니티는 OpenAI가 ChatGPT에서 활용한 것과 동일한 강화 학습 인간 피드백(RLHF) 루프에 참여하기 위해 데이터를 적극적으로 수집하고 있습니다. 특히 오픈 소스 커뮤니티에 대한 의존도(내 기여 포함)를 고려하면 모델의 성능이 인상적입니다. 그러나 Open Assistant는 데이터가 26세 남성 인구통계에 편향되어 있음을 인정하면서 모델의 한계를 투명하게 공개합니다. 그들은 연구 환경에서만 모델을 사용하여 이러한 인구 통계를 공개할 때 책임감 있는 행동을 보여줄 것을 권장합니다. Open Assistant에 감사드립니다!


Orca 는 Microsoft에서 교육한 유망한 미공개 오픈 소스 모델입니다. GPT-3보다 작지만 GPT-3보다 동등하고 때로는 더 나은 결과를 생성합니다. 관심이 있으시면 Orca에 대해 AI가 설명하는 훌륭한 비디오가 있습니다 . 그러나 OpenAI의 모델을 사용하여 자신의 모델을 훈련할 수는 없습니다. 이는 OpenAI의 서비스 약관을 위반하는 것이기 때문입니다. Orca는 GPT-3.5 및 GPT-4의 출력에 대해 명시적으로 교육을 받았으므로 Microsoft는 이 모델을 "연구"용으로만 출시할 것이라고 주장합니다.


이 두 모델은 모두 연구 목적으로 특별히 설계되었으므로 비즈니스 응용 프로그램에는 적합하지 않습니다. 다른 오픈 소스 모델을 대안으로 검토한 결과 대부분이 Meta의 LLAMA 모델에서 파생되었거나(따라서 동일한 "연구" 제한 사항이 적용됨) 너무 커서 효율적으로 실행할 수 없다는 사실을 발견했습니다.


권장되는 옵션은 모자이크ML 과 같은 회사를 활용하여 추론을 비공개로 호스팅하는 것입니다. mosaicML은 상업적으로 이용 가능한 몇 안 되는 오픈 소스 언어 모델 중 하나로 돋보입니다. 그들은 MPT-30b 모델이 GPT-3과 비슷한 품질을 달성한다고 주장합니다 . 그들이 구체적인 벤치마크를 제공하지는 않지만 나는 그들의 주장을 신뢰하는 경향이 있습니다. 친구로서 나는 그들의 작은 모델(MPT-7b) 중 하나를 테스트하기 시작했고 초기 결과는 유망했습니다!

핵분열과 핵융합의 차이점에 대한 질문에 답하는 MPT-7b-Chat 모델입니다. 설득력 있고 완전한 응답을 제공합니다!

결론

데이터의 성격과 사용 사례에 따라 ChatGPT 또는 OpenAI의 API를 사용하는 것이 회사에 적합하지 않을 수 있습니다. 회사에 ChatGPT에서 전송하거나 저장할 수 있는 데이터에 대한 정책이 없다면 지금이 바로 대화를 시작할 때입니다.


개인 비즈니스 환경에서 이러한 도구를 오용하면 IP 유출이 발생할 수 있습니다. 이러한 노출의 의미는 경쟁 우위 상실부터 잠재적인 법적 문제에 이르기까지 엄청납니다.

오픈 소스이자 대규모 언어 모델에 대해 상업적으로 사용할 수 있는 제한된 옵션 중 하나인 mosaicML 모델에 대한 추가 탐색에 관심이 있다면 알려주시기 바랍니다 ! 우리는 같은 관심을 공유하고 있으며 이 주제를 함께 더 깊이 탐구하게 되어 기쁩니다.


귀하가 자신의 회사 데이터를 사용하여 안전한 검색 증강 생성을 제공하는 솔루션에 관심이 있다면 당사는 SOC2 규정 준수로 귀하의 데이터를 보호하고, SSO 공급자와 통합하고, 조직 내 대화 공유를 활성화하고, 데이터 입력에 대한 정책을 시행합니다. 우리의 궁극적인 목표는 IP 유출 위험 없이 귀하의 데이터에 ChatGPT 품질을 제공하는 것입니다. 이러한 도구에 관심이 있으시면 설문조사를 작성하시거나 mindfuldataai.com을 방문하시기 바랍니다.


시간을 내어 이 게시물을 읽어주셔서 감사합니다!