Im Zeitalter der KI sind Tools wie ChatGPT für viele Unternehmen zu einer Lösung der Wahl geworden und sorgen für mehr Effizienz und Produktivität. Die Daten lügen nicht: Die Chancen stehen gut, dass Sie oder Ihre Mitarbeiter ChatGPT verwenden, um E-Mails zu verfassen, Inhalte zu generieren, Datenanalysen durchzuführen und sogar bei der Codierung zu helfen.
Bei unsachgemäßer Verwendung könnten diese Tools jedoch unbeabsichtigt das geistige Eigentum (IP) Ihres Unternehmens in zukünftigen generativen KI-Modellen wie GPT-3.5, GPT-4 und schließlich GPT-5 preisgeben, sodass jeder ChatGPT-Benutzer auf diese Informationen zugreifen kann.
Samsung -Ingenieure nutzten ChatGPT, um bei der Überprüfung des Quellcodes zu helfen, aber The Economist Korea berichtete von drei verschiedenen Fällen, in denen Samsung-Mitarbeiter unbeabsichtigt vertrauliche Informationen über das Tool preisgaben . Dies führte dazu, dass vertraulicher Quellcode und aufgezeichnete Besprechungsinhalte öffentlich zugänglich wurden und von zukünftigen Iterationen von ChatGPT ( Quelle ) verwendet werden konnten.
Wenn Sie unsere Nicht-API-Verbraucherdienste ChatGPT oder DALL-E nutzen, können wir die von Ihnen bereitgestellten Daten verwenden, um unsere Modelle zu verbessern.
Wie Ihre Daten zur Verbesserung der Modellleistung verwendet werden
In diesem Beitrag sprechen wir über die potenziellen Risiken der Verwendung von ChatGPT und den APIs von OpenAI mit internen Unternehmensdaten und darüber, wie Sie das Risiko für Ihr Unternehmen so weit wie möglich reduzieren können. Wir besprechen auch andere Optionen für Ihr Unternehmen, z. B. das Trainieren Ihres eigenen Sprachmodells, das die Funktionalität von ChatGPT repliziert, oder die Verwendung eines Open-Source-Modells. Beide Optionen bieten Möglichkeiten, die Produktivitätsvorteile von ChatGPT zu nutzen, ohne Daten an OpenAI zu senden.
Die Completion APIs von OpenAI werden von Entwicklern verwendet, um Anwendungen zu erstellen und die hochmodernen Sprachmodelle von OpenAI wie GPT-3 und GPT-4 zu verwenden, die Modelle, die ChatGPT unterstützen. Diese APIs bieten ein zusätzliches Maß an sofort einsatzbereitem Schutz. Im Gegensatz zu ChatGPT werden Ihre Daten nur von einem beauftragten Moderationsteam eingesehen und nicht in zukünftiges Training der OpenAI-Modelle zurückgeführt. Ihre APIs folgen einer Datenrichtlinie, die es nicht zulässt, dass übermittelte Informationen für das Training zukünftiger Modelle verwendet werden (ihre API-Datennutzungsrichtlinie besagt, dass Ihre Daten nur 30 Tage lang zum Zweck der Missbrauchs- und Missbrauchsüberwachung aufbewahrt werden. Anschließend werden sie entfernt.)
Abhängig von der Art Ihrer an die API übermittelten Daten können Sie jedoch entscheiden, dass die Verwendung der OpenAI-API immer noch zu riskant ist. Schließlich wird ein Mitarbeiter oder Auftragnehmer von OpenAI einige der Daten, die Sie an die API senden, prüfen, und wenn diese sensible, persönlich identifizierbare oder persönliche Gesundheitsinformationen enthalten, könnte das eine Menge Ärger bedeuten.
Ende April 2023 veröffentlichte ChatGPT eine Möglichkeit zur Verwaltung Ihrer Daten , eine Schaltfläche „Chat-Verlauf & Training“ in den ChatGPT-Einstellungen. Wenn diese Funktion deaktiviert ist, werden die auf der Plattform geteilten Daten nicht zum Trainieren zukünftiger Modelle verwendet. Unterhalb der Schaltfläche befindet sich der Hinweis: „Nicht gespeicherte Chats werden innerhalb von 30 Tagen aus unseren Systemen gelöscht.“ Dieser 30-Tage-Hinweis bezieht sich wahrscheinlich auf die Richtlinie zu Missbrauch und Missbrauchsüberwachung. Dies birgt die gleichen Risiken wie die oben erwähnte Verwendung der OpenAI-APIs.
Einige Unternehmen könnten als Alternative in Betracht ziehen, ihre eigenen Modelle zu trainieren und damit dem Weg zu folgen, den Samsung Berichten zufolge nach dem Datenleck-Vorfall eingeschlagen hat. Dieser Ansatz mag wie eine Wunderwaffe erscheinen: Sie behalten die volle Kontrolle über Ihre Daten, vermeiden potenzielle IP-Lecks und erhalten ein Tool, das auf Ihre spezifischen Anforderungen zugeschnitten ist.
Aber lassen Sie uns einen Moment innehalten. Das Trainieren Ihres eigenen Sprachmodells ist keine leichte Aufgabe. Es ist ressourcenintensiv und erfordert erhebliches Fachwissen, Rechenleistung und hochwertige Daten. Selbst nach der Entwicklung eines Modells stehen Sie vor der ständigen Herausforderung, es zu warten, zu verbessern und an Ihre sich ändernden Anforderungen anzupassen.
Darüber hinaus hängt die Qualität von Sprachmodellen weitgehend von der Menge und Vielfalt der Daten ab, auf denen sie trainiert werden. Angesichts der riesigen Datensätze, die Unternehmen wie OpenAI zum Trainieren ihrer Modelle verwenden, ist es für einzelne Unternehmen eine Herausforderung, diesen Grad an Komplexität und Vielseitigkeit zu erreichen. Die Unternehmen, die erfolgreich sind, sind Unternehmen wie Bloomberg, die BloombergGPT auf der Grundlage ihrer 40 Jahre an Finanzdaten und -dokumenten erstellt haben ( Quelle ). Manchmal sind die Daten für kleine Unternehmen, die sich einen Vorsprung verschaffen wollen, einfach nicht zugänglich.
Der Stand der Technik von Open-Source-Modellen schreitet rasant voran. Ein Open-Source-Modell kann heruntergeladen und auf Ihrem Computer ausgeführt werden, sodass es selbst gehostet werden kann und keine Beteiligung eines Unternehmens wie OpenAI erforderlich ist.
Von Organisationen wie Open Assistant trainierte Modelle liefern bemerkenswerte Ergebnisse und sind vollständig Open Source. Ihre Community sammelt aktiv Daten, um an derselben RLHF-Schleife (Reinforcement Learning Human Feedback) teilzunehmen, die OpenAI mit ChatGPT verwendet hat. Die Leistung des Modells ist beeindruckend, insbesondere angesichts der Abhängigkeit von der Open-Source-Community (einschließlich meiner eigenen Beiträge). Allerdings macht Open Assistant die Grenzen seines Modells transparent und räumt ein, dass seine Daten auf eine männliche, 26-jährige Bevölkerungsgruppe ausgerichtet sind. Sie empfehlen die Verwendung ihres Modells nur in Forschungsumgebungen und zeigen verantwortungsvolles Verhalten bei der Offenlegung dieser demografischen Daten. Ein großes Lob an Open Assistant!
Orca ist ein vielversprechendes, unveröffentlichtes Open-Source-Modell, das von Microsoft entwickelt wurde. Es ist kleiner als GPT-3, liefert jedoch gleichwertige und manchmal sogar bessere Ergebnisse als GPT-3. Wenn Sie interessiert sind , gibt es ein tolles Video von AI, das auf Orca erklärt wird . Sie können die Modelle von OpenAI jedoch nicht zum Trainieren Ihrer eigenen Modelle verwenden, da dies einen Verstoß gegen die Nutzungsbedingungen von OpenAI darstellen würde. Orca ist explizit auf Ausgaben von GPT-3.5 und GPT-4 trainiert, daher gibt Microsoft an, dass sie dieses Modell nur zu „Forschungszwecken“ veröffentlichen werden.
Beide Modelle sind speziell für Forschungszwecke konzipiert und daher für geschäftliche Anwendungen ungeeignet. Nachdem ich andere Open-Source-Modelle als Alternativen geprüft hatte, stellte ich fest, dass die meisten von ihnen entweder vom LLAMA-Modell von Meta abgeleitet sind (und daher denselben „Forschungs“-Einschränkungen unterliegen) oder zu groß sind, um effizient ausgeführt zu werden.
Eine ermutigende Option besteht darin, ein Unternehmen wie MosaicML zu nutzen, um Ihre Schlussfolgerung privat zu hosten. MosaikML ist eines der wenigen kommerziell erhältlichen Open-Source-Sprachmodelle. Sie behaupten, dass ihr MPT-30b-Modell eine vergleichbare Qualität wie GPT-3 erreicht . Obwohl sie keine spezifischen Benchmarks liefern, neige ich dazu, ihrer Behauptung zu vertrauen, da ein Freund und ich begonnen haben, eines ihrer kleineren Modelle (MPT-7b) zu testen, und die ersten Ergebnisse sind vielversprechend!
Abhängig von der Art Ihrer Daten und Anwendungsfällen ist die Verwendung von ChatGPT oder der OpenAI-API möglicherweise für Ihr Unternehmen ungeeignet. Wenn Ihr Unternehmen keine Richtlinien dafür hat, welche Daten in ChatGPT gesendet oder gespeichert werden dürfen, ist es jetzt an der Zeit, diese Gespräche zu beginnen.
Der Missbrauch dieser Tools im privaten Geschäftsumfeld kann zu IP-Lecks führen. Die Auswirkungen einer solchen Gefährdung sind enorm und reichen vom Verlust von Wettbewerbsvorteilen bis hin zu potenziellen rechtlichen Problemen.
Wenn Sie an einer weiteren Erkundung der Modelle von MosaicML interessiert sind, die zu den begrenzten Optionen gehören, die sowohl Open Source als auch kommerziell für große Sprachmodelle verfügbar sind, lassen Sie es uns bitte wissen ! Wir teilen das gleiche Interesse und freuen uns darauf, dieses Thema gemeinsam weiter zu erforschen.
Wenn Sie an einer Lösung interessiert sind, die eine sichere, abrufbare Augmented-Generierung unter Verwendung Ihrer eigenen Unternehmensdaten bietet, entwickeln wir ein Tool, das speziell darauf ausgelegt ist, Ihre Daten mit SOC2-Konformität zu schützen, sich mit Ihren SSO-Anbietern zu integrieren, die gemeinsame Nutzung von Gesprächen innerhalb Ihrer Organisation zu ermöglichen usw Durchsetzung von Richtlinien für Dateneingaben. Unser oberstes Ziel ist es, ChatGPT-Qualität für Ihre Daten bereitzustellen, ohne dass das Risiko eines IP-Lecks besteht. Wenn Sie an einem solchen Tool interessiert sind, empfehlen wir Ihnen, an unserer Umfrage teilzunehmen oder mindfuldataai.com zu besuchen.
Vielen Dank, dass Sie sich die Zeit genommen haben, diesen Beitrag zu lesen!