paint-brush
CassIO: Die beste Bibliothek für generative KI, inspiriert von OpenAIvon@datastax
4,452 Lesungen
4,452 Lesungen

CassIO: Die beste Bibliothek für generative KI, inspiriert von OpenAI

von DataStax5m2023/06/07
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

Erfahren Sie, wie aus einer Diskussion mit ChatGPT CassIO wurde, eine erstaunliche Bibliothek für Apache Cassandra-Benutzer.
featured image - CassIO: Die beste Bibliothek für generative KI, inspiriert von OpenAI
DataStax HackerNoon profile picture
0-item
1-item
2-item
3-item

Wenn Sie ChatGPT häufig nutzen, wissen Sie, dass es dazu neigt, in sogenannte Halluzinationen zu verfallen. Eine großartige Sammlung statistisch korrekter Wörter, die keine Grundlage in der Realität haben. Vor einigen Monaten löste eine Anfrage zur Verwendung von Apache Cassandra für große Sprachmodelle (LLMs) und LangChain eine merkwürdige Antwort aus. ChatGPT berichtete, dass Cassandra nicht nur eine gute Werkzeugwahl bei der Erstellung von LLMs war, OpenAI nutzte Cassandra auch mit einer MIT-lizenzierten Python-Bibliothek namens CassIO.


Wir gingen in den Kaninchenbau und durch weitere Aufforderungen beschrieb ChatGPT viele Details darüber, wie CassIO verwendet wurde. Es enthielt sogar Beispielcode und eine Website. Nachfolgende Untersuchungen fanden außerhalb der ChatGPT-Antworten keine Hinweise auf CassIO, aber der Samen war gesät. Wenn diese Bibliothek nicht existierte, musste sie vorhanden sein, und wir begannen kurz darauf mit der Arbeit daran.


Beste Halluzination aller Zeiten.

Wird der echte CassIO bitte aufstehen?

Was war diese großartige Idee, die ChatGPT (und damit auch OpenAI) inspirierte? Eine großartige Python-Bibliothek ermöglicht es Entwicklern, mit weniger mehr zu erreichen. DataStax und Anant bündelten ihre Kräfte bei der Entwicklung CassIO um die Integration von Cassandra mit generativer künstlicher Intelligenz und anderen Workloads des maschinellen Lernens nahtlos zu gestalten. Sein Hauptzweck besteht darin, den Prozess des Zugriffs auf die Cassandra-Datenbank einschließlich ihrer zu abstrahieren Vektorsuche Funktionen und bietet eine Reihe gebrauchsfertiger Tools, die den Bedarf an zusätzlichem Code minimieren. Dadurch können sich Entwickler auf den Entwurf und die Implementierung ihrer KI-Systeme konzentrieren und wissen, dass CassIO sich um die zugrunde liegende Datenbankkomplexität gekümmert hat. Das Ergebnis ist der Zugriff auf eine bewährte Datenbank mit erschwinglicher Skalierung und geringer Latenz. Bei CassIO geht es vor allem darum, den Implementierungsprozess zu erleichtern und zu vereinfachen.



Die Stärke von CassIO liegt in seiner Agnostizismus gegenüber bestimmten KI-Frameworks. Es befasst sich nicht mit den spezifischen Implementierungsdetails von Schnittstellen wie LangChain , LamaIndex , Semantischer Kernel von Microsoft oder verschiedene andere generative KI-Toolkits. Stattdessen stellt es eine Reihe von „Thin Adapters“ bereit, die den Schnittstellen des Frameworks entsprechen und gleichzeitig die Funktionen von CassIO nutzen. Dadurch kann CassIO die Lücke zwischen Ihrer KI-Anwendung und der Datenbank schließen, sodass die Anwendung die Leistungsfähigkeit von Cassandra nutzen kann, ohne sich in deren Details zu verstricken.

Integration mit LangChain

LangChain automatisiert die meisten Verwaltungsaufgaben und Interaktionen mit LLMs. Es bietet Unterstützung für Speicher, vektorbasierte Ähnlichkeitssuche, erweiterte Abstraktion von Eingabeaufforderungsvorlagen und eine Fülle anderer Funktionen. CassIO lässt sich nahtlos in LangChain integrieren und erweitert Cassandra-spezifische Tools, um Aufgaben zu rationalisieren wie:

  • Ein Speichermodul für LLMs, das Cassandra zur Speicherung verwendet und sich an den letzten Austausch in einer Chat-Interaktion erinnern oder sogar eine Zusammenfassung der gesamten vergangenen Konversation speichern kann.

  • Eine Funktion zum Zwischenspeichern von LLM-Antworten auf Cassandra, wodurch nach Möglichkeit Latenz und Token eingespart werden. Automatische Injektion von Daten aus Cassandra in eine Eingabeaufforderung oder innerhalb einer längeren LLM-Konversation.

  • Unterstützung für die „Teilung“ von Eingabeaufforderungen, sodass einige Eingaben für die zukünftige Bereitstellung nicht spezifiziert bleiben.

  • Automatische Injektion von Daten aus einem Fest Feature Store (möglicherweise unterstützt von Cassandra ) in eine Eingabeaufforderung.


Diese Komponenten arbeiten zusammen, um den Prozess der Datenintegration in Eingabeaufforderungen zu rationalisieren und eine reibungslose Interaktion zwischen dem LLM und der Datenbank sicherzustellen.

Integration mit Vektorsuche

Die Einbeziehung von Vektorsuche Funktionen in Cassandra und DataStax Astra DB hat kürzlich (lesen Sie die Neuigkeiten hier ) eine Schlüsselfunktion in eine bereits beliebte Datenbank für Transaktionsdaten integriert. Cassandras Ruf für hohe Skalierbarkeit bedeutet, dass Sie einen einzigen Ort zum Speichern und Verarbeiten von Daten haben, ohne Daten in kostspieligen Vorgängen verschieben zu müssen. Die Hinzufügung der Vektorsuche hat Türen zu einer Reihe von „semantisch bewussten“ Tools geöffnet, die in CassIO verfügbar sind, wie zum Beispiel:

  • Ein Cache mit LLM-Antworten, die nicht von der genauen Formulierung einer Abfrage abhängig sind.
  • Ein „semantischer Index“, der eine Wissensdatenbank speichern und relevante Teile abrufen kann, um die beste Antwort auf eine bestimmte Frage zu erstellen. Dieses Tool kann an viele spezifische Anforderungen angepasst und so konfiguriert werden, dass verschiedene Informationen abgerufen werden, um den tatsächlichen Informationsfluss in die Antwort zu maximieren.
  • Ein „semantisches Gedächtnis“-Element für LLM-Chat-Interaktionen, das relevante frühere Austausche abrufen kann, selbst wenn diese in der fernen Vergangenheit stattgefunden haben.


Durch die Kombination von CassIO und LangChain werden diese Funktionen im Laufe der Zeit immer weiter erweitert und verfeinert, um den sich ständig weiterentwickelnden Anforderungen des LLM-Managements gerecht zu werden. Der aktuelle Stand der Technik besteht darin, Eingabeaufforderungen zu verketten, um genauere Antworten von LLMs zu erhalten. In einem kürzlich erschienenen Artikel wird eine Technik namens beschrieben Gedankenbaum , spielt die Vektorsuche eine entscheidende Rolle für die Beständigkeit von einer Eingabeaufforderung zur nächsten. Während diese Ideen von der Wissenschaft in die Produktion übergehen, wird Cassandra ein wichtiger Teil der Umsetzung sein.

Nächste Eingabeaufforderung: Was kommt für CassIO?

Als sich weiterentwickelndes Tool wächst CassIO schnell und es kommen regelmäßig neue Entwicklungen und Updates hinzu. Zum Zeitpunkt des Verfassens dieses Artikels unterstützt CassIO LangChain, LlamaIndex wird bald verfügbar sein. Das langfristige Ziel dieses Projekts besteht darin, hochskalierten Speicher für autonome KI-Agenten wie den zu unterstützen JARVIS Projekt. Agenten mit LLMs sind eine spannende Entwicklung, die einen unglaublichen Einfluss auf viele Branchen mit komplexer Aufgabenabwicklung haben wird. Diese Agenten müssen den Überblick über viele Aspekte von Daten und Interaktionen behalten, und Cassandra ist die richtige Datenbank für diese Aufgabe. Zuverlässig und leistungsstark.


Ein bevorstehendes Bootcamp, „ NoCode, Daten & KI: LLM Bootcamp mit Cassandra „bietet Entwicklern die Möglichkeit, praktisch mit der Bibliothek zusammenzuarbeiten, um einen Chat-Bot zu erstellen. Halten Sie Ausschau nach weiteren Aktivitäten wie dieser in einer Stadt in Ihrer Nähe! Wir ermutigen Benutzer zum Entdecken CassIO Zu Dateiprobleme , an dem ... teilnehmen Foren und helfen Sie uns, diese schnell materialisierende Halluzination zu verbessern.


Wer weiß, wie die Geschichte diesen Moment beurteilen wird? War es ein Leak interner Informationen von OpenAI? Oder, wenn man etwas düsterer darüber nachdenkt: Ist dies der erste Schritt der KI, den Menschen dazu zu bringen, seinen Befehlen zu gehorchen? So oder so verfügen Entwickler jetzt über eine einfach zu verwendende Bibliothek, mit der sie die nahezu unendliche Skalierung von Cassandra nutzen können, wenn sie in die Welt der generativen KI eintauchen.


ChatGPT hat uns ein Geschenk gemacht. Was werden Sie also damit aufbauen? Ich werde mich in einem kommenden Webinar mit der Vektorsuche befassen (Anmelden). Hier !), und wenn Sie einfach noch heute einsteigen und mit der Arbeit beginnen möchten, DataStax Astra hat einige tolle Tutorials.



Von Patrick McFadin, DataStax

Patrick McFadin ist Co-Autor des O'Reilly-Buches „Managing Cloud Native Data on Kubernetes“. Derzeit arbeitet er bei DataStax im Bereich Entwicklerbeziehungen und als Mitwirkender am Apache Cassandra-Projekt. Patrick hat als Chefevangelist für Apache Cassandra (er ist auch ein frischgebackener Cassandra-Committer!) und als Berater für DataStax gearbeitet, wo er viel Spaß beim Aufbau einiger der größten Bereitstellungen in der Produktion hatte.