Mathematische Argumentation ist seit langem eine Herausforderung für die künstliche Intelligenz. Während Sprachmodelle wie GPT-3 und ChatGPT bei vielen Sprachaufgaben beeindruckende Leistungen erbracht haben, haben sie immer noch Schwierigkeiten, komplexe mathematische Probleme auf Universitätsniveau genau zu lösen. Die Beherrschung anspruchsvoller mathematischer Denkfähigkeiten könnte KI-Anwendungen in verschiedenen Bereichen wie Wissenschaft, Technik, Finanzen und mehr ermöglichen.
Kürzlich haben Forscher der Tsinghua-Universität und von Microsoft erhebliche Fortschritte bei der Stärkung der mathematischen Denkfähigkeiten großer Sprachmodelle erzielt. Ihre wichtigste technische Innovation (
Mal sehen, wie es funktioniert!
Aufgaben wie numerische Berechnungen und grundlegende Algebra können von vorhandenen Modellen einigermaßen gut bewältigt werden. Allerdings bleibt die Lösung komplexer mathematischer Probleme mit mehrstufiger Inferenz, symbolischen Manipulationen und abstrakten Konzepten problematisch.
Beispielsweise gelingt es Modellen oft nicht, algebraische Textaufgaben zu lösen, bei denen es darum geht, Variablen zu identifizieren, Gleichungssysteme aufzustellen und verbal im Text beschriebene Beziehungen mathematisch zu formalisieren. Die Geometrie stellt aufgrund der Notwendigkeit räumlicher Denkfähigkeiten eine Herausforderung dar. In Mathematikübungen an Gymnasien und Universitäten werden auch Konzepte wie Beweise, Integrale, Matrizen und mehr eingeführt, die bestehende Sprachmodelle durcheinander bringen.
Die Forscher führen diese Schwierigkeiten auf zwei Hauptfaktoren zurück:
Mangel an Fähigkeiten zum abstrakten Denken : Sprachmodelle werden heute hauptsächlich auf Internet-Textkorpora trainiert. Dadurch werden zwar sprachliche Fähigkeiten vermittelt, aber nicht das strukturierte Wissen und die Logik vermittelt, die für mathematisches Denken erforderlich sind.
Unfähigkeit, symbolische Berechnungen durchzuführen : Der Sprache fehlt die Genauigkeit und Präzision, die für die Manipulation mathematischer Symbole erforderlich sind. Modelle können in jedem Schritt kleine Fehler machen, die sich bei mehrstufigen Problemen anhäufen.
Um diese Herausforderungen anzugehen, schlagen die Forscher vor, Sprachmodellen das Denken in einem Format beizubringen, das sie Tool-Integrated Reasoning nennen. Die wichtigste Neuerung besteht darin, die vom Modell generierten natürlichen Sprachprinzipien mit Code zu verknüpfen, um externe mathematische Werkzeuge aufzurufen.
Bei einem komplexen Algebra-Wortproblem kann das Modell beispielsweise zunächst den Ansatz in Worten beschreiben, dann mit SymPy ein Python-Programm schreiben, um das Gleichungssystem symbolisch aufzustellen, es auszuführen, um eine Lösung zu erhalten, und schließlich das Ergebnis verbal erklären.
Dies ergänzt die Stärken von Sprachmodellen beim logischen Denken und Planen auf hoher Ebene mit der Präzision und Rechenleistung mathematischer Werkzeuge. Sie gehen davon aus, dass dies die Fähigkeit der Modelle zur Lösung von Problemen, die sowohl semantisches Verständnis als auch symbolische Manipulation erfordern, erheblich verbessern könnte.
Um diese Vision zu verwirklichen, mussten die Forscher zunächst einen Datensatz erstellen, der das werkzeugintegrierte Denken bei mathematischen Problemen demonstriert. Sie nutzten die Fähigkeiten von GPT-3, um automatisch 16.000 Beispiele von GPT-3 selbst zu generieren, das Probleme aus den GSM8k- und MATH-Datensätzen löst und dabei mit Tools wie SymPy interagiert.
Mit diesem Korpus von Werkzeuginteraktionsverläufen trainierte das Team vorab Versionen des LLaMA-Modells mithilfe von Nachahmungslernen. Das heißt, die Modelle wurden darauf trainiert, das Werkzeugnutzungsverhalten und die im Datensatz dargestellten verschachtelten Begründungen in natürlicher Sprache vorherzusagen.
Dieser Ansatz führte zu einer Reihe von Tool -integrierten Open -Source- Reasoning Agents (TORA) mit 7 bis 70 Milliarden Parametern.
Die Forscher bewerteten die TORA-Modelle systematisch anhand von 10 verschiedenen Datensätzen zum mathematischen Denken und verglichen die Leistung mit früheren, hochmodernen Techniken.
Die Ergebnisse zeigen, dass das werkzeugintegrierte Argumentationstraining bei allen Modellgrößen und Aufgaben erhebliche Fortschritte bringt:
TORA-Modelle erzielten im Durchschnitt eine um 13–19 % höhere Genauigkeit im Vergleich zu den besten vorhandenen Open-Source-Modellen.
Bei einem anspruchsvollen Mathematiktest auf Wettbewerbsniveau (MATH-Datensatz) erzielte TORA-7B eine Genauigkeit von 40 % und übertraf damit das bisher beste Modell um 22 Prozentpunkte.
TORA-34B erreichte eine Genauigkeit von 51 % bei MATH und übertraf damit die Leistung von GPT-4 von 43 % bei denselben Problemen.
Dies deutet darauf hin, dass das Erlernen der Nutzung externer Tools selbst sehr große Modelle wie GPT-4 beim mathematischen Denken deutlich verbessern könnte.
Interessanterweise waren die Verbesserungen bei verschiedenen Problemtypen konsistent, darunter Arithmetik, Algebra, Analysis, Geometrie, Wahrscheinlichkeit usw. Die Tool-Integration scheint weitreichende Vorteile zu bieten.
Um das Modellverhalten besser zu verstehen, analysierten die Forscher systematisch Werkzeugnutzungsmuster in verschiedenen mathematischen Bereichen:
Sie bewerteten auch Ablationen, bei denen entweder natürliche Sprachprinzipien oder die Tool-Integration entfernt wurden:
Diese Erkenntnisse beleuchten die komplementären Stärken sowohl des sprachlichen als auch des symbolischen Denkens.
Trotz der Vorteile der Tool-Integration besteht weiterhin erheblicher Raum für Verbesserungen. Die Forscher identifizierten Geometrie und fortgeschrittene Algebra als Bereiche, in denen Modelle noch Probleme hatten.
Die Geometrie stellt eine Herausforderung dar, da aktuelle Tools wie SymPy nur über begrenzte Möglichkeiten für räumliches Denken verfügen. Fortschritte im multimodalen Denken und eine engere Integration mit grafischen Bibliotheken könnten hilfreich sein.
Für die abstrakte Algebra sind möglicherweise Techniken erforderlich, die von menschlichen Mathematikern verwendet werden, z. B. die Nutzung bekannter Theoreme und die Rückwärtsbearbeitung von Problemen ausgehend vom Ergebnis. Wahrscheinlich sind auch stärkere Fähigkeiten zum symbolischen Denken erforderlich.
Insgesamt liefert diese Forschung vielversprechende Beweise dafür, dass die Kombination der Stärken von Sprachmodellen mit speziellen externen Tools das mathematische Denken deutlich verbessern kann. Allerdings bleibt die effiziente Integration verschiedener Argumentationsmodalitäten und übergeordneter mathematischer Problemlösungsstrategien ein offenes Problem. Dies sind wichtige Richtungen für die zukünftige Arbeit.
Das hier vorgestellte werkzeugintegrierte Trainingsparadigma könnte auch eine Untersuchung zur Integration externer Fähigkeiten anregen, um das Denken in Disziplinen wie Logik, gesundem Menschenverstand und Kunst zu verbessern. Dies könnte ein wichtiger Schritt hin zu leistungsfähigeren und vielseitigeren KI-Systemen sein.
Auch hier veröffentlicht.