paint-brush
Claude 3.5 Sonnet vs. GPT-4o – Ein ehrlicher Testvon@aibites
46,964 Lesungen
46,964 Lesungen

Claude 3.5 Sonnet vs. GPT-4o – Ein ehrlicher Test

von Shrinivasan Sankar5m2024/07/02
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

Anthropic, das Unternehmen hinter der Claude-Modellreihe, hat Claude 3.5 Sonnet veröffentlicht. Dies geschieht zu einem Zeitpunkt, an dem wir alle GPT-4o als das beste Standardmodell für die meisten Aufgaben wie logisches Denken, Zusammenfassen usw. akzeptiert haben. Anthropic erhebt die kühne Behauptung, dass sein Modell den neuen „Industriestandard“ für Intelligenz setzt. Laut den veröffentlichten Ergebnissen weist das Modell bei 4 von 5 Sehaufgaben eine hochmoderne Leistung auf.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Claude 3.5 Sonnet vs. GPT-4o – Ein ehrlicher Test
Shrinivasan Sankar HackerNoon profile picture
0-item

Anthropic, das Unternehmen hinter der Claude-Modellreihe, hat Claude 3.5 Sonnet veröffentlicht. Dies kommt zu einem Zeitpunkt, an dem wir alle GPT-4o als das beste Standardmodell für die meisten Aufgaben wie logisches Denken, Zusammenfassen usw. akzeptiert haben. Anthropic erhebt die kühne Behauptung, dass sein Modell den neuen „Industriestandard“ für Intelligenz setzt.

Darüber hinaus ist es kostenlos auf claude.ai verfügbar, wenn Sie es ausprobieren möchten. Wir waren also begeistert und wollten das Modell testen und mit GPT-4o vergleichen. Dieser Artikel beginnt mit einem Überblick über die mit Claude 3.5 veröffentlichten Funktionen und testet es mit GPT-4o bei der Codegenerierung sowie bei logischen und mathematischen Denkaufgaben.

Haupteigenschaften

Das Modell verfügt über drei Hauptfunktionen bzw. Neuheiten, aufgrund derer es angeblich GPT-4o bei den meisten Aufgaben schlägt.

  • Verbesserte Sehaufgaben. Das Modell bietet laut den unten veröffentlichten Ergebnissen bei 4 von 5 Sehaufgaben eine hochmoderne Leistung.

  • Doppelte Geschwindigkeit. Im Vergleich zu GPT-4o oder seinen Vorgängern wie Claude Opus verfügt Claude Sonnet über die doppelte Generierungsgeschwindigkeit.
  • Artefakte – eine neue Benutzeroberfläche für Aufgaben wie Codegenerierung und Animation.

Lassen Sie uns tiefer in die Funktionen eintauchen und sie mit dem langjährigen König der LLMs, GPT-4o, vergleichen.

Erste Schritte

Um zu beginnen, müssen wir uns auf der Website claude.ai anmelden und die Artefakte-Funktion aktivieren. Da es sich um eine experimentelle Funktion handelt, müssen wir sie aktivieren. Wir müssen zur Funktionsvorschau gehen und von dort aus Artefakte aktivieren, wie unten gezeigt.

Nach der Aktivierung zeigt das Modell an der Seite ein dediziertes Fenster für Aufgaben an, die diese benötigen, wie Codierung oder Animationen.

Sehaufgaben – Visuelles Denken

Um die verbesserte Fähigkeit zum visuellen Denken zu testen, haben wir die folgenden beiden Diagramme in das Claude-Sonnet-Modell hochgeladen und die Frage gestellt: „Was können Sie aus diesen Daten erkennen?“.

Plots als Bilder zum Testen des visuellen Denkens

Die Antwort von Claude Sonnet war verblüffend. Er fasste die Fortschritte im Bereich Deep Learning präzise zusammen und sagte: „Diese Daten veranschaulichen den schnellen Fortschritt bei Deep-Learning-Architekturen und der Modellskalierung und zeigen einen Trend zu größeren, leistungsfähigeren Modellen.“ Eine ähnliche Antwort erhielten wir auch von GPT-4o. Um also besser zu verstehen, welches Modell besser ist, begannen wir, beide Modelle systematisch in vier Aufgaben zu vergleichen – Codierung, Codierung mit UI, logisches Denken und mathematisches Denken.

Im Vergleich zu GPT-4o – Was ist besser?

Nachdem wir uns nun einen Überblick verschafft haben, wollen wir tiefer eintauchen und das Modell ausprobieren. Lassen Sie uns die Codegenerierung, das logische Denken und das mathematische Denken testen.

Codegenerierung

Zur Codegenerierung werde ich beide Modelle bitten, Code zum Spielen des bekannten Sudoku-Spiels zu generieren. Ich habe beide Modelle mit der genauen Eingabeaufforderung „Schreiben Sie Python-Code, um das Sudoku-Spiel zu spielen“ aufgefordert. Mit dieser Eingabeaufforderung generieren sowohl Claude 3.5 als auch GPT-4o Code, mit dem wir nur über die Eingabeaufforderung interagieren können. Dies ist zu erwarten, da wir nicht angegeben haben, wie UI-Code generiert werden soll. Einige erste Beobachtungen:

  • Beide Modelle produzieren fehlerfreien Code.
  • Claude generiert Code mit der Funktion, den Schwierigkeitsgrad auszuwählen. GPT-4o hingegen nicht!
  • Mit der Geschwindigkeit der Codegenerierung schlägt Claude GPT-4o ohne Zweifel
  • GPT-4o neigt dazu, Code mit unnötigen Paketen zu generieren

Codegenerierung mit UI

Da die Interaktion mit der Eingabeaufforderung nicht jedermanns Sache ist, wollte ich, dass die Modelle Code mit Benutzeroberfläche generieren. Dazu habe ich die Eingabeaufforderung geändert in „Schreiben Sie Code, um ein Sudoku-Spiel zu spielen“. Dieses Mal habe ich „Python“ aus der Eingabeaufforderung entfernt, da ich der Meinung war, dass es nur den Backend-Code erzeugen würde. Wie erwartet hat Claude 3.5 dieses Mal eine funktionale Benutzeroberfläche wie unten gezeigt erstellt. Obwohl die Benutzeroberfläche nicht ganz robust und ansprechend war, war sie funktional.

Leider hat GPT-4o keine ähnliche Benutzeroberfläche erstellt. Es wurde weiterhin Code mit einer interaktiven Eingabeaufforderung generiert.

Rätsel 1 – Logisches Denken

Für das erste Rätsel habe ich die folgende Frage gestellt:

Jane besuchte Jill. Jill ist die einzige Tochter des einzigen Mannes von Janes einzigem Schwiegervater, der einzige Mann der einzigen Tochter. In welcher Beziehung steht Jane zu Jill?

Beide Modelle haben eine Abfolge von Denkschritten entwickelt und die Frage richtig beantwortet. In diesem Fall muss es also ein Unentschieden zwischen Claude 3.5 und GPT-4o geben.

Rätsel 2 – Logisches Denken

Für das zweite Rätsel habe ich die folgende Frage gestellt:

Welches der Wörter ähnelt den anderen am wenigsten? Der Unterschied hat nichts mit Vokalen, Konsonanten oder Silben zu tun. MEHR, PAARE, ETCHERS, ZIPPER\

Dafür entwickelten beide Modelle unterschiedliche logische Denkschritte, um zu unterschiedlichen Antworten zu gelangen. Claude schlussfolgerte, dass Reißverschluss das einzige Wort ist, das sowohl als Substantiv als auch als Verb fungieren kann. Andere sind jedoch entweder nur Substantive oder Adjektive. Daher wurde ZIPPER als Antwort identifiziert. GPT-4o hingegen identifizierte MORE und schlussfolgerte, dass es sich weder um ein konkretes Objekt noch um einen bestimmten Personentyp handelt.

All dies deutet darauf hin, dass wir die Eingabeaufforderung spezifischer gestalten müssen, was in diesem Fall zu einem Unentschieden führen würde.

Rätsel 3 – Mathematisches Denken

Kommen wir nun zu einem bekannten visuellen Denkrätsel, das mit einer Formel berechnet werden kann. Daher habe ich die folgende Abbildung zusammen mit der folgenden Eingabeaufforderung als Eingabe für beide Modelle bereitgestellt.

Die folgenden 3 Kreise haben alle blaue Punkte auf ihrem Umfang, die durch gerade Linien verbunden sind. Der erste Kreis hat zwei blaue Punkte, die ihn in zwei Bereiche unterteilen. Gegeben sei ein Kreis mit 7 Punkten an beliebiger Stelle auf seinem Umfang. In wie viele Bereiche kann der Kreis maximal unterteilt werden?

In diesem Fall kam GPT-4o mit der absolut richtigen Antwort von 57. Aber Claude 3.5 kam mit der Antwort 64, die nicht ganz korrekt ist. Beide Modelle lieferten logische Argumentationsschritte, warum sie zu dieser Antwort kamen. Die Formatierung der mathematischen Formeln in GPT-4o ist der von Claude 3.5 vorzuziehen.

Unser Urteil

Basierend auf unseren Tests kommen wir zu dem Schluss, dass der Gewinner bei Codegenerierungsaufgaben, sei es reiner Backed-Code oder GUI-Code, Claude 3.5 Sonett ist. Bei Aufgaben zum logischen Denken ist es ein knappes Unentschieden. Aber wenn es um Aufgaben zum mathematischen Denken geht, ist GPT-4o immer noch führend und Claude muss noch aufholen.

In Bezug auf die Generierungsgeschwindigkeit ist Claude zweifellos der Gewinner, da es Text oder Code viel schneller erzeugt als GPT-4o. Schauen Sie sich unsere wenn Sie die Geschwindigkeit der Textgenerierung in Echtzeit vergleichen möchten.

Ausruf

Wenn Ihnen dieser Artikel gefallen hat, folgen Sie mir doch auf Þjórsárden wo ich an jedem einzelnen Tag der Woche Forschungsupdates von Top-KI-Laboren teile?

Bitte abonnieren Sie auch meinen Youtube Kanal wo ich KI-Konzepte und -Dokumente visuell erkläre.