Anthropic, la société à l'origine de la série de modèles Claude, a lancé Claude 3.5 Sonnet. Cela arrive à un moment où nous avons tous accepté que GPT-4o soit le meilleur modèle par défaut pour la majorité des tâches telles que le raisonnement, la synthèse, etc. Anthropic affirme audacieusement que son modèle établit la nouvelle « norme de l'industrie » en matière d'intelligence.
De plus, il est disponible gratuitement sur claude.ai si vous souhaitez l'essayer. Nous étions donc enthousiasmés et voulions tester le modèle et le comparer à GPT-4o. Cet article commence par un aperçu des fonctionnalités publiées avec Claude 3.5 et les teste par rapport à GPT-4o sur la génération de code, ainsi que sur les tâches de raisonnement logique et mathématique.
Le modèle est livré avec trois fonctionnalités ou nouveautés principales qui leur font affirmer qu'il bat GPT-4o dans la plupart des tâches.
Approfondissons les fonctionnalités et comparons-les avec le roi des LLM de longue date, GPT-4o.
Pour commencer, nous devons être connectés au site claude.ai et activer la fonction artefacts. Comme il s'agit d'une fonctionnalité expérimentale, nous devons l'activer. Nous devons passer sous l'aperçu des fonctionnalités et activer les artefacts à partir de là, comme indiqué ci-dessous.
Une fois activé, le modèle affichera une fenêtre dédiée sur le côté pour les tâches qui en ont besoin comme le codage ou les animations.
Pour tester la capacité de raisonnement visuel améliorée, nous avons téléchargé les deux graphiques ci-dessous dans le modèle Claude Sonnet et posé la question : « Que pouvez-vous déduire de ces données ? »
Des tracés sous forme d'images pour tester le raisonnement visuel
La réponse de Claude Sonnet a été stupéfiante. Il résumait avec précision les progrès de l'apprentissage profond en disant : « Ces données illustrent des progrès rapides dans les architectures d'apprentissage profond et la mise à l'échelle des modèles, montrant une tendance vers des modèles plus grands et plus puissants ». Nous avons également reçu une réponse similaire de GPT-4o. Ainsi, pour mieux comprendre lequel est le meilleur, nous avons commencé à comparer systématiquement les deux modèles dans quatre tâches : codage, codage avec interface utilisateur, raisonnement logique et raisonnement mathématique.
Maintenant que nous avons vu un aperçu, approfondissons et prenons le modèle pour un tour. Testons la génération de code, le raisonnement logique et le raisonnement mathématique.
Pour la génération de code, je vais demander aux deux modèles de générer du code pour jouer au célèbre jeu de Sudoku. J'ai invité les deux modèles avec l'invite exacte : "écrivez du code python pour jouer au jeu de sudoku". Avec cette invite, Claude 3.5 et GPT-4o génèrent du code avec lequel nous pouvons interagir uniquement à partir de l'invite de commande. Ceci est attendu car nous n’avons pas précisé comment générer le code de l’interface utilisateur. Quelques premières observations :
Comme l'interaction avec l'invite de commande n'est pas pour tout le monde, je voulais que les modèles génèrent du code avec l'interface utilisateur. Pour cela, j'ai modifié l'invite en « écrire du code pour jouer à un jeu de sudoku ». Cette fois, j'ai supprimé « python » de l'invite car je pensais que cela l'inviterait à produire uniquement le code backend. Comme prévu, Claude 3.5 a produit cette fois une interface utilisateur fonctionnelle comme ci-dessous. Même si l’interface utilisateur n’était pas complètement robuste et attrayante, elle était fonctionnelle.
Mais GPT-4o n’a malheureusement pas produit une interface utilisateur similaire. Il générait toujours du code avec une invite de commande interactive.
Pour le premier casse-tête, j'ai posé la question ci-dessous :
Jane est allée rendre visite à Jill. Jill est la fille unique de la belle-mère du mari unique de Jane. quelle relation y a-t-il entre Jane et Jill ?
Les deux modèles ont proposé une séquence d’étapes de raisonnement et ont répondu correctement à la question. Il doit donc y avoir égalité entre Claude 3.5 et GPT-4o dans ce cas.
Pour le deuxième casse-tête, j'ai posé la question ci-dessous :
Lequel des mots ressemble le moins aux autres. La différence n’a rien à voir avec les voyelles, les consonnes ou les syllabes. PLUS, PAIRES, GRAVEURS, ZIPPER\
Pour cela, les deux modèles ont proposé différentes étapes de raisonnement logique pour aboutir à des réponses différentes. Claude a estimé que fermeture éclair est le seul mot qui peut fonctionner à la fois comme nom et comme verbe. Mais d’autres ne sont que des noms ou des adjectifs. Ainsi, il a identifié ZIPPER comme la réponse. GPT-4o, en revanche, a identifié PLUS de raisonnements selon lesquels il ne s'agit pas d'un objet concret ou d'un type spécifique de personne.
Tout cela indique que nous devons rendre l'invite plus spécifique, conduisant ainsi à une égalité dans ce cas.
Passons à un casse-tête de raisonnement visuel bien connu qui peut être calculé par une formule. J'ai donc donné la figure ci-dessous ainsi que l'invite ci-dessous comme entrée pour les deux modèles.
Les 3 cercles ci-dessous ont tous des points bleus sur leur circonférence qui sont reliés par des lignes droites. Le premier cercle comporte deux points bleus qui le séparent en deux régions. Étant donné un cercle avec 7 points placés n'importe où sur sa circonférence, quel est le nombre maximum de régions en lesquelles le cercle peut être divisé ?
Dans ce cas, GPT-4o a donné la bonne réponse de 57. Mais Claude 3.5 a donné la réponse de 64 qui n'est pas tout à fait correcte. Les deux modèles ont donné des étapes de raisonnement logique pour expliquer pourquoi ils sont arrivés à la réponse. Le formatage des formules mathématiques en GPT-4o est préférable à celui de Claude 3.5.
Sur la base de nos tests, nous concluons que le gagnant pour les tâches de génération de code, qu'il s'agisse de code à support pur ou de code GUI, est Claude 3.5 sonnet. C'est un lien étroit avec les tâches de raisonnement logique. Mais lorsqu’il s’agit de tâches de raisonnement mathématique, GPT-4o est toujours en tête et Claude n’a pas encore rattrapé son retard.
En termes de vitesse de génération, Claude est sans aucun doute le gagnant car il produit du texte ou du code beaucoup plus rapidement que GPT-4o. Consultez notre
Si vous avez aimé cet article, pourquoi ne pas me suivre
Abonnez-vous également à mon