paint-brush
Claude 3.5 Sonnet vs GPT-4o - Đánh giá trung thựctừ tác giả@aibites
46,964 lượt đọc
46,964 lượt đọc

Claude 3.5 Sonnet vs GPT-4o - Đánh giá trung thực

từ tác giả Shrinivasan Sankar5m2024/07/02
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Anthropic, công ty đứng sau loạt mẫu Claude, đã phát hành Claude 3.5 Sonnet. Đã đến thời điểm tất cả chúng ta đều chấp nhận GPT-4o là mô hình mặc định tốt nhất cho phần lớn các nhiệm vụ như lý luận, tóm tắt, v.v. Anthropic đưa ra tuyên bố táo bạo rằng mô hình của họ đặt ra “tiêu chuẩn ngành” mới cho trí thông minh. Mô hình này tự hào có hiệu suất vượt trội đối với 4 trong số 5 nhiệm vụ tầm nhìn theo kết quả được công bố của họ.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Claude 3.5 Sonnet vs GPT-4o - Đánh giá trung thực
Shrinivasan Sankar HackerNoon profile picture
0-item

Anthropic, công ty đứng sau loạt mẫu Claude, đã phát hành Claude 3.5 Sonnet. Đã đến thời điểm mà tất cả chúng ta đều chấp nhận GPT-4o là mô hình mặc định tốt nhất cho phần lớn các nhiệm vụ như lý luận, tóm tắt, v.v. Anthropic đưa ra tuyên bố táo bạo rằng mô hình của họ đặt ra “tiêu chuẩn ngành” mới cho trí thông minh.

Ngoài ra, nó có sẵn miễn phí trên claude.ai nếu bạn muốn dùng thử. Vì vậy, chúng tôi rất hào hứng và muốn thử nghiệm mô hình và so sánh nó với GPT-4o. Bài viết này bắt đầu với phần tổng quan về các tính năng được phát hành cùng với Claude 3.5 và kiểm tra nó với GPT-4o về việc tạo mã cũng như các tác vụ suy luận logic và toán học.

Những đặc điểm chính

Mô hình này đi kèm với ba tính năng chính hoặc điểm mới lạ khiến họ khẳng định rằng nó đánh bại GPT-4o trong hầu hết các tác vụ.

  • Cải thiện nhiệm vụ tầm nhìn. Mô hình này tự hào có hiệu suất vượt trội đối với 4 trong số 5 nhiệm vụ tầm nhìn theo kết quả được công bố bên dưới.

  • Tốc độ gấp 2 lần. So với GPT-4o hoặc những người tiền nhiệm của nó như Claude Opus, Claude Sonnet tự hào về tốc độ thế hệ gấp 2 lần.
  • Artifacts — giao diện người dùng mới dành cho các tác vụ như tạo mã và hoạt ảnh.

Hãy cùng tìm hiểu sâu hơn về các tính năng và so sánh chúng với Vua LLM trị vì lâu đời, GPT-4o.

Bắt đầu

Để bắt đầu, chúng ta phải đăng nhập vào trang web claude.ai và kích hoạt tính năng tạo tác. Vì đây là một tính năng thử nghiệm nên chúng tôi cần kích hoạt nó. Chúng tôi phải xem trước tính năng và bật Tạo tác từ đó như hiển thị bên dưới.

Sau khi được bật, mô hình sẽ hiển thị một cửa sổ dành riêng ở bên cạnh cho các tác vụ cần chúng như mã hóa hoặc hoạt ảnh.

Nhiệm vụ tầm nhìn - Lý luận trực quan

Để kiểm tra khả năng suy luận trực quan được cải thiện, chúng tôi tải hai sơ đồ bên dưới lên mô hình Claude Sonnet và đặt câu hỏi: “Bạn có thể rút ra điều gì từ dữ liệu này?”.

Sơ đồ dưới dạng hình ảnh để kiểm tra khả năng suy luận trực quan

Phản hồi từ Claude Sonnet thật đáng kinh ngạc. Nó tóm tắt chính xác tiến trình học sâu rằng: “Dữ liệu này minh họa sự tiến bộ nhanh chóng trong kiến trúc học sâu và mở rộng quy mô mô hình, cho thấy xu hướng hướng tới các mô hình lớn hơn, mạnh mẽ hơn”. Chúng tôi cũng nhận được phản hồi tương tự từ GPT-4o. Vì vậy, để hiểu rõ hơn về cái nào tốt hơn, chúng tôi bắt đầu so sánh cả hai mô hình một cách có hệ thống theo bốn nhiệm vụ - mã hóa, mã hóa bằng giao diện người dùng, lý luận logic và lý luận Toán học.

So với GPT-4o – Cái nào tốt nhất?

Bây giờ chúng ta đã thấy được cái nhìn tổng quan, hãy đi sâu hơn và tìm hiểu mô hình. Hãy kiểm tra khả năng tạo mã, suy luận logic và suy luận toán học.

Tạo mã

Để tạo mã, tôi sẽ yêu cầu cả hai mô hình tạo mã để chơi trò chơi Sudoku nổi tiếng. Tôi đã nhắc cả hai mô hình với lời nhắc chính xác, “viết mã python để chơi trò chơi sudoku”. Với lời nhắc này, cả Claude 3.5 và GPT-4o đều tạo mã mà chúng ta chỉ có thể tương tác từ dấu nhắc lệnh. Điều này nằm trong dự kiến vì chúng tôi chưa chỉ định cách tạo mã giao diện người dùng. Một số quan sát ban đầu:

  • Cả hai mô hình đều tạo ra mã không có lỗi.
  • Claude tạo mã với tính năng chọn mức độ khó. Nhưng GPT-4o thì không!
  • Với tốc độ tạo mã, Claude chắc chắn đánh bại GPT-4o
  • GPT-4o có xu hướng tạo mã với các gói không cần thiết

Tạo mã với giao diện người dùng

Vì việc tương tác với dấu nhắc lệnh không dành cho tất cả mọi người nên tôi muốn các mô hình tạo mã bằng giao diện người dùng. Để làm điều này, tôi đã sửa đổi lời nhắc thành “viết mã để chơi trò chơi sudoku”. Lần này, tôi đã xóa “python” khỏi lời nhắc vì tôi cảm thấy rằng nó sẽ nhắc nó chỉ tạo mã phụ trợ. Đúng như dự đoán, lần này Claude 3.5 đã tạo ra một giao diện người dùng chức năng như dưới đây. Mặc dù giao diện người dùng không hoàn toàn mạnh mẽ và hấp dẫn nhưng nó vẫn hoạt động tốt.

Nhưng thật không may, GPT-4o đã không tạo ra giao diện người dùng tương tự. Nó vẫn tạo mã bằng dấu nhắc lệnh tương tác.

Câu đố 1 – Suy luận logic

Đối với câu đố đầu tiên, tôi đã hỏi câu hỏi dưới đây:

Jane đến thăm Jill. Jill là con gái duy nhất của mẹ chồng, con gái duy nhất của mẹ chồng Jane. Jane có mối quan hệ gì với Jill?

Cả hai mô hình đều đưa ra một chuỗi các bước suy luận và trả lời chính xác câu hỏi. Vì vậy, nó phải có sự ràng buộc giữa Claude 3.5 và GPT-4o trong trường hợp này.

Câu đố 2 – Suy luận logic

Đối với câu đố thứ hai, tôi đã hỏi câu hỏi dưới đây:

Từ nào ít giống những từ còn lại nhất. Sự khác biệt không liên quan gì đến nguyên âm, phụ âm hay âm tiết. THÊM, CẶP, ETCHERS, ZIPPER\

Để đạt được điều này, cả hai mô hình đều đưa ra các bước suy luận logic khác nhau để đưa ra các câu trả lời khác nhau. Claude lý giải rằng dây kéo là từ duy nhất có thể vừa là danh từ vừa là động từ. Nhưng những từ khác chỉ là danh từ hoặc tính từ. Vì vậy, nó đã xác định ZIPPER là câu trả lời. Mặt khác, GPT-4o xác định THÊM lý do rằng đó không phải là một vật thể cụ thể hoặc một kiểu người cụ thể.

Tất cả điều này chỉ ra rằng chúng ta cần đưa ra lời nhắc cụ thể hơn, từ đó dẫn đến sự hòa trong trường hợp này.

Câu đố 3 – Lý luận toán học

Hãy chuyển sang một câu đố lý luận trực quan nổi tiếng có thể được tính bằng một công thức. Vì vậy, tôi đã đưa ra hình bên dưới cùng với lời nhắc bên dưới làm đầu vào cho cả hai mô hình.

3 vòng tròn bên dưới đều có các chấm màu xanh trên chu vi được nối với nhau bằng các đường thẳng. Vòng tròn đầu tiên có hai chấm màu xanh lam chia nó thành hai vùng. Cho một hình tròn có 7 chấm nằm ở bất kỳ vị trí nào trên chu vi của nó, số vùng tối đa mà hình tròn có thể được chia thành là bao nhiêu?

Trong trường hợp này, GPT-4o đã đưa ra câu trả lời đúng nhất là 57. Nhưng Claude 3.5 đã đưa ra câu trả lời là 64, điều này không hoàn toàn chính xác. Cả hai mô hình đều đưa ra các bước suy luận hợp lý để giải thích lý do tại sao họ đi đến câu trả lời. Định dạng của các công thức toán học trong GPT-4o tốt hơn định dạng của Claude 3.5.

Phán quyết của chúng tôi

Dựa trên các thử nghiệm của chúng tôi, chúng tôi kết luận rằng người chiến thắng trong các nhiệm vụ tạo mã, có thể là mã được hỗ trợ thuần túy hoặc mã GUI, là sonnet Claude 3.5. Nó có mối liên hệ chặt chẽ với các nhiệm vụ suy luận logic. Nhưng khi nói đến nhiệm vụ suy luận toán học, GPT-4o vẫn dẫn đầu và Claude vẫn chưa bắt kịp.

Về tốc độ tạo, Claude chắc chắn là người chiến thắng vì nó tạo ra văn bản hoặc mã nhanh hơn nhiều so với GPT-4o. Kiểm tra của chúng tôi nếu bạn muốn so sánh tốc độ tạo văn bản trong thời gian thực.

La lên

Nếu bạn thích bài viết này, tại sao không theo dõi tôi Twitter nơi tôi chia sẻ thông tin cập nhật nghiên cứu từ các phòng thí nghiệm AI hàng đầu mỗi ngày trong tuần?

Ngoài ra hãy đăng ký theo dõi của tôi Kênh Youtube nơi tôi giải thích các khái niệm và bài viết về AI một cách trực quan.