AI模型對比評測:Claude 3 Opus vs GPT-4 vs Gemini 1.5 Pro

AI模型對比評測:Claude 3 Opus vs GPT-4 vs Gemini 1.5 Pro

繼早些時候對 Gemini 1.5 Pro 和 GPT-4 進行比較之後,我們又對 Anthropic 的 Claude 3 Opus 模型進行了新的人工智慧模型測試。該公司稱,Claude 3 Opus 最終在流行基準測試中擊敗了 OpenAI 的 GPT-4 模型。為了驗證這一說法,我們對 Claude 3 Opus、GPT-4 和 Gemini 1.5 Pro 進行了詳細對比。

如果你想了解 Claude 3 Opus 模型在高階推理、數學、長語境資料、影象分析等方面的表現,請看下面的對比。

1. 蘋果測試

I have 3 apples today, yesterday I ate an apple. How many apples do I have now?(今天我有 3 個蘋果,昨天我吃了一個蘋果。我現在有幾個蘋果?)

讓我們從流行的蘋果測試開始,它可以評估 LLM 的推理能力。在這個測試中,Claude 3 Opus 模型的回答是正確的,它說你現在有三個蘋果。不過,為了得到正確的回答,我必須設定一個系統提示,補充說明你是一個智慧助理,是高階推理專家。

Apple Test Claude 3 opus

在沒有系統提示的情況下,Opus 模型給出的答案是錯誤的。而 Gemini 1.5 Pro 和 GPT-4 則給出了正確答案,與我們之前的測試結果一致。

勝出者:Claude 3 Opus, Gemini 1.5 Pro, 和 GPT-4

2. 計算時間

If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?(如果在太陽下烘乾 15 條毛巾需要 1 小時,那麼烘乾 20 條毛巾需要多長時間?)

在這項測試中,我們試圖欺騙人工智慧模型,看看它們是否表現出任何智慧跡象。遺憾的是,Claude 3 Opus 和 Gemini 1.5 Pro 一樣,都沒有通過測試。我還在系統提示中新增了問題可能比較棘手的提示,所以要聰明地思考。然而,Opus 模型卻鑽研數學,得出了錯誤的結論。

CLAUDE 3 OPUS 烘乾時間測試

在我們之前的比較中,GPT-4 在這項測試中也給出了錯誤的答案。不過,在我們公佈結果後,GPT-4 一直在不斷生成輸出,經常是錯的,有時是對的。今天上午,我們再次執行了相同的提示,GPT-4 也給出了錯誤的輸出,甚至在被告知不使用程式碼直譯器時也是如此。

勝出者:沒有

3. 評估重量

What’s heavier, a kilo of feathers or a pound of steel?(一公斤羽毛和一磅鋼鐵哪個更重?)

CLAUDE 3 OPUS 評估重量測試

接下來,我們讓所有三個人工智慧模型回答一公斤羽毛是否比一磅鋼重。結果,Claude 3 Opus 回答錯誤,說一磅鋼和一公斤羽毛的重量相同。

Gemini 1.5 Pro 和 GPT-4 人工智慧模型給出了正確答案。一公斤任何材料都比一磅鋼重,因為一公斤的質量值是一磅的 2.2 倍。

勝出者:Gemini 1.5 Pro 和 GPT-4

4. 解決數學問題

If x and y are the tens digit and the units digit, respectively, of the product 725,278 * 67,066, what is the value of x + y. Can you explain the easiest solution without calculating the whole number?(如果 x 和 y 分別是乘積 725 278 * 67 066 的十位數和個位數,那麼 x + y 的值是多少。你能解釋不計算整數的最簡便解法嗎?)

在下一個問題中,我們要求 Claude 3 Opus 模型在不計算整數的情況下解決一個數學問題。結果它又失敗了。每次我執行提示時,不管有沒有系統提示,它都會給出不同程度的錯誤答案。

我很高興看到 Claude 3 Opus 在數學基準測試中獲得 60.1% 的分數,超過了 GPT-4(52.9%)和 Gemini 1.0 Ultra(53.2%)。

CLAUDE 3 OPUS 解決數學問題測試

看來通過思維鏈提示,Claude 3 Opus 模型可以獲得更好的結果。就目前而言,GPT-4 和 Gemini 1.5 Pro 在 zero-shot 提示下都給出了正確答案。

勝出者:Gemini 1.5 Pro 和 GPT-4

5. 遵循使用者指令

Generate 10 sentences that end with the word “apple”(生成 10 個以 “apple” 結尾的句子)

在執行使用者指令方面,Claude 3 Opus 模型的表現非常出色。它有效地擊敗了所有人工智慧模型。當被要求生成 10 個以 “apple” 結尾的句子時,它能生成 10 個完全符合邏輯的以 “apple” 結尾的句子。

CLAUDE 3 OPUS 遵循使用者指令測試

相比之下,GPT-4 能生成九個這樣的句子,而 Gemini 1.5 Pro 的表現最差,甚至連三個這樣的句子都生成不了。我想說,如果你正在尋找一個人工智慧模型,而遵循使用者指令對你的任務至關重要,那麼 Claude 3 Opus 是一個可靠的選擇。

當一位 X 使用者要求 Claude 3 Opus 遵循多個複雜的指令,並在 Andrej Karpathy 的 Tokenizer 視訊中建立一個書本章節時,我們看到了這一點。Opus 模型表現出色,建立了一個包含說明、示例和相關圖片的精美書章

勝出者:Claude 3 Opus

6. 大海撈針(NIAH)測試

Anthropic 是推動人工智慧模型支援大型上下文視窗的公司之一。Gemini 1.5 Pro 可載入多達一百萬個 token(預覽版),而 Claude 3 Opus 的上下文視窗為 20 萬個 token。根據 NIAH 的內部研究結果,Opus 模型檢索針的準確率超過 99%。

CLAUDE 3 OPUS NIAH測試

在僅有 8K 標記的測試中,Claude 3 Opus 無法找到針,而 GPT-4 和 Gemini 1.5 Pro 卻能輕鬆找到。我們還在 Claude 3 Sonnet 上進行了測試,但再次失敗。我們需要對 Claude 3 模型進行更廣泛的測試,以瞭解它們在長文字資料上的效能。但現在看來,Anthropic 的情況並不樂觀。

勝出者:Gemini 1.5 Pro 和 GPT-4

7. 猜電影(視覺測試)

Claude 3 Opus 是一個多模態模型,也支援影象分析。因此,我們新增了谷歌 Gemini demo 的劇照,讓它猜電影。它給出了正確答案: Breakfast at Tiffany’s。幹得好,Anthropic!

猜電影(視覺測試)

GPT-4 也給出了正確的電影名稱,但奇怪的是,Gemini 1.5 Pro 卻給出了錯誤的答案。我不知道谷歌在搞什麼鬼。不過,Claude 3 Opus 的影象處理能力相當不錯,與 GPT-4 不相上下。

given the play on words of these images, guess the name of the movie(根據這些圖片的文字遊戲,猜猜電影的名字)

勝出者:Claude 3 Opus 和 GPT-4

小結

在對 Claude 3 Opus 模型進行了一天的測試後,我們發現這款模型似乎很有能力,但在一些你期望它表現出色的任務中卻表現不佳。在我們的常識推理測試中,Opus 模型表現不佳,落後於 GPT-4 和 Gemini 1.5 Pro。除了遵循使用者指令外,它在 NIAH(本應是其強項)和數學方面的表現也不盡如人意。

此外,請記住,Anthropic 將 Claude 3 Opus 的基準測試成績與 GPT-4 在 2023 年 3 月首次釋出時的初始報告成績進行了比較。正如 Tolga Bilge 在 X 上指出的那樣,與 GPT-4 的最新基準分數相比,Claude 3 Opus 輸給了 GPT-4。

儘管如此,Claude 3 Opus 也有自己的優勢。X 上的一位使用者報告說,Claude 3 Opus 僅憑翻譯對資料庫就能將俄語翻譯成切爾克斯語(一種很少有人會說的罕見語言)。凱文-費舍爾(Kevin Fischer)進一步分享說,Claude 3 可以理解博士級量子物理學的細微差別。另一位使用者演示了 Claude 3 Opus 一次就能學會自我型別註釋,比 GPT-4 更好。

因此,除了基準測試和棘手的問題之外,Claude 3 在一些專業領域的表現也更出色。因此,請繼續檢視 Claude 3 Opus 模型,看看它是否適合您的工作流程。如果您有任何問題,請在下面的評論區告訴我們。

評論留言