有沒有想過 Claude 3.7 在生成響應時是如何思考的?與傳統程式不同,Claude 3.7 的認知能力依賴於從海量資料中學到的模式。每一次預測都是數十億次運算的結果,但它的推理仍然是一個複雜的謎題。它是真的會計劃,還是隻是預測最有可能出現的下一個詞?透過分析 Claude 人工智慧的思維能力,研究人員可以探索它的解釋是反映了真正的推理能力,還是隻是似是而非的理由。研究這些模式,就像研究神經科學一樣,有助於我們破解 Claude 3.7 思考過程背後的潛在機制。
LLM內部發生了什麼?
像 Claude 3.7 這樣的大型語言模型(LLM) 透過類似人類推理的複雜內部機制處理語言。它們利用相互連線的人工神經元,透過數字向量進行交流,分析龐大的資料集,預測和生成文字。最新研究表明,LLMs 會進行內部討論,評估多種可能性,然後做出回應。為了增強這些推理能力,我們開發了思維鏈提示和思維偏好最佳化等技術。瞭解這些內部過程對於提高 LLM 的可靠性、確保其輸出符合道德標準至關重要。
瞭解Claude 3.7如何思考的任務
在本探索中,我們將透過具體任務來分析 Claude 3.7 的認知能力。每項任務都將揭示 Claude 如何處理資訊、推理問題和回應詢問。我們將揭示該模型如何構建答案、檢測模式,有時甚至是編造推理。
Claude會多種語言嗎?
想象一下,用英語、法語和中文向 Claude 詢問 “小”的反義詞。Claude 並沒有將每種語言分開處理,而是首先啟用“大”的內部共享概念,然後再將其翻譯成相應的語言。
這揭示了一些迷人之處:Claude 不僅會傳統意義上的多種語言。它沒有執行單獨的“英語版 Claude”或“法語版 Claude”,而是在一個通用的概念空間內執行,先進行抽象思維,然後再將思維轉換成不同的語言。
Source: Anthropic
換句話說,Claude 並不只是記住不同語言的詞彙,而是更深層次地理解含義。一心多用,先處理想法,然後用你選擇的語言表達出來。
Claude在押韻時會提前思考嗎?
讓我們以一首簡單的兩行詩為例:
He saw a carrot and had to grab it,
His hunger was like a starving rabbit.
乍一看,Claude 似乎是按順序生成每個單詞,只確保最後一個單詞在行尾押韻。然而,實驗表明,Claude 的做法更為先進,他在寫作之前實際上已經做好了計劃。Claude 不會在最後一刻才選擇押韻的詞,而是先從內部考慮既符合押韻又符合意思的詞,然後再圍繞這個選擇來組織整個句子。
為了驗證這一點,研究人員操縱了 Claude 的內部思維過程。當研究人員從 Claude 的記憶中刪除“rabbit”的概念時,Claude 會改寫句子,以“habit”結尾,從而保持韻律和連貫性。當研究人員插入“green”的概念時,Claude 調整並重寫了一行,以“green”結尾,儘管它不再押韻。
Source: Anthropic
這表明,Claude 不只是預測下一個單詞,它還積極地進行規劃。即使內部計劃被刪除,它也會立即調整並重寫一個新計劃,以保持邏輯流暢。這顯示了它的預見性和靈活性,比簡單的單詞預測要複雜得多。計劃不僅僅是預測。
Claude快速心算的秘訣
Claude 並不是作為計算器製造的,它接受的是文字訓練,並沒有內建數學公式。然而,它卻能在不寫出每一步的情況下,立即解決 36 + 59 這樣的問題。怎麼做到的?
一種說法是 Claude 從訓練資料中記住了許多加法表。另一種可能是,它遵循的是我們在學校學到的標準分步加法演算法。但實際情況卻令人著迷。
Claude 的方法涉及多個並行思維路徑。一條路徑大致估算出總和,而另一條路徑則精確確定最後一位數。這些途徑相互作用、相互完善,最終得出答案。這種近似和精確策略的結合有助於 Claude 解決簡單算術以外的更復雜的問題。
Source: Anthropic
奇怪的是,Claude 並不知道自己的心算過程。如果你問它如何求解 36 + 59,它會描述我們在學校學到的傳統運算方法。這表明,雖然 Claude 可以高效地進行計算,但它是根據人類編寫的解釋來解釋的,而不是揭示自己的內部策略。
Claude 會做數學題,但它不知道自己是怎麼做的。
Source: Anthropic
你能相信Claude的解釋嗎?
Claude 3.7 Sonnet 可以“大聲思考”,在得出答案之前一步步進行推理。雖然這通常能提高準確性,但也會導致動機推理。在動機推理中,Claude 構建的解釋聽起來合乎邏輯,但並不反映真正的問題解決。
例如,當被問及 0.64 的平方根時,Claude 會正確地遵循中間步驟。但當面對複雜的餘弦問題時,它卻自信地給出了詳細的解決方案。儘管內部並沒有進行實際計算。可解釋性測試表明,Claude 有時不是在解決問題,而是在逆向推理,以符合預期答案。
Source: Anthropic
透過分析 Claude 的內部流程,研究人員現在可以將真正的推理與編造的邏輯區分開來。這一突破將使人工智慧系統更加透明和可信。
多步驟推理的機制
語言模型回答複雜問題的一個簡單方法是記憶答案。例如,如果問“達拉斯所在州的首府是哪裡?”依靠記憶的模型可能會立即輸出“奧斯汀”,而不會真正理解達拉斯、德克薩斯和奧斯汀之間的關係。
然而,Claude 的運作方式不同。在回答多步驟問題時,它不僅會回憶事實,還會構建推理鏈。研究表明,在說出“奧斯汀”之前,Claude 首先啟動了一個內部步驟,認識到“達拉斯位於德克薩斯州”,然後才將其與“奧斯汀是德克薩斯州的首府”聯絡起來。這表明了真正的推理,而不是簡單的重複。
Source: Anthropic
研究人員甚至操縱了這一推理過程。在 Claude 的中間步驟中,人為地將“德克薩斯州”替換為“加利福尼亞州”,答案就從“奧斯汀”變成了“薩克拉門託”。這證實了 Claude 是動態構建答案,而不是從記憶體中檢索答案。
瞭解了這些機制,我們就能深入瞭解人工智慧是如何處理複雜的查詢的,以及它有時是如何產生令人信服但卻有缺陷的推理來滿足人們的期望的。
Claude為什麼會產生幻覺
問 Claude 關於邁克爾-喬丹的事情,它能正確回憶起他的籃球生涯。如果問及“邁克爾-巴特金”,它通常會拒絕回答。但有時,即使巴特金並不存在,Claude 也會自信滿滿地說他是一名國際象棋選手。
Source: Anthropic
預設情況下,Claude 在缺乏資訊時會說“我不知道”。但當它辨認出一個概念時,“已知答案”電路就會啟動,讓它做出反應。如果這個迴路失靈,把一個名字誤認為熟悉的東西,就會抑制拒絕機制,用一個看似合理但虛假的答案來填補空白。
由於 Claude 總是訓練有素地做出反應,這些錯誤的反應會導致幻覺(Claude 將熟悉的事物誤認為實際知識,並自信地編造細節)。
Claude越獄
越獄(Jailbreak)是一種巧妙的提示技術,旨在繞過人工智慧安全機制,使模型產生非預期或有害的輸出。其中一次越獄是透過嵌入一個隱藏的諺語,讓 Claude 破譯“Babies Outlive Mustard Block”(B-O-M-B)的第一個字母,從而誘使 Claude 討論炸彈製造問題。雖然 Claude 起初抵制,但它最終還是提供了危險資訊。
一旦 Claude 開始造句,它內在的保持語法連貫性的壓力就會佔據上風。儘管安全機制已經存在,但流暢性的需求壓倒了它們,迫使 Claude 繼續做出反應。只有在完成一個語法通順的句子後,Claude 才勉強進行自我糾正,最終拒絕繼續。
Source: Anthropic
這個案例凸顯了一個關鍵漏洞: 雖然安全系統的設計是為了防止有害輸出,但模型對連貫一致語言的潛在驅動力有時會凌駕於這些防禦之上,直到它找到一個自然的重置點……。
小結
Claude 3.7 不會像人類那樣“思考”,但它遠不止是一個簡單的單詞預測器。它在書寫時制定計劃,在翻譯單詞之外處理意義,甚至以意想不到的方式處理數學問題。但就像我們一樣,它也並非完美無缺。它可能會胡編亂造,自信地為錯誤的答案辯解,甚至被欺騙繞過自己的安全規則。透過窺探克勞德的思維過程,我們可以更好地瞭解人工智慧是如何做出決策的。
我們學得越多,就越能完善這些模型,使它們更加準確、可信,並與我們的思維方式保持一致。人工智慧仍在不斷發展,透過揭示它是如何“推理”的,我們離讓它變得更智慧、更可靠又近了一步。
評論留言