AI透過圖靈測試:像GPT-4.5這樣的LLM是如何愚弄人類的?

圖靈測試

想象一下,假設您是在與真人聊天,那麼您可以在網上隨意聊天。但如果不是呢?如果螢幕後面是一個經過訓練聽起來像人的人工智慧模型呢?在最近 2025 年的一項研究中,來自加州大學聖地亞哥分校的研究人員發現,像 GPT-4.5 這樣的大型語言模型可以令人信服地冒充人類,有時甚至比真人還像。透過使用更新版的圖靈測試,他們發現這些模型不僅能回答問題,還能模仿人類的不完美之處。在本文章中,我們將探討人工智慧如何跨越工具與社會存在之間的界限,以及這對我們意味著什麼。

什麼是圖靈測試?

圖靈測試(或稱“模仿遊戲”)由艾倫-圖靈於 1950 年提出,旨在回答這樣一個問題:機器會思考嗎?機器會思考嗎?在這個測試中,圖靈提供了一個實用的測試方法:如果一臺機器能夠以人類法官無法將其與另一臺機器可靠地區分開來的方式進行對話,那麼這臺機器就可以說是能夠 “思考 ”的。

圖靈測試仍然具有現實意義,因為它迫使我們面對法學碩士時代的一個基本問題: 機器能否在社會中與人無異?如果一個語言模型能夠很好地模仿我們說話、推理和表達的方式,甚至能夠欺騙訓練有素的觀察者,那麼我們就跨過了心理上的門檻,而不僅僅是技術上的門檻。

人工智慧透過圖靈測試

圖靈測試對LLM意味著什麼?

現代 LLM(如 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.5 Pro)已經在海量資料集上進行了訓練;數萬億單詞只是為了學習人類如何交流。這些模型並不像人類那樣思考或感覺,但它們在模仿人類思考時的“聲音”方面做得越來越好。

  • 對於 LLM 來說,透過圖靈測試並不能證明它們具有靈性,但卻是功能智慧的一個重要基準。
  • 它證明了這些模型能夠在人類社會規範內運作,駕馭模糊性,並參與語境豐富的對話。
  • 這意味著 LLM 不再只是完成句子的簡單工具,它們已經發展成為能夠模擬與人交談的整個體驗的系統。

因此,當今天的 LLM 透過圖靈測試時,它不僅僅是一個噱頭或公關勝利。這表明,人工智慧模型已經達到了語言和心理模仿的水平,在教學、治療、談判等面向人類的工作中出現人工智慧模型已經變得合理,甚至不可避免。

圖靈測試不再是理論。它是真實的。而我們現在正生活在它所預言的時代。

圖靈測試是如何進行的?

在他們的研究中,瓊斯和卑爾根重現了最初的圖靈測試。阿蘭-圖靈的原始測試包括一名人類法官透過文字與人類和機器進行盲目互動。如果法官無法可靠地區分兩者,則認為機器表現出了智慧行為。

圖靈測試是如何進行的?

測試大致包括 5 個關鍵部分:

  1. 五分鐘聊天視窗:每個測試環節的時間限制為 5 分鐘,以保持互動的簡短和自然。這段時間足以進行有意義的交流,同時又不會洩露太多資訊。
  2. 果斷判斷:與以往許多允許開放式評估的圖靈測試實驗不同,本研究強迫詢問者選擇一個具體的答案。在每個環節中,評委必須從一輪參與者中選出一個人工智慧模型和一個人類。
  3. 盲測:評委們不知道自己在評估哪個人工智慧模型,甚至不知道自己在某些情況下是否在與機器互動。這有助於避免偏見,並確保完全根據反應來評判反應。
  4. 多模型測試:每次測試都有不同的 LLM 扮演不同的角色,並進行了隨機化處理,以防止任何可識別的行為模式影響測試結果。
  5. 多樣化的參與者庫:評委本身來自不同的背景,包括大學生、群眾工作者,甚至人工智慧專家,以觀察 LLM 是否能同時欺騙普通使用者和技術使用者。

這種實驗設計創造了一個公平競爭的環境,讓人感覺就像真實的網路聊天場景一樣–模糊、快節奏、社交性強。透過這種結構,我們可以得出更可靠的結論,即當今的 LLM 是否能在不同人群、平臺和性格中令人信服地冒充人類。

當今的圖靈測試:三方互動

瓊斯和伯根採用了同樣的三方設定,並加入了現代元素:一名人類評委、一名人類應答者和一名人工智慧模型。

當今的圖靈測試:三方互動

  • 評委有五分鐘的時間與兩位參與者進行文字聊天,然後決定誰是機器。
  • ELIZA 是上世紀 60 年代的一款“基於規則”的簡單聊天機器人,它被用作對照組,也就是一個基本參考點。
  • 它有助於檢查評委是否仍能識別出明顯的機器人,並設定了效能下限,顯示現代 LLM 相比之下要好多少(或差多少)。
  • 最後,研究人員還讓 LLMs 假設網際網路風格的角色,例如一個熱愛備忘錄、性格內向的 20 多歲年輕人。

研究人員測試了多種 LLM:

  • GPT-4.5(透過 ChatGPT,使用經過調整的“角色”)
  • GPT-4o(OpenAI 最新的自由層模型)
  • Claude Sonnet
  • Gemini 1.5 Flash
  • Mistral
  • ELIZA(作為基線)

這個現代化版本忠實於圖靈的結構,同時更新了參與者和語境,以適應當今的人工智慧對話環境。

圖靈測試結果:LLM現在可以愚弄人類了

測試中最有趣的結果是 OpenAI 的 GPT-4.5 在給定一個精心設計的角色時,有 54% 到 73% 的時間都能騙過人類評委。在一些試驗中,參與者更願意相信人工智慧是人類,而不是真正的人類受訪者。這不僅僅是統計上的噪音,而是不同實驗條件和參與者群體之間的一致模式。研究人員測試了五個領先的法律碩士和一個對照組,以下是他們的結果:

LLM / Chatbot 識別錯誤率 關鍵點
GPT-4.5 54% – 73% 最成功;當被賦予一個經過調整的角色時,可信度很高
GPT-4o ~50% 與偶然性相當;既不容易被發現,也不特別令人信服
Claude Sonnet 42% 經常被認為過於精緻和結構化
Gemini 1.5 Flash 36% 說服力相對較差;回答感覺不太自然
Mistral 26% 經常被認為是人為的
ELIZA (control) ~0% 一眼就能看出是機器人;作為基線

更有趣的是,不同使用者群體的結果各不相同:

  • 線上人群工作者最容易受騙,將 GPT-4.5 誤認為人類的比例接近 75%。
  • 大學生甚至有法律碩士經驗的參與者在識別人工智慧方面也沒有明顯優勢。

這表明,即使是知情使用者也很難分辨出機器和人類。

GPT-4.5如何透過圖靈測試?

讓 GPT-4.5 如此令人信服的並不是原始的語言能力。而是它在社交和情感引數上的表現。

研究人員發現,當為 GPT-4.5 設定一個“角色”時,它突然變得更像人類了。 一層微妙的敘事讓它有了足夠的瑕疵和怪癖,從而喚起了人們的共鳴。參與者表示,當模型出現小錯誤、表達不確定性或使用俚語或縮寫等隨意語言時,“感覺更自然”。

相比之下,其他過於正式或語法完美的模型則很容易被發現是機器人。

這些發現強調了一個重大轉變:LLM 不需要完美到可以冒充人類,他們只需要不完美到令人信服的程度。可信度不在於事實的準確性,而在於情感和對話的共鳴。GPT-4.5 贏得比賽並不是因為它更聰明,而是因為它能準確地模擬人類的含義。

假冒人類時代的開始

如果 LLM 現在可以假裝比真人更會做人,那我們就不再只是在玩遊戲了。我們正在應對數字空間中人格定義方式的根本性轉變。

  1. 客戶服務:在客戶支援方面,我們可能已經在與人工智慧對話;但在未來,我們甚至無法發現它。
  2. 線上約會和社交媒體:隨著人工智慧檔案滲入網站,我們該如何驗證身份?
  3. 政治與錯誤資訊:人工智慧總能生成內容。但現在,它可以生成真正能引起我們共鳴的內容。在這種情況下,如果機器人可以爭辯並贏得辯論,會發生什麼?
  4. 陪伴與孤獨:隨著 LLM 更好地瞭解我們,它們能否成為我們的情感支援系統?

哲學家丹尼爾-丹尼特(Daniel Dennett)在一篇文章中對“偽造的 ”發出了警告–這些機器除了生物學事實外,其他方面看起來都像人。這篇論文表明,我們現在已經達到了這一境界。

是什麼讓我們成為人類?

具有諷刺意味的是,透過圖靈測試的機器人並不是那些完美無缺的機器人,而是那些在各方面都不完美的機器人。那些偶爾猶豫著要不要問清楚問題,或者使用 “我不確定 ”等自然填充短語的機器人,比那些以精煉、百科全書式的精確度回答問題的機器人更有人性。

這說明了一個奇怪的事實:在我們眼中,人性是在夾縫中發現的–在不確定性、情感表達、幽默甚至尷尬中。這些都是真實和社會存在的標誌。而現在,LLM 已經學會了模擬它們。

那麼,當機器不僅能模仿我們的優點,還能模仿我們的弱點時,會發生什麼呢?如果人工智慧能如此令人信服地模仿我們的疑慮、怪癖和說話語氣,那麼還有什麼能讓我們成為獨一無二的人類呢?那麼,圖靈測試就成了一面鏡子。我們用機器做不到的事來定義人類,但這條線正變得越來越薄,非常危險。

類人AI在現實世界中的應用

隨著 LLM 開始令人信服地模擬人類,各種現實世界的應用成為可能:

  • 虛擬助理:人工智慧代理可以在客戶支援、日程安排或個人輔導等方面進行自然、引人入勝的對話,但聽起來不會像機器人。
  • 治療機器人:用於心理健康支援或日常互動的人工智慧伴侶,模擬同理心和社會聯絡。
  • 人工智慧輔導員和教育工作者:個性化教學助手,能像真人教師一樣調整語氣、節奏和反饋。
  • 用於培訓和模擬的角色扮演:高質量的類人人工智慧代理,用於法律、醫學和安全等領域的角色學習。

這些只是眾多可能性中的一部分。隨著人工智慧與人類之間的界限逐漸模糊,我們可以預見一個生物數字世界的崛起。

小結

GPT-4.5 透過了圖靈測試。但對我們來說,真正的考驗才剛剛開始。在一個機器與人無法區分的世界裡,我們該如何保護真實性?我們如何保護我們自己?在數字空間中,我們還能相信自己的直覺嗎?

這篇論文不僅僅是一個研究里程碑。它是一個文化里程碑。它告訴我們,人工智慧不只是在追趕,而是在融入。模擬與現實之間的界限越來越模糊。我們現在生活在一個機器比人更像人的世界裡,至少在聊天室裡的五分鐘是這樣。問題不再是“機器能思考嗎?” 而是:我們還能分辨出誰在思考嗎?

評論留言