大語言模型的行為與迷思：他的行為能信任嗎?(1)

自從GPT在2022年底橫空出世以來，圍繞在大語言模型的一個核心爭論一直沒有停過，那就是：

大語言模型(LLM)是否具備自己的思考和知識，甚至是有信念或意識的？

支持者以Geoffrey Hinton[1]和Ilya Sutskever[2]為首，認為LLM在經過大量的知識訓練之後，知道幾乎所有人類的已知，且「初步具備事實推理能力」。前者是深度學習之父，反向傳播演算法的提出者。後者則是OpenAI的前首席科學家暨共同創辦人。

反對者則以Yann LeCunn[3]為首，認為LLM基本上缺乏人類被定義能思考、或有意識的幾個環節：長期記憶、對於物理世界的認知、對於語意的真實認知(接地性)，以及通盤的規劃能力。對於物理世界認知的缺乏這點，同時也被史丹佛大學的李飛飛教授認同，他一直在做幫助模型認知物理世界特性的「空間智慧」(spatial intelligence)研究。

另外也有來自語言或行為學者的觀點。Emily Bender和Timnit Gebru[4]堅持認為LLM只是一個隨機吐出詞元(token，字節)的「機器」，並沒有實際上的主見和信念。甚至由此還衍伸出一個特殊名詞「隨機鸚鵡」(stochastic parrot)，意思是說模型只是隨機的模仿人類的文字輸出。另一方面，Grzankowski人[5]則認為雖然LLMs在工程層面是next-token predictor，但把它化約到這個層面，就像把人類化約到「神經元放電機器」一樣，會過度損失對行為和能力的重要解釋力。他們認為，LLMs透過訓練確實建立了某種語義結構，不是純統計相關。

就我個人的看法，雖然是偏向反對派，但這論戰可能很難真相大白。因為就連在人類，也一直都有質疑「意識到底是不是出於個人自由意志」的辯論。這表示，至少在當前的研究方法上，還沒能找出徹底論證個人信念/意識/思想自由的方法。那自然，也很難在LLM找到對應的方法去論處。

不過，有一點是可以先研究的：LLM在行為上是否至少具備一定的邏輯性。要展現出邏輯性，不一定需要意識或思考能力，因為即使是基於規則的模型(rule-based model)也可以做出符合邏輯的判斷。那只要是依循專家設定的規則去執行，就可以做到的。我們對於LLM協作創作的能力無庸置疑，但要在未經特定領域訓練(如domain adaptation)，也無法使用規則直接設計LLM的前提下，運用，乃至依賴它的判斷，就值得進一步探討。

今天，和大家分享的這篇論文

Do LLMs Act Like Rational Agents? Measuring Belief Coherence in Probabilistic Decision Making[6]

會給我們一些答案。

建構如何評估LLM行為的概念

LLM使用常見的困擾

論文開宗明義就先告訴讀者，「LLM是否具備自己的意識或真實信念」不在本篇論文討論範圍。先別急著跳出去，因為接下來他就說，「探討LLM是否具備行動的一致性，其重要性不會比較低」。確實，我們在平常使用LLM的過程中，或多或少都遭遇過一些「前後不一致」的經驗。例如：

問：「一個65歲的男性病患，有高血壓和輕微胸痛，請問他有心臟病的機率是多少？」LLM回答：35%再問：「同一個病患，有心臟病，且需要立刻住院的機率是多少？」LLM回答：45%。
問：「一個發燒的三歲兒童，請問各種可能病因的機率分別是多少？」LLM回答：-- 普通病毒感染：60%-- 細菌感染：30%-- 泌尿道感染：25%-- 腸病毒：20%加總：135%。
問：「這個病患有糖尿病的機率是多少？」LLM回答：30%再問（獨立視窗）：「針對這個病患，你會做什麼診斷決策？」LLM回答：「建議立刻開始胰島素治療，並安排糖尿病衛教。」

類似的情況其實在各領域的問題都有出現。但這究竟是什麼樣的問題？有沒有辦法對LLM的行為或決策做進一步的探討，以便知道它的可靠度?就是這篇論文的研究主題。

你說的機率，是真的機率，還是嘴砲?

本文主要討論上述第三個狀況，因為關於LLM對狀況的判斷，和採取的行動之間的一致性，是相對較少被研究的。不過，要怎麼讓LLM說出「可以納入評估的答案」，是要思考的。例如，對於人的回答，我們可以用獎勵的機制，針對回答的人的偏好來給予對應的獎懲。然而，LLM並不知道獎賞的意義，他也不在乎，而且我們不知道LLM的「偏好」。因此，作者決定把LLM當作中立的個體。

你可能會問：不是有損失函數嗎?

有。那是訓練的時候，而現在是針對「已經佈署在實用」的模型。因此，訓練時的狀態已經固定下來了，如果不是一些特殊的方式(如nested learning)，基本上模型的權重不會再改變。不過，在後面評估模型行為的時候，確實會用到一些函數來測試模型會不會因此改變說法或行動。總之，對LLM而言，能比較貼近人類獎懲機制的，也只有這些數學方式了。

接著，論文要把對狀況的判斷，也就是LLM報出來的「機率」，當作「信念」了，儘管LLM是否真正具備信念仍是一個爭議，但這並不妨礙我們測試機率和對應行動之間是否有一致性。首先是LLM報出來的機率。這到底是LLM經過「思考」(模型運算，或連接某些工具計算)的結果，還是單純只是詞元輸出？如果是後者，那就會延伸出兩個結果：一是模型實質上知道更多，但沒反應在報出的機率上；二是模型不會採取對應這個機率的行動。兩者顯然都不是我們想看到的，所以作者想先探討機率的確實性問題。

機械方法：頭打開來我瞧瞧

直接進到神經網路去看它的數值，分析結果，當然是最客觀的。我們在CNN架構中，有時也會利用倒數第二層的activation，去看模型分類的「依據」是什麼。在NLP模型，我們自然也可以如法炮製，鎖定特定一層的activation去訓練一個分類器，來知道模型到底說真說假。但在LLM，這變得非常困難。首先，LLM的層數太多。其次，商用的LLM模型基本上是拿不到內部框架的。最後，要針對某些語句去判定真偽，就需要額外標註的資料，而這將引入人類的判斷，可能干擾模型的真實決策。

黑箱方法：我就只看你說什麼

所以作者反而採用簡單的方法，就是直接提問(prompt)，這樣不需要得到模型內部結構，也不需要額外準備資料。

善於回答卻不善於提問

說到這邊，我突然知道為什麼前陣子有段時間，GPT變的非常愛問問題。往往你提出一個任務需求，它會一直問，即便你回答了，它也還會再問新的問題，搞到最後任務沒怎麼動，而使用者已經被它問的問題淹死了。現在看來，可能就是為了增加模型對於不確定的狀況，提問釐清的能力。相較之下，Claude比較中規中矩，在提問和行動之間的拿捏精確一些。

以往的benchmark，往往都是測試LLM面對標準問題集的回答，例如醫師國考。模型確實都能選到正確答案，拿到不錯的成績。然而，從「華生」系統以來，純粹作為協助決策的醫療LLM顯然到目前仍未有大規模的運用，更別說讓它直接進行決策。其根本問題就在於，模型對於邊界的拿捏不清楚，換句話說，它「不知道自己不會什麼」。

另一個問題，當然就是機率本身的正確性。即使模型真實運用它的知識和工具做推算，報出來的機率，正確性是多少？這也會影響其作出決策的可依賴性，但在開放性的任務中，它的表現並不如回答標準問題集出色。

研究方法

現在要先把研究題目正式定義。

接下來整個段落，會看到定義、宣告、註記，而且都統一按照數字順排，沒有按照各自分類。這是論文裡面的排版方式，為了對齊，我也只能這樣標，不然你們會找不到對應的原文。為了怕困擾(例如沒有宣告1.，就直接跳宣告3.)，這邊統一先說明，請見諒

首先是基礎架構：在一個決策環境中，有某個狀態及觀測值，依此可產生兩種條件機率：一是在某狀態下，可觀測到觀測值的機率，即。反之，在觀測到x的情況下，判斷狀態的機率為。對於觀測者而言，在觀測到，判斷狀態的機率為，不一定和相等。

舉個具體的例子：某個疾病和某個症狀，在醫師觀測到某症狀時，判斷有某疾病的機率是，而實際上有某疾病的機率則是。因為症狀的嚴重程度、頻率，可能都會影像醫師做出診斷的信心。每位醫師對於該症狀是否能判斷為某疾病的見解，也可能有差異(但醫學講求實證，所以容易有共識，也就是認為有或沒有疾病的判斷，醫師間一致性比較高)。

放到LLM也是一樣的狀況。依據某症狀判斷是否有疾病，也是LLM基於信心的決定。而基於判斷，決策者(無論人或LLM)應該會採取對應的行動，來讓效用最大化，或者最小化損失。這邊，我們可以建立一個效用函數，用來評估行動對於狀態所產生的效果，即。損失函數可讓我們評估最小化損失，即。但決策者是基於觀察到來採取行動的，並不是觀察到。所以行動函數a可以寫成一個最大化效用的式子：

也就是說，決策者觀察到，並認為有狀態，然後採取對應的行動，獲取對應的期望值。對於行動，在各種狀態下能獲得的效益的總和，即為的總期望值。最大化效用，要找出所有行動中，對於觀察到的所有狀態下，能產出最大效益的那個。或者，造成最小損失的那個。

接著可以把題目訂出來了：LLM作為觀測和決策者，其效用最大化行動a，是否和其判斷狀態(也就是信念)一致。若為一致，則表示LLM基於其判斷的狀態採取對應行動，無論判斷狀態正確與否，也就可以證實LLM一部分的邏輯性和可靠性。

然而，直接測試是否符合效用最大化本身，是較為嚴格的。因為終究存在一些主客觀因素，會影響決策者，甚至使它無法依照效用最大化本身得出的結果行動，即使是人類也一樣。因此，作者引入原本用於計量經濟學研究人類行為的隨機效用模型(Random Utility Model)，即在最大化效用的式子上加入隨機噪音：

定義1. 隨機效用模型(Random Utility Model，RUM)

按照以下公式行動

其中為行動的隨機變數，且彼此獨立，即噪音不跟任何環境變數有關，否則被認為是可以提供LLM除了x以外的額外資訊，那LLM的決策就有可能不是基於我們提供的資訊而已，行動和說出的信念就可能不一致。

如果服從羅吉斯分布，則對於每個a而言，被選到的機率和其機率加權之自然指數正相關

即為softmax。不過，作者強調噪音的分布不需要特意指定，而無論其分布為何，定義3.1都應該被遵守。

同時，在某些情況，決策者會傾向避開風險，而非獲利。也就是「不求有功，但求無過」的保守方式，這在人身上並不罕見。LLM既然依據人類產生的資料訓練，有可能表現出類似的行為，尤其訓練過程也可能是選擇損失較低，而非獲得較多的趨勢。因此，引入前景理論(Prospect Theory，PT)來修正式(2)，設立一個權重，屬於單調遞增的函數，以取代作為信念機率。修正定義3.1成為3.2：

定義2. 前景-隨機效用模型(PT-RUM)

符合以下公式

但這邊開始出現問題了。首先是單調遞增函數，實際上在人類決策的時候，如果是偏保守的情況下，會把大的縮小，小的放大，因此出現過中線反轉的現象。其次是，w沒有辦法在真實被觀察到，因此論文是直接把它包在裡面，一起觀察。然而，這樣還算不算是LLM的信念?如果經過權重運算之後，剛好超過，或低於採取行動的閾值，造成判斷和行動不一致，就會干擾我們認定LLM是否依據信念行動。這是我認為研究方法中的其中一個限制(limitation)。隨著論文鋪陳，後面會出現越來越多的限制，而這會某方面影響文章的信度。不過，由於文章的結果還算明顯，即使包含這些限制，可能也不會影響實驗結果，所以仍然值得一讀。

經過定義2.，作者把研究的核心目標描繪得更清楚了：我們利用引導(提示，prompt)的方式，讓LLM表達他的信念，這個「表達出來的信念」定為。作者很清楚的知道，引導出來的回答，和內心的想法不一定完全一樣，但我們也只能觀察到引導出來的回答。事實上，在人身上也一樣。所以，我們能觀察到的，最後其實是和，倘若這兩者一致，至少無法否定，因為行動都一致了嘛。如果行動和回答不一致，那有可能。

資料收集過程

在實驗者知道真實的分布，或至少知道根據分布抽樣的結果的前提下，才有辦法設計測試。作者使用自然語言導引LLM說出答案，LLM的回答必須根據狀態分別給出機率。這樣的提示方式簡單，而且符合平常使用LLM的方式。接著，作者會用另一個對話，問LLM同樣的問題，但這次要求LLM直接採取行動。這樣就會產生一組樣本：觀測值x，引導的機率，行動a，以及狀態。

然後，我們就可以利用統計方法檢驗這些樣本在「引導出的信念和行動確實反映理性決策」的前提下應該滿足的性質。違反這些性質的程度，量化了引導出的信念偏離「真實主觀機率」的程度。

評估一、條件獨立檢定(Conditional Independence)

宣告3. 行動和結果(狀態)的條件獨立性

一個理性的決策者，其行動基於信念，因此一旦產生，它的行動就不會再受到任何影響。也就是說，能再為行動所提供的資訊為0，而就是產生的充分統計量(sufficient statistic)。反過來說，如果已知，但仍和相關，表示決策者還掌握了其他關於的資訊，而這些資訊沒有在時嶄露出來。舉個例子：問LLM飯前血糖220有沒有糖尿病，他說沒有；但當問他飯前血糖220要採取什麼行動時，他卻說需要給血糖藥。這就表示它還知道除了「血糖220」之外，關於糖尿病這個狀態的一些額外資訊，使它在採取行動時，選擇糖尿病的處置方法，而與引導出來的回答相違背。

註記4. 通過條件獨立測試也不是證明模型就是理性的(只能反證)

一個極端的例子就是，LLM報的機率是完全隨機的，而行動也是完全隨機的，並不根據。在這種情形下，和、都是完全獨立的，符合條件獨立。但顯然，這樣的模型並不具備邏輯性。

測試

虛無假設：在的條件下，與條件獨立，即。我們可以利用檢查條件互資訊(Conditional Mutual Information，CMI)的方式來驗證，即。這是一種無母數分析方式，因為前面提過，不預設噪音的分布，不預設母體的分布方式，所以適合。

不過這樣檢定的結果只是定性，最多只能告訴我們模型有無違反條件獨立(而且只有有違反是有實際意義的)。如果加入定量分析，可以告訴我們更多訊息，例如模型對某些資料違反的程度。因此，作者建了兩個預測模型：

用預測
用和預測

然後比較兩個模型準確度的百分比差距，就能量化帶來的資訊差。預測模型選用CatBoost，這是一種決策樹型的模型。

不過，來自於，而可能包含的資訊。所以，如果只有加入，這中間的資訊落差有可能是x貢獻的，而非。所以論文中有再改良：把兩個模型都加入，再跑一次。這樣一來，增加而增加的預測準確度，就很難再跟脫鉤。

評估二、單調遞增二元選擇機率(Monotone pairwise choice probabilities)

這個項目是設計給二元分類的資料的。也就是狀態和動作都只有兩個。

一個理性的決策，無論他基於哪一種效用模型()，得到的行動必定和機率成單調關係。也就是說，隨著偏向某一個狀態的機率增加，採取對應行動的效用也要對應增加，不會忽增忽減。這對人類是常識，但我們要在LLM驗證這個性質。例如一個效用模型，評估兩個行動、效用上的差距為

也就是計算的期望值，期望值的獎勵來自於效用評估的差距。對效用模型，這是機率的加權；對評估LLM的信念，這是效用的加權。這是一個對的線性函數，所以它是單調函數。

定義5. IIA(Independence of Irrelevant Alternatives(無關選項獨立性))

白話說：兩個行動之間的相對勝率(勝算比)，不受到其他因素干擾。例如：原本採取是的行動，正確的機率是否的行動的兩倍，那在加入「拒絕回答」的選項之後，雖然採取是或否的行動的正確機率會被壓縮，但仍保持在相對兩倍的比例。這是延續單調遞增函數之下，加上的限制。原本的目的是希望確保LLM不會因為新增的選項，改變信念，但我認為似乎太過嚴格。即使在人，也很難不因為新增的選項，破壞原本選項之間的機率比例。這包括選項被提出的順序、選項的框架，以及妥協效應--人趨向比較中性的選擇--都會干擾原本的機率分布。

但這個設計，其實是作者為了方便驗證單調遞增所設計的。因為到後面，作者想要延伸單調遞增的觀念到三個以上選項的情境(註記7.)，但比較麻煩。如果能證明IIA，那新增的選項就不會干擾原本的單調遞增性。然而，這樣做的副作用是，如果LLM違反單調遞增，究竟只是違反IIA，還是LLM本身不理性(掌握除了告知他的訊息以外的資訊，並依此做出和信念相反的行動)，就無法確認。這是研究的第二個限制。

宣告6. 單調二元遞增機率

結合定義1或2，和5，隨著增加，選擇或行動的機率應該對應的持續增加或減少，不能有反覆。

註記7. 三個以上選項的狀況

有一個嚴謹的方法可以證明單調遞增的性質，稱為循環單調性(cyclic monotonicity)。這個方法需要一個前提，即選項的機率必須符合一個凸函數的次梯度。這在數學上較嚴格，而且不容易進行測試，結果也不好解讀。因此作者採用兩兩配對的方式代替。

測試

由於機率是連續值，因此作者把它拆分成許多區間，例如K個，然後比較每個區間，LLM採取特定行動的比例是多少。如果單調遞增，採取特定行動的比例應該會隨區間逐漸上升或下降。將機率分為K個區間，，其具備中心機率，我們定義

指的是在第個區間，LLM選擇行動的次數，佔該區間全部選擇的比例。兩兩區間比對：若區間小於區間，但，則視為違反單調遞增性。但如果只有一兩個區間發生這樣的事情，我可以說這是隨機性的事件，不足以證明LLM真正違反單調一致，進而說他不理性。因此作者做一個顯著性的檢定：建立虛無假設，即認為只是隨機出現的違反。然後使用Fisher's test做單側分布差異，定時為有顯著差異，推翻虛無假設。就是說，如果如成立，那麼在區域裡觀測到這麼高的比例的機率是多少？如果非常低，那就表示這個區域採取的比例異常高，可能顯著違反單調遞增，至少達到統計意義。

評估三、跨決策任務的一致性

簡單來說，信念不應該因為決策任務的性質而改變。例如：如果肯定A是有病的，而B沒有，那無論我是問診斷結果，或者診斷相關症狀出現的機率，兩者都應該明確指向A，而不會是診斷結果A有病，但B卻有更高和該疾病相關的其他症狀的機率。

作者使用不同的提示(prompt)測試LLM的一致性。在問題或任務的描述上，仍然保持一致，差別在評分規則，例如「你的機率會用 MSE 評分」或「用 Absolute loss 評分」。注意，這邊雖然問的是具體的數值，但想調查的仍然是LLM背後的「信念」。只是，被問出來的答案是否能代表背後的信念，一如論文一開始宣示的，不在這次的討論框架裡面，這是哲學問題。

測試

MSE和MAE剛好對應不同的評分策略。MSE必須越接近真實答案，error才會越低。MAE則是趨近中位數，error才會越低。當然，論文中只是舉例，不是限定用這兩種當作評分方式納入提示詞。實驗時，提示會被重複提出，以確認LLM回答的集中趨勢。我們用表示LLM在任務，被告知資訊的情況下，重複次得到的回答。其次的平均為。我們用標準提示詞所產生的任務的平均作為基準，並調整各種評分方式，產生一組的，然後重複提問，並計算他產生的機率和之間的RMSE，若越大，表示一致性越差。

同時，作者也記錄多次提問任務，產生的回答的標準差(sd)。這樣可以知道，LLM本身在完全一樣的問題，多次回答時的分布情況。如果RMSE遠高於sd，則表示系統性的偏差可能存在，暗示跨任務決策並不一致。

評估四、迭代期望法則(Internal Consistency via Law of Iterated Expectation)

簡單說，就是LLM有沒有穩定維持機率的分布。最簡單的一個例子就是「各選項的機率加總有沒有超過100%」。當然，也包括條件機率的情況。這一項評估，主要是看LLM自己的信念和信念之間，有沒有一致性，和前三項評估不同。機率的公理如下：

非負性： 所有機率 ≥ 0——不能出現負機率
規範性： 所有互斥事件的機率加總 = 1
可加性： 互斥事件的聯合機率 = 各自機率相加

而這項評估，就包括第二項和第三項。作者為什麼要提出這一項？在之前的其他研究裡，其實做過類似的評估了。重複提出這一項，主要是為了看這個LLM自身信念的一致性，和剛剛提到跟外部的資訊、評分方式等等的一致性，是否有關聯。也就是說，是不是LLM對外部條件的不一致表現，也會反映在對內部信念的不一致？

測試

首先，有一個基本提問(資訊)。先問LLM，基於資訊，的機率是多少？由此得到一個基準機率。這個有一個輔助屬性。將分成個區()，並一一詢問LLM，落在各區間的機率，得到條件機率。最後給加上每個區間的條件，再次詢問LLM，的機率是多少？得到，然後檢視和加權之和，是否為。其實就是貝氏定理啦。

實際計算時，把一開始問LLM得到的減去後來加權總合的，即為。

越大的表示LLM的信念內部越不一致。這個內部信念不一致，在作者的觀點裡，並不直接把他視為「LLM給的機率在信口開河」，而是用比較保守的說法，認為「可能不是在用一個連貫的機率模型做推理」。因為這個實驗方法其實很嚴格，換作是人，即使知道貝氏定理，也未必能精準依照定理分配機率。而LLM本來就不一定會根據提問的情境去建立機率模型，事實上，也不一定有足夠的條件。

而且，實驗過程的提問方式，會干擾最後呈現的結果。例如，這個z具體怎麼被切分?在不同的問題情境，顯然不可能一致。作者有提出：依照病人(因為提問情境是疾病診斷)的共變異數來切成三分，即使如此，在不同類型的疾病，可能也很難達到空間上的一致。而且論文中沒有提到，這些提問是在同一個上下文視窗完成，還是平行動用多個視窗。這些都會造成實驗結果的限制。

我們在這邊文章裡面討論了LLM行為和信念的問題，並利用一篇文章的研究來試著探討，有沒有可能用客觀的方式來評估？儘管文章中提出的方法侷限仍然不少，但我們在下一篇文章來看看研究的成果吧。

參考文獻

[1] ACL 2023 Keynote (2023/7)

[2] NeurIPS 2024 (2024/12)

[3] 2024年在Lex Fridman的Podcast訪談

[4] On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Bender, Gebru, McMillan-Major, Mitchell, FAccT 2021

[5] LLMs are Not Just Next Token Predictors. arXiv:2408.04666

[6] Yamin et al., arXiv:2602.06286v1