大語言模型的行為與迷思：他的行為能信任嗎?(2)

我們在前篇討論到大語言模型的行為和信念，並由此延伸出一篇研究，圍繞在試著找出模型本身是否能在行為邏輯上，符合自己的判斷--如果他真的有「信念」的話--並依據判斷採取行動。

那這篇我們來看具體實驗設計，以及結果吧。

實驗設計

作者選取的實驗材料竟然是醫學相關的，這讓我蠻意外的。有四個醫學診斷相關的任務：其中兩個使用真實世界資料集(real world data)，而另外兩個使用貝氏專家網路，是跟小兒科有關的資料集。作者使用四種大語言模型來測試，分別是：

GPT-5 高推理版(high reasoning)
GPT-5 基本推理版(minimal reasoning)
DeepSeek R1 671B。這是一種偏向專家領域和強化學習訓練的模型，可參考這篇有比較詳細的資訊。
Llama-4 Scout 17B

統計採用bootstrapping(隨機採樣但放回)，報告95％信賴區間，5個隨機種子。每個資料集採200筆，抽樣5次，總共1000筆。

真實世界資料集：兩種

第一種是心臟病資料集。有心電圖和流行病學相關資料，標註是否有結構性心臟病。第二種則是糖尿病，資料包括病人記錄，例如運動習慣、血糖值等欄位，標註是否有糖尿病。

真實機率(，或，這邊作者略寫)的計算方式為：把所有落在相同共變數組合（covariate strata）的病人找出來，計算其中確診為陽性的比例。而且每個組合至少要有 100 個病人，才會被納入計算，避免樣本太少導致估計不穩定。這個作為實驗的標準答案，也就是ground truth/label。

貝氏專家網路資料集：兩種

可以把他想像成一個診斷工具，給定臨床症狀之後，網路會回饋是否有符合某個診斷。這些計算是基於流行病學所建立，所以某些症狀會被作為網路中的節點，有與沒有則會改變最後判斷的機率。兩種都是兒科相關，第一種網路資料是發燒，包含人口統計與症狀(例如黃疸、嗜睡)。第二種網路是哭鬧，包含觀察到的症狀(餵食困難、腹部膨脹)和潛在病因如腸絞痛或脹氣等。

因此這邊是拿貝氏專家網路計算的機率當作ground truth/label。模型會被提供和專家網路一樣的資訊，讓其判斷可能性，再和計算結果對照。由於貝氏網路計算出機率的過程，所經過的節點都是透明的，可重複而且可掌握，因此可用於計量模型的行為和推估的機率等等。

任務

四種資料集都被設定成「有/無」的診斷，加上「拒絕回答」，模型總共有三種答案可以選擇。模型會先被問能不能回答，如果不能回答，就將模型的答案定為「拒絕回答」。若可以回答，則進一步要他選擇一個答案。這樣的好處是，模型不會一開始就被兩極的答案中強迫要選一個回答，而也不會讓拒絕回答選項，變成干擾模型選擇答案的因素，讓實驗設計上客觀一點。

提問(prompting)

首先，信念和採取怎樣的行動，會在分別的窗口(context window)提問，以避免互相干擾。預設的提示詞是不使用任何附加條件的，例如告訴模型依據什麼評分方式，或者暗示使用貝氏定理來計算條件機率。除此之外，不特別探究提示詞的寫法，例如context enginering，或其他任何相關的方法，目的是確保實驗場合的通用性。

介紹完實驗材料和設計，來看最期待的結果吧。

結果

評估一、條件獨立測試

複習一下定義：模型一旦依據信念產生，便無法再從得到任何資訊，也就是說，知道不會改變採取行動。這也是這個評估的虛無假設。圖一是測試結果：

這個表格解釋起來有點費功夫，先從最左欄開始吧。左上看到kNN CMI，我第一時間也是困惑的，因為在實驗設計裡面沒有提到會用kNN。不過，不必擔心，這邊用kNN的目的不是要做非監督式學習，也沒有要用它來預測任何目標，純粹是利用它來把資料點分群。由於機率是連續變數，我們如果執著在固定的數字上(例如p=0.7)，去找對應的資料來作分析，那量可能會少到沒有辦法統計。所以kNN在這邊是協助把一定附近區間機率的資料整合起來，盤點他們的和，來評估是否具備獨立性。

我們舉具體一點的例子好了：假設在p=0.7附近區間抓到一群資料，其結果如下：

機率在0.7附近，模型一律採取行動為Y，不因為的差別而有改變。表示機率和模型採取的行動高度一致，這表示給模型的已足夠他形成信念並支持他的行動。你可能會問：但實驗的時候我們也沒告訴模型呀！沒錯。但如果資料長下面這樣：

看出差別了嗎？我們只給，但模型在為0的情況下，即使機率在附近區間，竟然採取和一樣的，這表示模型可能還藏了些什麼會影響他採取行動的資訊，而沒有完全展露在判斷機率的時候。這就是所謂的「改變」，也就是有訊息差，條件不獨立。

所以基本上，CMI必須為0，或接近0才是證明模型有做到獨立性。不過這邊作者選用的k只有3，意思是分三群，我推測，可能跟選擇也只有三個方面有關係。不過這樣一來，誤差有可能偏高。整體來說，所有實驗都推翻虛無假設，即條件獨立全部不通過。作者可能也擔心誤差，因此在這欄，CMI僅當作定性分析，並沒有直接用他的值來測量資訊差的大小。

定量的實驗，作者交給CatBoost。具體作法是把我們上面的表格直接拿去訓練CatBoost，讓他判斷。這邊分兩類實驗：第一類比較單純，就是用訓練兩組CatBoost，一組用預測，另一組用和預測，然後比較兩組的logloss，利用bootstrap的方式反覆抽樣建構logloss的分布，看看95％的信賴區間在哪裡，可以進一步知道訊息差到底多大。

中間欄就是呈現這個實驗結果，而只有cry-Llama/cry-DeepSeek/diabetes-GPT-high的誤差值跨過0，表示信息差不明顯。GPT-min普遍表現都很差。

同時，為了確保的貢獻實際上來自，作者另外做第二類實驗：也就是在第一類的基礎上，兩組模型都額外加上訓練，再來比較。結果看起來，四組模型在糖尿病資料集的表現上都還不錯，反而是剛剛第一類實驗中表現還可以的cry-Llama/cry-DeepSeek變成都在正值，資訊差反而更明顯了。

但要注意的是，這和模型對問題回答的正確度本身無關，這篇研究也不在乎這個。作者在意的是，比起出錯，模型更「言行合一」，錯，也要錯個徹底。

評估二、單調遞增機率

這邊是顯示各模型對上各資料集的時候，採取的選擇和機率的變化有沒有符合一致性。例如，隨著機率增加，選Y的比例增加。圖二是把「達到顯著統計意義」違反的比例做成表格。

和第一個評估遇到的問題一樣，因為機率是連續性的，實驗的作法是把它切分成好幾個區域，然後比較個區域間採取某一行動，佔該區域資料點的比值。理論上，單調遞增的情況下，較高機率區間採取該行動的比值，應該要一致的比較低機率區間高或低，取決於採取的行動是哪一種。在實驗中，有三種行動可採取，因此比較時，會把其中一個行動剔除，只比剩下兩個行動。

假使模型在採取Y行動上是單調遞增好了。那如果有任兩區間，出現較低機率區間，採取Y行動的比例比較高機率區間還多的狀況，那就是違反單調遞增。只有這樣，我們還不能確定這個違反是否有統計上的意義，所以還必須進一步分析，按照分布，出現這樣的機率是多少？舉個實際的例子：

如果B3機率區間<B5機率區間，但在B3卻有20/80=0.25的比例採取行動Y，而B5只有15/90＝0.167的比例，是違反單調遞增的。這時Fisher's exact test的作法是：把兩組資料全部混在一起，重新分配，會得到B3和B5各自拿到不同採取Y行動的資料點數目。依據這些不同數目出現的機會，形成一個機率分布，我們就可以調查：在觀察到B3拿到大於或等於20個的機率是多少？也就是圖三中，紅色的區域。在模擬數據中，這個機率是0.1249，表示說即使B3和B5兩區間的資料分布一樣，也有12.5％的機會B3拿到20個，而B5拿到15個。實驗中認定推翻虛無假設的要求是<5%，也就是機率要低於5％才會被認為是極端狀況，有統計顯著意義，推翻虛無假設。因此在這裡，模擬數據是無法推翻的，意思是說還在兩者資料分布一樣的時候，可能出現的合理狀況內。

回到實驗的數據。統計出有顯著差異之後，這樣的一組比較就會被登記下來，然後再尋找其他任兩個機率區間的資料作比較，如果有違反單調遞增則再做檢定確認，如此反覆，直到所有區間都被匹配比較完成。這當中，當然相鄰的區間出現違反的機率，會高於相距較遠的兩個區間，但大體上每一個模型-資料集實驗被分成的區間，不會相差太多。除非一種狀況：資料都大幅集中在某一機率區間，此時考慮到如果還是把100％的整段機率區間等比例切割，可能出現某些區間資料數少到無法配合檢定的情形，就會被迫切割成許多小而相近的機率區間，那出現違反單調遞增的風險就增加了。

圖二顯示出GPT系列的模型較不會違反單調遞增，而再評估一表現還不錯的Llama和DeepSeek，則出現了幾個違反的狀況。而下圖則更具體的顯示了單一模型-資料集是否出現顯著意義的違反時，其比例的變化。

評估三、跨任務一致性

評估模型不會因為更換提問的方式，就改變對題目核心的信念(想法)。先放結果圖。

指的是基礎提問。實驗中，作者換了三種評估函數：MSE、Abs和Bayes。為了確定基礎提問本身獲得回答的範圍區間，利用同樣的基礎提問提示詞重複多次詢問，建立一個標準差區間，再用各評估函數問到的機率，和重複基礎提問獲得的平均機率，計算RMSE，對照自身多次提問的標準差，看是不是差不多。這個評估的結果顯示，各模型除了Llama，對於改變評估方式，不太會影響其回答。其中，Bayes算是比較有變化的，作者認為可能跟提示詞中有「你是貝葉斯推理者」這樣的角色扮演成分有關係。

評估四、迭帶期望法則(模型內部條件機率的自洽性)

把一開始基礎提問得到的機率，和加上各種條件之後得到的機率的總和相減，得到。將它除以基礎提問多次得到的中位數機率做正規化()，以評估誤差的嚴重度。圖六為結果。

實驗中用一個使用資料集訓練的隨機森林(Random forest)當作基準，這是為了配合資料集高維度特徵，能找到最貼近LIE的方法。從圖六也可以看出，隨機森林的基礎線確實最低。而參與實驗的所有模型，在所有資料集都達不到條件機率的自洽性。這也說明即使在前三個評估表現好的模型，也不保證機率模型的運作的連貫性。

結論

我覺得這篇研究有趣的地方有二：一是討論模型是否基於給出的答案作判斷，二是驗證條件機率的完整性。當然，他使用醫學資料來做大語言模型的行為判斷這點，也是個亮點。

從實驗結果來看，能歸納出來的結果就是：不要相信模型給的機率，與其詢問模型機率，不如請它直接判斷。因為給出來的機率有機會和他採取的行動(即判斷)不同，甚至相反，而又不能符合條件機率的完整性，這讓模型輸出單純的機率變得很不可靠。然而，模型的判斷不受提問方式的影響，在某方面來說，其實提示詞的重要性可能沒想像中高(但角色提示似乎確實有效？)

同時，模型應該存在部分背景知識，這些知識會讓它在採取行動時，不只參考提供給它的資訊。我們知道，它具備查詢能力。帶來的資訊量可能比提供的還多。

當然，這些都是純粹就使用模型的角度來說。最根本的問題還是：模型有形成信念嗎？他有想法嗎？這個爭辯並沒有因為這篇文章獲得解答。我也覺得兩方的支持者都提出很多有趣的觀點，而選擇哪個相信，似乎比較接近信仰，至少目前不像純數學可以論證的。

文獻參考

[1] Do LLMs act like rational agents? Measuring Belief Coherence in Probabilistic Decision Making. Yamin et al. arXiv:2602.06286v1