大語言模型的行為與迷思:他的行為能信任嗎?(1)
或者說,它有邏輯嗎?
自從GPT在2022年底橫空出世以來,圍繞在大語言模型的一個核心爭論一直沒有停過,那就是:
大語言模型(LLM)是否具備自己的思考和知識,甚至是有信念或意識的?
支持者以Geoffrey Hinton[1]和Ilya Sutskever[2]為首,認為LLM在經過大量的知識訓練之後,知道幾乎所有人類的已知,且「初步具備事實推理能力」。前者是深度學習之父,反向傳播演算法的提出者。後者則是OpenAI的前首席科學家暨共同創辦人。
反對者則以Yann LeCunn[3]為首,認為LLM基本上缺乏人類被定義能思考、或有意識的幾個環節:長期記憶、對於物理世界的認知、對於語意的真實認知(接地性),以及通盤的規劃能力。對於物理世界認知的缺乏這點,同時也被史丹佛大學的李飛飛教授認同,他一直在做幫助模型認知物理世界特性的「空間智慧」(spatial intelligence)研究。
另外也有來自語言或行為學者的觀點。Emily Bender和Timnit Gebru[4]堅持認為LLM只是一個隨機吐出詞元(token,字節)的「機器」,並沒有實際上的主見和信念。甚至由此還衍伸出一個特殊名詞「隨機鸚鵡」(stochastic parrot),意思是說模型只是隨機的模仿人類的文字輸出。另一方面,Grzankowski人[5]則認為雖然LLMs在工程層面是next-token predictor,但把它化約到這個層面,就像把人類化約到「神經元放電機器」一樣,會過度損失對行為和能力的重要解釋力。他們認為,LLMs透過訓練確實建立了某種語義結構,不是純統計相關。
就我個人的看法,雖然是偏向反對派,但這論戰可能很難真相大白。因為就連在人類,也一直都有質疑「意識到底是不是出於個人自由意志」的辯論。這表示,至少在當前的研究方法上,還沒能找出徹底論證個人信念/意識/思想自由的方法。那自然,也很難在LLM找到對應的方法去論處。
不過,有一點是可以先研究的:LLM在行為上是否至少具備一定的邏輯性。要展現出邏輯性,不一定需要意識或思考能力,因為即使是基於規則的模型(rule-based model)也可以做出符合邏輯的判斷。那只要是依循專家設定的規則去執行,就可以做到的。我們對於LLM協作創作的能力無庸置疑,但要在未經特定領域訓練(如domain adaptation),也無法使用規則直接設計LLM的前提下,運用,乃至依賴它的判斷,就值得進一步探討。
今天,和大家分享的這篇論文
Do LLMs Act Like Rational Agents? Measuring Belief Coherence in Probabilistic Decision Making[6]
會給我們一些答案。
建構如何評估LLM行為的概念
LLM使用常見的困擾
論文開宗明義就先告訴讀者,「LLM是否具備自己的意識或真實信念」不在本篇論文討論範圍。先別急著跳出去,因為接下來他就說,「探討LLM是否具備行動的一致性,其重要性不會比較低」。確實,我們在平常使用LLM的過程中,或多或少都遭遇過一些「前後不一致」的經驗。例如:
- 問:「一個65歲的男性病患,有高血壓和輕微胸痛,請問他有心臟病的機率是多少?」LLM回答:35%再問:「同一個病患,有心臟病,且需要立刻住院的機率是多少?」LLM回答:45%。
- 問:「一個發燒的三歲兒童,請問各種可能病因的機率分別是多少?」LLM回答:-- 普通病毒感染:60%-- 細菌感染:30%-- 泌尿道感染:25%-- 腸病毒:20%加總:135%。
- 問:「這個病患有糖尿病的機率是多少?」LLM回答:30%再問(獨立視窗):「針對這個病患,你會做什麼診斷決策?」LLM回答:「建議立刻開始胰島素治療,並安排糖尿病衛教。」
類似的情況其實在各領域的問題都有出現。但這究竟是什麼樣的問題?有沒有辦法對LLM的行為或決策做進一步的探討,以便知道它的可靠度?就是這篇論文的研究主題。
你說的機率,是真的機率,還是嘴砲?
本文主要討論上述第三個狀況,因為關於LLM對狀況的判斷,和採取的行動之間的一致性,是相對較少被研究的。不過,要怎麼讓LLM說出「可以納入評估的答案」,是要思考的。例如,對於人的回答,我們可以用獎勵的機制,針對回答的人的偏好來給予對應的獎懲。然而,LLM並不知道獎賞的意義,他也不在乎,而且我們不知道LLM的「偏好」。因此,作者決定把LLM當作中立的個體。
你可能會問:不是有損失函數嗎?
有。那是訓練的時候,而現在是針對「已經佈署在實用」的模型。因此,訓練時的狀態已經固定下來了,如果不是一些特殊的方式(如nested learning),基本上模型的權重不會再改變。不過,在後面評估模型行為的時候,確實會用到一些函數來測試模型會不會因此改變說法或行動。總之,對LLM而言,能比較貼近人類獎懲機制的,也只有這些數學方式了。
接著,論文要把對狀況的判斷,也就是LLM報出來的「機率」,當作「信念」了,儘管LLM是否真正具備信念仍是一個爭議,但這並不妨礙我們測試機率和對應行動之間是否有一致性。首先是LLM報出來的機率。這到底是LLM經過「思考」(模型運算,或連接某些工具計算)的結果,還是單純只是詞元輸出?如果是後者,那就會延伸出兩個結果:一是模型實質上知道更多,但沒反應在報出的機率上;二是模型不會採取對應這個機率的行動。兩者顯然都不是我們想看到的,所以作者想先探討機率的確實性問題。
機械方法:頭打開來我瞧瞧
直接進到神經網路去看它的數值,分析結果,當然是最客觀的。我們在CNN架構中,有時也會利用倒數第二層的activation,去看模型分類的「依據」是什麼。在NLP模型,我們自然也可以如法炮製,鎖定特定一層的activation去訓練一個分類器,來知道模型到底說真說假。但在LLM,這變得非常困難。首先,LLM的層數太多。其次,商用的LLM模型基本上是拿不到內部框架的。最後,要針對某些語句去判定真偽,就需要額外標註的資料,而這將引入人類的判斷,可能干擾模型的真實決策。
黑箱方法:我就只看你說什麼
所以作者反而採用簡單的方法,就是直接提問(prompt),這樣不需要得到模型內部結構,也不需要額外準備資料。
善於回答卻不善於提問
說到這邊,我突然知道為什麼前陣子有段時間,GPT變的非常愛問問題。往往你提出一個任務需求,它會一直問,即便你回答了,它也還會再問新的問題,搞到最後任務沒怎麼動,而使用者已經被它問的問題淹死了。現在看來,可能就是為了增加模型對於不確定的狀況,提問釐清的能力。相較之下,Claude比較中規中矩,在提問和行動之間的拿捏精確一些。
以往的benchmark,往往都是測試LLM面對標準問題集的回答,例如醫師國考。模型確實都能選到正確答案,拿到不錯的成績。然而,從「華生」系統以來,純粹作為協助決策的醫療LLM顯然到目前仍未有大規模的運用,更別說讓它直接進行決策。其根本問題就在於,模型對於邊界的拿捏不清楚,換句話說,它「不知道自己不會什麼」。
另一個問題,當然就是機率本身的正確性。即使模型真實運用它的知識和工具做推算,報出來的機率,正確性是多少?這也會影響其作出決策的可依賴性,但在開放性的任務中,它的表現並不如回答標準問題集出色。
研究方法
現在要先把研究題目正式定義。
接下來整個段落,會看到定義、宣告、註記,而且都統一按照數字順排,沒有按照各自分類。這是論文裡面的排版方式,為了對齊,我也只能這樣標,不然你們會找不到對應的原文。為了怕困擾(例如沒有宣告1.,就直接跳宣告3.),這邊統一先說明,請見諒
首先是基礎架構:在一個決策環境中,有某個狀態及觀測值,依此可產生兩種條件機率:一是在某狀態下,可觀測到觀測值的機率,即。反之,在觀測到x的情況下,判斷狀態的機率為。對於觀測者而言,在觀測到,判斷狀態的機率為,不一定和相等。
舉個具體的例子:某個疾病和某個症狀,在醫師觀測到某症狀時,判斷有某疾病的機率是,而實際上有某疾病的機率則是。因為症狀的嚴重程度、頻率,可能都會影像醫師做出診斷的信心。每位醫師對於該症狀是否能判斷為某疾病的見解,也可能有差異(但醫學講求實證,所以容易有共識,也就是認為有或沒有疾病的判斷,醫師間一致性比較高)。
放到LLM也是一樣的狀況。依據某症狀判斷是否有疾病,也是LLM基於信心的決定。而基於判斷,決策者(無論人或LLM)應該會採取對應的行動,來讓效用最大化,或者最小化損失。這邊,我們可以建立一個效用函數,用來評估行動對於狀態所產生的效果,即。損失函數可讓我們評估最小化損失,即。但決策者是基於觀察到來採取行動的,並不是觀察到。所以行動函數a可以寫成一個最大化效用的式子:
也就是說,決策者觀察到,並認為有狀態,然後採取對應的行動,獲取對應的期望值。對於行動,在各種狀態下能獲得的效益的總和,即為的總期望值。最大化效用,要找出所有行動中,對於觀察到的所有狀態下,能產出最大效益的那個。或者,造成最小損失的那個。
接著可以把題目訂出來了:LLM作為觀測和決策者,其效用最大化行動a,是否和其判斷狀態(也就是信念)一致。若為一致,則表示LLM基於其判斷的狀態採取對應行動,無論判斷狀態正確與否,也就可以證實LLM一部分的邏輯性和可靠性。
然而,直接測試是否符合效用最大化本身,是較為嚴格的。因為終究存在一些主客觀因素,會影響決策者,甚至使它無法依照效用最大化本身得出的結果行動,即使是人類也一樣。因此,作者引入原本用於計量經濟學研究人類行為的隨機效用模型(Random Utility Model),即在最大化效用的式子上加入隨機噪音:
定義1. 隨機效用模型(Random Utility Model,RUM)
按照以下公式行動
其中為行動的隨機變數,且彼此獨立,即噪音不跟任何環境變數有關,否則被認為是可以提供LLM除了x以外的額外資訊,那LLM的決策就有可能不是基於我們提供的資訊而已,行動和說出的信念就可能不一致。
如果服從羅吉斯分布,則對於每個a而言,被選到的機率和其機率加權之自然指數正相關
即為softmax。不過,作者強調噪音的分布不需要特意指定,而無論其分布為何,定義3.1都應該被遵守。
同時,在某些情況,決策者會傾向避開風險,而非獲利。也就是「不求有功,但求無過」的保守方式,這在人身上並不罕見。LLM既然依據人類產生的資料訓練,有可能表現出類似的行為,尤其訓練過程也可能是選擇損失較低,而非獲得較多的趨勢。因此,引入前景理論(Prospect Theory,PT)來修正式(2),設立一個權重,屬於單調遞增的函數,以取代作為信念機率。修正定義3.1成為3.2:
定義2. 前景-隨機效用模型(PT-RUM)
符合以下公式
但這邊開始出現問題了。首先是單調遞增函數,實際上在人類決策的時候,如果是偏保守的情況下,會把大的縮小,小的放大,因此出現過中線反轉的現象。其次是,w沒有辦法在真實被觀察到,因此論文是直接把它包在裡面,一起觀察。然而,這樣還算不算是LLM的信念?如果經過權重運算之後,剛好超過,或低於採取行動的閾值,造成判斷和行動不一致,就會干擾我們認定LLM是否依據信念行動。這是我認為研究方法中的其中一個限制(limitation)。隨著論文鋪陳,後面會出現越來越多的限制,而這會某方面影響文章的信度。不過,由於文章的結果還算明顯,即使包含這些限制,可能也不會影響實驗結果,所以仍然值得一讀。
經過定義2.,作者把研究的核心目標描繪得更清楚了:我們利用引導(提示,prompt)的方式,讓LLM表達他的信念,這個「表達出來的信念」定為。作者很清楚的知道,引導出來的回答,和內心的想法不一定完全一樣,但我們也只能觀察到引導出來的回答。事實上,在人身上也一樣。所以,我們能觀察到的,最後其實是和,倘若這兩者一致,至少無法否定,因為行動都一致了嘛。如果行動和回答不一致,那有可能。
資料收集過程
在實驗者知道真實的分布,或至少知道根據分布抽樣的結果的前提下,才有辦法設計測試。作者使用自然語言導引LLM說出答案,LLM的回答必須根據狀態分別給出機率。這樣的提示方式簡單,而且符合平常使用LLM的方式。接著,作者會用另一個對話,問LLM同樣的問題,但這次要求LLM直接採取行動。這樣就會產生一組樣本:觀測值x,引導的機率,行動a,以及狀態。
然後,我們就可以利用統計方法檢驗這些樣本在「引導出的信念和行動確實反映理性決策」的前提下應該滿足的性質。違反這些性質的程度,量化了引導出的信念偏離「真實主觀機率」的程度。
評估一、條件獨立檢定(Conditional Independence)
宣告3. 行動和結果(狀態)的條件獨立性
一個理性的決策者,其行動基於信念,因此一旦產生,它的行動就不會再受到任何影響。也就是說,能再為行動所提供的資訊為0,而就是產生的充分統計量(sufficient statistic)。反過來說,如果已知,但仍和相關,表示決策者還掌握了其他關於的資訊,而這些資訊沒有在時嶄露出來。舉個例子:問LLM飯前血糖220有沒有糖尿病,他說沒有;但當問他飯前血糖220要採取什麼行動時,他卻說需要給血糖藥。這就表示它還知道除了「血糖220」之外,關於糖尿病這個狀態的一些額外資訊,使它在採取行動時,選擇糖尿病的處置方法,而與引導出來的回答相違背。
註記4. 通過條件獨立測試也不是證明模型就是理性的(只能反證)
一個極端的例子就是,LLM報的機率是完全隨機的,而行動也是完全隨機的,並不根據。在這種情形下,和、都是完全獨立的,符合條件獨立。但顯然,這樣的模型並不具備邏輯性。
測試
虛無假設:在的條件下,與條件獨立,即。我們可以利用檢查條件互資訊(Conditional Mutual Information,CMI)的方式來驗證,即。這是一種無母數分析方式,因為前面提過,不預設噪音的分布,不預設母體的分布方式,所以適合。
不過這樣檢定的結果只是定性,最多只能告訴我們模型有無違反條件獨立(而且只有有違反是有實際意義的)。如果加入定量分析,可以告訴我們更多訊息,例如模型對某些資料違反的程度。因此,作者建了兩個預測模型:
- 用預測
- 用和預測
然後比較兩個模型準確度的百分比差距,就能量化帶來的資訊差。預測模型選用CatBoost,這是一種決策樹型的模型。
不過,來自於,而可能包含的資訊。所以,如果只有加入,這中間的資訊落差有可能是x貢獻的,而非。所以論文中有再改良:把兩個模型都加入,再跑一次。這樣一來,增加而增加的預測準確度,就很難再跟脫鉤。
評估二、單調遞增二元選擇機率(Monotone pairwise choice probabilities)
這個項目是設計給二元分類的資料的。也就是狀態和動作都只有兩個。
一個理性的決策,無論他基於哪一種效用模型(),得到的行動必定和機率成單調關係。也就是說,隨著偏向某一個狀態的機率增加,採取對應行動的效用也要對應增加,不會忽增忽減。這對人類是常識,但我們要在LLM驗證這個性質。例如一個效用模型,評估兩個行動、效用上的差距為
也就是計算的期望值,期望值的獎勵來自於效用評估的差距。對效用模型,這是機率的加權;對評估LLM的信念,這是效用的加權。這是一個對的線性函數,所以它是單調函數。
定義5. IIA(Independence of Irrelevant Alternatives(無關選項獨立性))
白話說:兩個行動之間的相對勝率(勝算比),不受到其他因素干擾。例如:原本採取是的行動,正確的機率是否的行動的兩倍,那在加入「拒絕回答」的選項之後,雖然採取是或否的行動的正確機率會被壓縮,但仍保持在相對兩倍的比例。這是延續單調遞增函數之下,加上的限制。原本的目的是希望確保LLM不會因為新增的選項,改變信念,但我認為似乎太過嚴格。即使在人,也很難不因為新增的選項,破壞原本選項之間的機率比例。這包括選項被提出的順序、選項的框架,以及妥協效應--人趨向比較中性的選擇--都會干擾原本的機率分布。
但這個設計,其實是作者為了方便驗證單調遞增所設計的。因為到後面,作者想要延伸單調遞增的觀念到三個以上選項的情境(註記7.),但比較麻煩。如果能證明IIA,那新增的選項就不會干擾原本的單調遞增性。然而,這樣做的副作用是,如果LLM違反單調遞增,究竟只是違反IIA,還是LLM本身不理性(掌握除了告知他的訊息以外的資訊,並依此做出和信念相反的行動),就無法確認。這是研究的第二個限制。
宣告6. 單調二元遞增機率
結合定義1或2,和5,隨著增加,選擇或行動的機率應該對應的持續增加或減少,不能有反覆。
註記7. 三個以上選項的狀況
有一個嚴謹的方法可以證明單調遞增的性質,稱為循環單調性(cyclic monotonicity)。這個方法需要一個前提,即選項的機率必須符合一個凸函數的次梯度。這在數學上較嚴格,而且不容易進行測試,結果也不好解讀。因此作者採用兩兩配對的方式代替。
測試
由於機率是連續值,因此作者把它拆分成許多區間,例如K個,然後比較每個區間,LLM採取特定行動的比例是多少。如果單調遞增,採取特定行動的比例應該會隨區間逐漸上升或下降。將機率分為K個區間,,其具備中心機率,我們定義
指的是在第個區間,LLM選擇行動的次數,佔該區間全部選擇的比例。兩兩區間比對:若區間小於區間,但,則視為違反單調遞增性。但如果只有一兩個區間發生這樣的事情,我可以說這是隨機性的事件,不足以證明LLM真正違反單調一致,進而說他不理性。因此作者做一個顯著性的檢定:建立虛無假設,即認為只是隨機出現的違反。然後使用Fisher's test做單側分布差異,定時為有顯著差異,推翻虛無假設。就是說,如果如 成立,那麼在區域裡觀測到這麼高的比例的機率是多少?如果非常低,那就表示這個區域採取的比例異常高,可能顯著違反單調遞增,至少達到統計意義。
評估三、跨決策任務的一致性
簡單來說,信念不應該因為決策任務的性質而改變。例如:如果肯定A是有病的,而B沒有,那無論我是問診斷結果,或者診斷相關症狀出現的機率,兩者都應該明確指向A,而不會是診斷結果A有病,但B卻有更高和該疾病相關的其他症狀的機率。
作者使用不同的提示(prompt)測試LLM的一致性。在問題或任務的描述上,仍然保持一致,差別在評分規則,例如「你的機率會用 MSE 評分」或「用 Absolute loss 評分」。注意,這邊雖然問的是具體的數值,但想調查的仍然是LLM背後的「信念」。只是,被問出來的答案是否能代表背後的信念,一如論文一開始宣示的,不在這次的討論框架裡面,這是哲學問題。
測試
MSE和MAE剛好對應不同的評分策略。MSE必須越接近真實答案,error才會越低。MAE則是趨近中位數,error才會越低。當然,論文中只是舉例,不是限定用這兩種當作評分方式納入提示詞。實驗時,提示會被重複提出,以確認LLM回答的集中趨勢。我們用表示LLM在任務,被告知資訊的情況下,重複次得到的回答。其次的平均為。我們用標準提示詞所產生的任務的平均作為基準,並調整各種評分方式,產生一組的,然後重複提問,並計算他產生的機率和之間的RMSE,若越大,表示一致性越差。
同時,作者也記錄多次提問任務,產生的回答的標準差(sd)。這樣可以知道,LLM本身在完全一樣的問題,多次回答時的分布情況。如果RMSE遠高於sd,則表示系統性的偏差可能存在,暗示跨任務決策並不一致。
評估四、迭代期望法則(Internal Consistency via Law of Iterated Expectation)
簡單說,就是LLM有沒有穩定維持機率的分布。最簡單的一個例子就是「各選項的機率加總有沒有超過100%」。當然,也包括條件機率的情況。這一項評估,主要是看LLM自己的信念和信念之間,有沒有一致性,和前三項評估不同。機率的公理如下:
- 非負性: 所有機率 ≥ 0——不能出現負機率
- 規範性: 所有互斥事件的機率加總 = 1
- 可加性: 互斥事件的聯合機率 = 各自機率相加
而這項評估,就包括第二項和第三項。作者為什麼要提出這一項?在之前的其他研究裡,其實做過類似的評估了。重複提出這一項,主要是為了看這個LLM自身信念的一致性,和剛剛提到跟外部的資訊、評分方式等等的一致性,是否有關聯。也就是說,是不是LLM對外部條件的不一致表現,也會反映在對內部信念的不一致?
測試
首先,有一個基本提問(資訊)。先問LLM,基於資訊,的機率是多少?由此得到一個基準機率。這個有一個輔助屬性。將分成個區(),並一一詢問LLM,落在各區間的機率,得到條件機率。最後給加上每個區間的條件,再次詢問LLM,的機率是多少?得到,然後檢視和加權之和,是否為。其實就是貝氏定理啦。
實際計算時,把一開始問LLM得到的減去後來加權總合的,即為。
越大的表示LLM的信念內部越不一致。這個內部信念不一致,在作者的觀點裡,並不直接把他視為「LLM給的機率在信口開河」,而是用比較保守的說法,認為「可能不是在用一個連貫的機率模型做推理」。因為這個實驗方法其實很嚴格,換作是人,即使知道貝氏定理,也未必能精準依照定理分配機率。而LLM本來就不一定會根據提問的情境去建立機率模型,事實上,也不一定有足夠的條件。
而且,實驗過程的提問方式,會干擾最後呈現的結果。例如,這個z具體怎麼被切分?在不同的問題情境,顯然不可能一致。作者有提出:依照病人(因為提問情境是疾病診斷)的共變異數來切成三分,即使如此,在不同類型的疾病,可能也很難達到空間上的一致。而且論文中沒有提到,這些提問是在同一個上下文視窗完成,還是平行動用多個視窗。這些都會造成實驗結果的限制。
我們在這邊文章裡面討論了LLM行為和信念的問題,並利用一篇文章的研究來試著探討,有沒有可能用客觀的方式來評估?儘管文章中提出的方法侷限仍然不少,但我們在下一篇文章來看看研究的成果吧。
參考文獻
[1] ACL 2023 Keynote (2023/7)
[2] NeurIPS 2024 (2024/12)
[3] 2024年在Lex Fridman的Podcast訪談
[4] On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Bender, Gebru, McMillan-Major, Mitchell, FAccT 2021
[5] LLMs are Not Just Next Token Predictors. arXiv:2408.04666
[6] Yamin et al., arXiv:2602.06286v1