強化學習簡介(1)--名詞解釋

強化學習，顧名思義是讓模型在過程中，利用一些方式增強學習效果。他比較偏向使用在操作型的情境，而非常見的任務型情境(例如分類、辨識、偵測、分析)。這個模型通常稱為代理(agent)，藉由在環境(environment)的一系列操作得到的回饋(return)，修正行為，以追求最大獎勵(reward)為目標。所以，很適合在一些決策處理類型的情境使用，例如典型的路徑問題(走迷宮)。

以下介紹強化學習中常使用的專有名詞，在後續系列文章都會用到。

本簡介基於中興大學林長鋆教授在中華開放教育平台開設的強化學習課程整理而成。課程網址在此，歡迎有興趣的朋友點擊連結。

名詞解釋

以下會用一個九宮格迷宮來比喻每個名詞的意義，讓抽象的定義能具體一點。

環境

在迷宮問題，指的是整個迷宮(九宮格)。定意指所有代理可以到達的地方，也就是所有狀態的集合。在某些情境，必須先把環境邊界畫清楚，以免額外的狀況造成干擾。分為離散和連續兩種，迷宮就是一種離散的環境。又分為確定性和機率性環境，在確定性環境，行動造成的狀態轉移是固定的，例如從迷宮4號位往右，一定到達5號位；而機率性環境的狀態改變則有不確定性，例如從迷宮4號位採去往右的行動，只有60%機率會到5號位，20%機率留在4號位，20%機率往上跑到1號位。

狀態

迷宮的每一格。也就是代理所在的位置。

代理

在迷宮中移動的主體。通常是模型操縱的對象。

行動

可以移動的方向。在不同狀態，能移動的方向可能不盡相同，例如在最上面的迷宮位置，就沒辦法再往上移，只能往下。所以，隨著狀態不同，能採取的行動選項有可能不同。所有行動的集合稱為行動空間，通常和環境的種類一致。也分離散和連續兩種，連續的行動空間通常是數值調整的行動，例如改變速率。

狀態轉移

換到不同的迷宮格子，即狀態改變。這邊牽涉到轉移機率的概念：

如果有多個行動選項，代理挑選行動有機率性
即使挑了一個行動，這個行動造成的狀態改變也可能有機率性

這兩種狀況合起來之後，才是狀態轉移的機率。因此，這裡面有條件機率的成分，即馬可夫決策過程(Markov decision process)。

獎勵函數(reward function)

在每個九宮格會得到的分數。即每個狀態對應的結果，或更完整的說，是每個(行動前狀態，行動，行動後狀態)對應的結果。有可能三項中只要有一項不同，獎勵就不同；但也可能只要有一項相同，獎勵就一樣。因此，取決在環境跟獎勵的設計。

回合(episode，)

玩一次迷宮的整個過程。這一次有可能直接破關(找到最佳路徑)，更有可能的是走進死路，或掉到陷阱裡面去，流程結束。一次的流程由許多行動和狀態轉移構成，即軌跡(trajectory)。一回合的獎勵紀錄按照(初始狀態，行動，獎勵)的方式重複，即，直到終止(最後一個狀態)。終止狀態沒有紀錄。

回饋(return)

一回合的獎勵累計。

任務(task)

分為回合和連續任務。回合任務如上所述，有起始有終點，累積獎勵(回饋)為。連續任務沒有終點，獎勵持續累積，

折扣因子(dicount factor，)

作為計算獎勵，要累加時乘入的一個參數，。若很小，越後面的行動獲得的獎勵越少，回饋主要由前幾個狀態和行動決定。若大，後面的行動和狀態能提供的影響就會增加。

期望值

機率×獎勵。

策略(policy，)

一回合中，代理採取的所有行動的流程。確定性策略：在特定狀態，只採取特定行動，。隨機性策略：在特定狀態，可能採取的行動不只一種，有機率性選擇行動。或表示在狀態s，採取行動的機率。

類別策略：用在離散環境。高斯策略：用在連續環境。

接著，我們可以進入強化學習的領域了。