1. 甚麼是 RL？

應用場景：

給機器一個輸入，但我們不知道最佳輸出為何
收集有標註的資料有難度

例如叫機器學習下圍棋，最好的下一步可能人類根本不知道。在不知道正確答案是什麽的情況下，就可以使用 RL

Untitled

1.1 Actor

Reinforcement Learning 中有 Actor 及 Environment，Actor 跟 Environment 會進行互動。 actor 就是 RL 中要找的 function，輸入為 observation，輸出為 action，function 的目標是最大化從 environment 獲得的 reward 總和

Untitled

actor 以 environment 提供的 observation 作為輸入，而 actor 收到 observation 後，會輸出 action 影響 environment，environment 受到 action 的影響產生新的 observation，environment 會不斷地給 actor 一些 reward，告訴他採取的 action 好不好

Example 1：Space Invader

Untitled

actor：搖桿操控者
environment：遊戲主機
observation：遊戲畫面
action：母艦向左、向右及開火
reward：獲得的分數

要找一個 actor（function），可以使得到的 reward 的總和最大

1. 甚麼是 RL？

1.1 Actor

Example 1：Space Invader

Example 2：圍棋