1. 甚麼是 RL?

應用場景:

例如叫機器學習下圍棋,最好的下一步可能人類根本不知道。在不知道正確答案是什麽的情況下,就可以使用 RL

Untitled

1.1 Actor

Reinforcement Learning 中有 ActorEnvironment,Actor 跟 Environment 會進行互動。 actor 就是 RL 中要找的 function,輸入為 observation,輸出為 action,function 的目標是最大化從 environment 獲得的 reward 總和

Untitled

actor 以 environment 提供的 observation 作為輸入,而 actor 收到 observation 後,會輸出 action 影響 environment,environment 受到 action 的影響產生新的 observation,environment 會不斷地給 actor 一些 reward,告訴他採取的 action 好不好

Example 1:Space Invader

Untitled

Untitled

要找一個 actor(function),可以使得到的 reward 的總和最大

Example 2:圍棋