P5-Reinforcement-Learning---爱可可-爱生活---BV1jo4y1d7R6

P5：Reinforcement Learning - 爱可可-爱生活 - BV1jo4y1d7R6

(音樂)，大家好，歡迎回到Success 191，今天是個非常刺激的一天，因為我們要學習如何結合，我們近期的進步，和我們近期的進步，在深入學習中的進步，如何結合這兩個領域，來建立一些非常奇妙的應用。

以及能夠超人性的表現。

我覺得這個領域非常神奇，因為它離開了我們近期的，這個學習的原則，我們近期的深入學習，我們所看到的，已經被困在修正數據，我們可以收集或在網上獲得，在強化學習中，深入學習是放置在某個環境中，能夠探索和互動。

在那環境中，能夠學習如何達成目標，通常都是沒有人性監督或指導，這使得它非常強大，也非常靈活。

這對於機械人類，自動駕駛車，和機械人類操作，有著明顯的影響，但它也讓遊戲玩意，和策略計劃發展得非常革新，這就是真實世界和深入學習，即是實際世界之間的連結，這讓我非常興奮，我希望我接下來要展示的影片。

也能夠展示出這一點，我希望我接下來要展示出這一點，星際大戰有完美的資訊，而且可以在現實中遊玩，它還需要長期計劃，以及能夠選擇，從萬萬個可能性中取得什麼行動，我希望5-0不輸掉任何一場比賽。

但我認為最真實的目標，是4-1，他看起來比TLO更有自信，TLO之前還挺緊張的，這次房間更繁忙，他真的不知道要期待什麼，他已經在玩星際大戰，大概是五年了，我並沒有預期AI會這麼好，他做的一切都很正確。

計算過後都做得很好，我認為我在學習一些東西，這比我想像中的好，我會覺得自己是個好玩家，但我每次都輸掉了五場比賽，(掌聲)，(鈴聲)，好的，這就是TLO的例子，是如何在人類上競爭，專業的遊戲玩家。

並不是只在他們身上競爭，而是能夠達到，不得不說的超人性表現，打敗這位專業的星際大戰玩家，五場比賽，我們先從一步步走回來，看看如何在其他學習問題中，能夠達到強化學習，我們在這課程中，所見到的各種學習問題。

我們在這課程中，所探索到的最初和最具體的，學習問題，就是在學習問題中，能夠超越專業的學習，我們在第一，第二，第三堂課中，談到的這些問題，我們在這領域中，基本上是被給予了一堆數據，我們嘗試了解一條網絡。

以預測它的標籤，Y，目的就是從X到Y，從X到Y，我喜歡用很主觀的方式，來形容，如果我給你，例如說我給你一張蘋果的圖片，我想訓練一條網絡，以確定這東西是蘋果，好，我們在上一堂課中，學到的下一個類型的。

系統是不超過學習，在這情況下，我們只能夠，給予數據，沒有標籤，例如說一堆蘋果圖片，我們被迫要學習一條網絡，或是學習一種模式，代表了這一個，在數據系統的構造下的東西，所以在蘋果的情況下。

我們嘗試了解一種模式，如果我們把這兩張蘋果圖片，給我們看起來，這兩個模式，基本上是相同的，我們不知道它們是蘋果，因為我們沒有給予任何標籤，可以明顯地告訴模式，這東西是蘋果，但我們可以告訴它。

這東西也很接近，這東西，它也看到了，我們可以選擇這兩個，相同的構造來辨識，最後一部分，在RL，在強化學習中，這是今天課程，要專注的地方，我們只能夠給予數據，我們稱之為，"數位行動對比"。

數位是系統的觀察，行動是系統的行為，或是系統的行為，當它看到這些狀況時，RL的目標，與超級學習，和超級學習不同，RL的目標，是要達到，系統在這個環境中，在許多時間過程中，獲得的獎勵，再回到蘋果的例子。

對比的情況，系統應該學會，它應該吃這個東西，因為它知道，它會保持你活著，會讓你健康，你需要食物來生存，再次說，就像不超過的情況，它不知道，這個東西是蘋果，它甚至不認識，它是什麼，它只知道，在過去。

它應該吃過，然後能夠長久地生存，因為它是一塊食物，它能夠，變得健康，例如，通過這些系統的行動對比，和一些試驗和錯誤，它能夠學到這些代表，和學習這些計劃，所以今天我們要專注的，是關於第三類的學習問題。

和強化學習，所以要做到這一點，我覺得非常重要，在我們開始探索細節，和技術細節的時候，我覺得我們需要建立一些，關鍵的語言，這是非常重要的，在強化學習中，而且這會非常重要，讓我們在後面的課程中。

能夠了解到這些點，這是課程中非常重要的一部分，所以我希望我們可以，慢慢地走到這部分，讓我們在課程的最後，能夠做到最多的理解，我們開始從中心，從中心，從中心開始，來看強化學習的核心，那就是你的代表。

代表是一個，能夠在環境中做出行動的東西，它可以像是飛機，在世界上做出運輸，就像是Mario在遊戲中旋轉，強化學習中的手段，是你的代表，你可以說在現實生活中，代表是你每一個人，好嗎，下一個部分是環境。

環境只是代表，代表在生活中的世界，代表在生活中的存在，在生活中的行動，在生活中的行動，這就是兩者之間的連結，代表可以在環境中，做出行動的東西，A(t)，是在時間t，這個環境中，代表的行動，我們可以將A。

定義為行動空間，這是一個，所有的行動，一個代表可以做到的，我想說這個，雖然我覺得，有點自我解釋，行動是，或是，一個行動的列表，所有的行動，一個代表可以做到的，在環境中可以是隱密的，或是從一個行動的列表。

在這個情況下我們可以看到行動是，前進、右、後、或是，或是持續的行動，例如，環境的位置，例如是行動的數字位置，例如GPS的位置，這個代表想要去哪裡，它可以是隱密的，或是一個類似的，可能性列表，或是持續的。

在這兩種情況下，觀察，是環境，與代表的交互，代表可以觀察，環境的位置，以及它的行動，影響環境的狀態，這讓我非常喜歡，這一點，狀態其實是，一個具體的、即時的情況，當代表，找到自己的時候，例如，狀態可以是。

像是一個視覺的影像，這是你觀察的世界狀態，當你觀察它的時候，獎勵，現在也是一個，從環境的，回饋給代表，環境可以提供，回饋，來測試，代表的成功或失敗，例如，在一個遊戲中，當瑪利歐碰到一張硬幣。

代表獲得獎勵，從一個狀態下，代表會傳出，回饋，給環境，環境會回應，代表的新狀態，它能夠達到的，這會影響，該狀態，和獎勵，被收集或被扣，現在，很重要的一點，獎勵可以是，即時或延遲，基本上，你應該。

以獎勵來評估，代表的行為，但你可能不會得到獎勵，直到很晚，例如，你可能會，做很多不同的行為，然後獲得獎勵，很長一段時間，這叫做延遲獎勵，但它還是獎勵，我們也可以看看，總獎勵，這是所有獎勵的總數。

一個代表會，收集或取得，在某個時間，R(i)是獎勵在時間，R(t)，是回饋，總獎勵，從時間T，到未來，到時空無限，這可以寫出來，我們可以寫出，總數，從R(t)，到未來，所以它是將所有獎勵，加起來。

從現在到未來，然而，很常會，不僅是，總獎勵，總獎勵，而是，我們稱為償還獎勵，償還獎勵，償還獎勵，代表，Gamma，是將未來獎勵，被發現的獎勵，加起來，將償還獎勵的影響，影響到獎勵的選擇。

為什麼我們要做這個，這個方案，是由設計，來製造的，將未來獎勵，的償還獎勵，來製造，償還獎勵，的影響，我們可以，在這個方案中，將償還獎勵，加起來，將，償還獎勵，加起來，將，償還獎勵，加起來，將，償還獎勵。

加起來，償還獎勵，將，未來獎勵，被發現的獎勵，加起來，將，未來獎勵，加起來。

將，未來獎勵，加起來，將，將很多這些元素，加起來，這叫做Q形式，現在我們來看看，這個Q形式的定義，記住，這個償還獎勵的，總數R(t)，記住，總數R(t)，是獎勵的償還數，從，T的時間而來，現在Q形式。

是非常相似的，Q形式是一個，償還獎勵的，現時的狀態，以及當中的，狀態的行動，然後它回報，當中的，獎勵，所以，假設，當中的狀態，當中的狀態，當中的，回報，當中的，假設，我給你，這個魔法Q形式。

這其實是一個魔法功能，因為它告訴我們很多，問題的事實，如果我給你這個功能，一個Oracle，你可以連接任何狀態和行動的對比，它就會告訴你，從你的現時時間點T回報的期望，我給你這個功能，問題是。

你能否決定，你現在的狀態，最好的行動是什麼，你可以在這個功能上，進行任何的檢查，你可以這樣做，就是，你最終，想要選擇，最好的行動，但最好的行動是什麼，就是最好的回報，最高期望的回報，所以你只需要。

選擇一個最好回報的，最好的回報，那這個回報的期望，可以簡單地寫成，找到你的Q形式的ArgMax，對應所有可能的行動，在這個狀態下，簡單來說，如果我給你這個Q形式，在這個狀態下，你可以將你的狀態。

連接每一個行動，然後評估Q形式會告訴你，期望的回報，在這個狀態下，你選擇最高的Q形式，這是最好的行動，在這個狀態下，你可以建立一個政策，我們稱之為Pi(s)，來定義最好的行動，現在想像你的政策。

是一個新的功能，它會帶給你一個狀態，告訴你該做的行動，在這個狀態下，所以這個策略，給你一個Q形式來計算，你的政策，是從這個ArgMax的形式。

來定義你的Q形式，在這個課程中，我們將專注於，這兩個類型的，強化學習方法，分成兩個類型，其中一個會嘗試，學習這個Q形式，Q(s)，你的狀態和行動，另一個會叫做，政策學習方法，因為他們嘗試直接學習政策。

而不是用Q形式來定義政策，我們將在政策學習中，直接定義你的政策，Pi(s)，來定義該做的行動，這是一個更直接的思考方式，但首先我們將專注於，價值學習問題，以及我們可以做的Q學習。

然後我們會在之後，來建立政策學習，我們先來深入研究，這個Q形式，首先我會介紹這個遊戲，在左邊是Atari Breakout，如果大家還沒看過，我會介紹一下這個遊戲的運作，這個Q值告訴我們。

我們可以預期的，回報率，在任何一個狀態，這是一個例子，在這個遊戲中，你的代理人，是這個桿子，它可以移動左或右，它有兩個動作，它也可以一直在同一個位置，所以它有三個動作，在同一個環境中，還有一個球。

它在桿子的下方，它將會擊中，然後從桿子上跳，目標，這個遊戲的目標，是移動桿子，然後擊中桿子，在最好的時間，你可以把它跳出去，擊中和破壞所有顏色的牆，每當桿子，碰到一個顏色的牆，你必須把它破壞。

因此遊戲的名字叫做破壞，目標是，擊中這些顏色，每當桿子碰到一個顏色，它就消失了。

你必須一直移動，擊中桿子，Q值告訴我們，我們可以預期的回報率，在任何一個狀態，在任何一個狀態，我想要說的一點，其實有時候，我們需要用心去理解，或是用理解的方式，來猜測，一個狀態的Q值，如果我給你。

兩個狀態的對比，A和B，我會問你，哪一個對比，你覺得有更高的Q值，A的對比，我們可以看到，桿子已經在移動，桿子已經在移動，我們可以看到桿子在移動，桿子已經在移動，所以擊中了，我會問你，哪兩個對比。

你覺得會回報，最高的回報率，回報率，在我給你答案之前，我想告訴你，這兩個對比的政策，在遊戲中的樣子，而不是在看一個對比。

我們先來看看A的對比，A的對比是，一個比較保守的選項，它不會移動當桿子，移動向著它，我們可以看到，當它在遊戲中，它開始擊中，很多對比的部分，向著遊戲中心，它其實做得很好，它擊中了很多，顏色的對比。

但我們來看看，B的對比，B的對比其實有一點很有趣，它喜歡在桿子的角落，擊中桿子，它做這個，讓桿子可以在極端角度，在桿子的角落，擊中顏色，現在，它其實會做到極端，因為，即使桿子正朝著它，它也會移動。

讓它能夠在極端角度，擊中桿子，我們來看看，B的對比，當它在遊戲中，我們可以看到，它在擊中桿子的對比，擊中了很多顏色的對比，為什麼呢？因為當它擊中了桿子的角落，它能夠擊中很多對比，因為它能夠，在極端角度。

擊中它，當它在極端角度，它不需要擔心，因為它正在累積很多獎勵，這是一個很好的學習方式，因為它能夠，擊中遊戲，比A更快，而且也更少努力，所以回答問題，哪個對比的桿子，有更高的Q值，這就是B的對比。

但這對我來說，是一個相對不太理想的選擇，因為我預期，當桿子正朝著你，它會做出更好的行動，但這個對比，它學會了離桿子遠一點，讓它能夠回擊，並且在極端角度，擊中它，這是一個非常有趣的觀察，這對比學習。

但問題是，因為Q值很難定義，人類很難定義，正如我們之前看到的，人類不可以定義Q值，而是我們可以用，深層面網絡，來模擬這個功能，並學習它，在這個情況下，Q值是一個功能，讓我們可以定義，一個深層面網絡。

能夠得到，它所定義的，狀態和它所想做的行動，然後網絡會被訓練，來預測Q值，這只是一個數字，但問題是，我們需要在時間內，去進行進行，因為我們需要，計算這個模式的政策，如果我們想預測，這個狀態下。

最好的行動，我們需要，研究這個深層面網絡，N次，N是它能夠做出的，最多的行動，這意味著，我們需要，研究這個深層面網絡，來學習，這個模式的，狀態，而不是，研究它，的最多的行動，而是，研究它，最多的，狀態。

而不是，研究它，最多的，我們會在最後，所有檔案的最大數值檔案2到最大數值檔案3 Thrones，所以做完所有的檔案之後，根據現在你的狀態，你將得出，整個深入訊號的最佳狀態。

以及充分將收穫的檔案數據來解決的結果。以這些不同的檔案數據為例。那麼，如何讓我們來訓練這個深入訊號的軟件？我們知道我們想用這些隱藏的訊號來訓練，我們稱之為訊號值，但我們還不清楚如何訓練它。

而要做到這一點，這其實是很困難的，你可以理解為我們沒有一個訊號值的數據序列，我們只有觀察，狀態，行動，獎勵，和三分之一。所以要做到這一點，要訓練這種深入訊號的網絡，我們必須考慮，最佳的情況是什麼？

如果一個人能夠做得最好，或最佳的表現，那麼最佳的表現會是什麼樣的結果？這意味著，目標的回報會被最佳化。我們可以在這種情況下，利用這個目標的回報來作為我們的基礎，我們的數據序列，來訓練這個深入訊號的軟件。

那麼，首先，我們會形成我們預期的回報，如果我們能夠做到最佳的表現，最佳的回報是，加上我們選擇的行動，最佳化的回報，對於未來的狀態，然後我們再應用這個減少因素，所以這是我們的目標，這是我們要嘗試。

去達到的目標，就像我們嘗試，去適應，我們想要的預測，適應。但我們現在應該問，我們的網絡預測是什麼？我們的網絡預測，就像我們在這個網絡中看到的，這個網絡預測是我們對於一個狀態的行動對比的Q值。那麼。

我們可以利用這兩塊資訊，我們的預測Q值，以及我們的目標Q值，來訓練，來製造我們稱之為Q-loss。這基本上是一個中間數值錯誤的表現，在我們目標和預測的Q值之間。

我們可以利用這些來訓練這個深入訊號的網絡。所以，總結一下，我們走進深入訊號的訓練，從頭到尾。我們的深入訊號，看到我們在進行訓練的狀態，然後，這個狀態被傳送到網絡中，然後我們嘗試將訊號的Q值。

分配為每個三個可能的行動。在這裡，我們可以在三個方式，讓網絡運作。我們可以移動到左邊，移動到右邊，或者我們可以保持在同一個位置。現在，為了確定最佳的政策，我們必須看一看每個Q值。在這個情況下。

移動到左邊，因為它看到球在移動到左邊，它看到，如果我移動到左邊一點，我可能有更高的機率擊中那球，然後繼續進行訓練。所以我的Q值，在我預計的總結，我的Q值，移動到左邊是20。反過來。

如果我保持在同一個位置，我們說，我有3的Q值，如果我移動到右邊，離球的方向遠一點，在這個情況下，因為球已經移動向我，我會有0的Q值。所以這些都是我的Q值，對於所有的可能行動。我如何計算最佳政策？

我們之前看到，最佳政策是從最佳的Q值，選擇最佳的行動來得到的。在這個情況下，我們可以看到最佳的Q值，是移動到左邊的行動1。所以我們選擇行動1，然後把這個回到遊戲引擎，然後回到環境。

然後我們會得到下一個狀態。這個過程會重複，下一個狀態會被傳送到深度智能網，我們會得到一個Q值列表，每一個可能行動的Q值，然後重複。現在，DeepMind 顯示，這些深度智能網，可以應用來解決。

一系列不同的 Atari 遊戲，不僅是 Breakout，還有很多其他的遊戲。基本上，他們只需要，以圖形來提供狀態，作為輸出，通過這些曲線層，並且由無線化和圖形運行，就像我們在第三課上學到的那樣。

在右邊，它在預測這些可能行動的，Q值。就像我們在上幾個示範中所看到的一樣，它會選擇最佳的行動來行動，在下一步，視乎最佳的行動的 Q 值，能夠達到的。然後，它會把它送回環境，來行動，並且得到下一步的狀態。

這其實非常簡單，因為儘管我認為，這非常簡單，基本上是試驗和失敗，他們在 Atari 上測試了很多遊戲，顯示了，在超過 50% 的遊戲中，他們能夠超越，人類級的表現，使用這個技術。而其他遊戲。

你可以看到的，在右邊的示範中，更加有挑戰性，但依然，再次說，就這技術的簡單性，以及它的清潔性，我認為，這對我來說是一件很棒的事。所以，儘管所有的優點，如同它的簡單性，清潔性，以及它的優雅性，我認為。

我指的是，能夠讓這個解決方案學習超人類的政策，政策可以打敗人類，甚至在一些相對簡單的任務中，有些非常重要的缺點，對於 Q 學習。首先，我們今天學到的簡單模式，這個模式只能夠處理，隱密的行動空間。

它只能夠處理，小的行動空間，我們只能夠進行，幾個可能的行動，它無法處理，持續的行動空間，所以，如果一輛自動車，想要預測它要去哪個地方，而不是預測，要去左或右或直，這些都是隱密的類別。

我們如何使用強制學習，來學習持續的行動空間？一個不是，分成盒子，但可以從某個區域，取得任何數字，來學習它能夠處理的行動空間。這是一個持續的系統，它有無限的空間，而在 Q 學習的版本中。

我們在這堂課中展示了它。它學習的彈性，也有些限制，因為它無法學習，能夠變得，複雜的政策，能夠根據，一些無可預測的，可能性分配來改變。所以，它是由 Q 系統，通過最大化的系統來計算的。

它總是會選擇最大化的，回報的行動，所以它無法從這些，複雜的政策學習。另一方面，我們將在今天課的，下一個階段，專注於政策陰影的方式，希望能夠解決。

這些問題。我們進入課程中，我們看到的第一部分，和第二部分的差別，在價值學習中，我們嘗試用一條 neural network，來學習我們的 Q 價值，我們對行動的 Q 狀態。然後我們用這個 Q 價值。

來定義我們在一個狀態下，要做出最好的行動。這是我們的政策。政策學習是有點不同的，它嘗試直接學習政策，利用我們的 neural network，所以它進入一個狀態，然後嘗試直接學習政策，這會告訴我們。

我們應該做什麼行動。這比較簡單，因為這意味著我們現在，可以免費的學習行動，也就是從政策學習中學習的，政策狀態來測試。我們現在來看看，政策學習的細節如何運作。

首先我想要，從 Q 學習中，從 Q 學習中推進這個差別，因為這有一點差別，但是這對我們來說是非常重要的差別。深入 Q 網絡，想要用 Q 狀態來定義，首先，我們要預測，在某一個狀態下。

對每一個行動的 Q 價值，然後它會選擇最好的行動，在這裡最好的是由，哪個行動給予你最大 Q 價值，最大預期的回報，然後執行這個行動。政策學習中學習的關鍵思維，是在預測 Q 價值時，我們會直接對。

政策的 P 和 S 進行最佳化。所以這是政策的分配，直接控制我們該如何行動，在我們所在的現狀狀態下。所以這裡的輸出，是為了讓我們，給予我們想要的行動，在更直接的方式。輸出代表了可能性。

我們要檢驗或選擇的行動，應該是我們在這個步驟中，所做的正確行動。也就是說，它會給予我們最大的回報。所以，例如說，如果我們看到，我們預測這些可能性，這些行動的最佳行動，我們會得到一個數據，我們的政策網絡。

正在預測可能性分配，我們可以將它們分配到我們的政策中，我們可以說我們的政策，是由這個可能性分配定義的。然後來計算我們該做的行動，我們只需要從這個分配中，來做一個測試，來預測我們該做的行動。在這個情況下。

是車子往左走，就是 A1。但是，因為這是一個可能性分配，下一次我們測試，我們可能會，我們可能會在同一個位置，我們可能會測試 A2，例如說，因為它有一個非零的可能性，一個 0。1 的可能性。現在注意。

因為這是一個可能性分配，這個 P 行動的 P 給予我們的政策，必須是 1。現在，這些形式的優點是什麼？首先，我們看到的那樣，除了它是一個，更直接的方式來得到我們想要的，而不是在 Q 行動中。

使用 Q 行動來建立我們的政策，現在我們將直接地，去更改政策。除此之外，還有一個非常重要的優點，在這個形式之中，那就是它能夠，處理持續的行動空間。所以，這是一個具體的行動空間的例子。

我們在這次 Atari 遊戲中，所做的事情，是左轉，還是右轉，還是站在中間。這三個行動是具體的，這裡有一個具體的行動數字，可以被取代。比方說，這顯示了，我們的行動空間，是代表著，我應該移動的方向。

但不然，一個持續的行動空間，不僅會告訴我們方向，而是，比如說，我應該移動的真實數字是多快。這樣的問題，在數字中的可能答案中，是無限的，這可能是 1 秒左轉，半秒左轉，或任何數字速度。它也會告訴我們。

通常的方向，是通過一個加或是下方的數字。所以，如果我說，-1秒左轉，這告訴我，我應該移動到左邊，在 1 秒左轉。如果我說 +1，這告訴我，我應該移動到右邊，在 1 秒左轉。但是現在，當我們計算這個。

為一個可能性分布，我們也可以視覺到，這是一個持續的行動空間，簡單來說，我們可以視覺到，這個是一個，像是一個 Gaussian 分布，在這個情況下，但是它可以有很多種分布，你可以選擇，最適合你的問題。

分布系統。Gaussian 是一個很受歡迎的選擇，因為它的簡單性。所以，這裡，我們可以看到，移動到左邊的可能性，移動得更快的，是比移動得更快的，移動得更快的，而我們可以看到，這個分布的中心，平均的。

這個平均分布的高度，告訴我們，它應該移動得多快的，數字值，不僅是移動得多快，但是移動得多快，是多快的。現在，我們來看看，我們如何模擬，這些持續的行動空間，用一個 Policy Gradient 方式。

而不是預測，可能性的行動，在一個可能的狀態下，在這個情況下，因為我們在持續的範圍內，會有無數的行動，我們假設，我們的分布分布，其實是一個正常的 Gaussian，並將分布一個。

對於這個 Gaussian 的，平均和相反的分布，然後我們只有兩個分布，但是它能夠讓我們，描述這個可能性分布，在整個持續空間上，否則的話，它會是無數的，無數的數量的分布，所以在這個情況下，如果我們預測。

我們應該要做的，這個平均行動，是 -1，而這個差異是 0。5，我們可以看到，這個可能性分布，在左下方的，下方看起來是這樣的，它應該移動到左邊，以 -1 公里/秒的，平均速度，並且有一定的差異。

所以我們並不確定，它應該移動到左邊，以最好的速度，但是我們認為，它應該移動到左邊，所以在這個圖片中，我們可以看到，平均行動應該移到左邊，如果我們描述，這個分布是這樣的，我們可以看到，這個分布的重量。

是在數字線的，左邊，如果我們從這個分布，來做一個測試，我們可以看到，在這個情況下，我們得到的是，我們需要做的行動，在實際的速度，我們應該要做的行動，是我們需要移動，左邊 -1，以 0。

8 公里/秒的速度，所以這意味著，我們移動到左邊，以 0。8 公里/秒的速度，注意到，即使這個分布的，平均速度是 -1，我們並不被限制，在那個數字線，這是一個，持續的可能性分布，所以我們在這裡。

做一個測試，那並不是完全的，但這完全沒問題，這真的顯示了，在這個區別之間，在這個平均行動空間，和持續行動空間，這開放了很多，可能性，在我們做的應用，模擬無數的行動，再一次，就像之前。

就像這個平均行動情況，這個可能性分布，仍然有所有，可能性分布的優點，就是，這個計算的，可能性分布仍然有，1：1的可能性，所以我們可以，從中檢測，這是一個非常好的，確認能力，好，很好，那我們現在來看看。

如何這個，政策陰影的，系統，在一個具體的例子中運作，我們先來重新討論，這個整個學習循環，重新學習強制，我們在這課的，最初時看到的，我們來想想，我們可以如何使用，政策陰影的系統，我們已經介紹過。

如何訓練一個自動車，使用這個，判斷錯誤的，政策陰影的方式，所以在這個例子中，我們研究自動車，或自動車，這些元素是什麼，所以，機器人，就是我們的車，它在環境中旅行，就是，這個世界，這個路徑，它在旅行。

它有一個狀態，它是通過攝像數據，雷達數據，雷達數據等等，它得到，抱歉，它做出行動，它可以做出什麼行動，在這個情況下，行動就是，方向角角，再一次，這是一個具體的例子，一個持續的行動空間，你不需要分解。

方向角角，成為獨特的盒子，你的方向角角，是無限的，在它可以做出的，數量的可能性，它可以做出，任何的數量，在某些範圍之間，所以這是一個持續的，這是一個持續的，變數，我們在這次行動中，學習到的一些知識。

最後它得到獎勵，在距離它可以旅行前，它需要一些人類的應對，讓我們進入深入的範圍，現在我們已經，找到了所有的資料，我們如何訓練這輛車，使用 Policy-Gradient Network，在這個情況下。

我們以自動駕駛車為例，但你希望看到我們只使用這輛車，因為它比較有趣和有趣，但這也會應用到，任何一個範圍，你能夠認出，並設置問題，就像我們目前設置的問題，我們開始，從事者開始，事者是車。

我們可以把它放在路上，在路中心，下一個步驟是，讓事者開動，一開始它不太好開動，因為它會塌陷，而且它從未被訓練過，所以我們不期望它開動得很好，但這還好，因為這是強化學習，所以我們使用這個政策，直到它完結。

在這個情況下，我們會在它塌陷，或需要被訓練過的時間，標記結束，在我們稱之為，Rollout 時，我們開始錄製，所有的 State Action Pairs，抱歉。

State Action Reward Pairs，所以在每一個步驟，我們會錄製，機械人在哪裡，它在什麼狀態，它在什麼情況下行動，以及它在什麼狀態下，得到的回報，接下來的步驟，就是要把所有的。

State Action Reward Pairs，並且減少可能性，在它接受任何行動時，接近結束時的時間，所以接近崩塌時的時間，我們想減少可能性，在未來再做任何行動，同樣地，我們想增加可能性。

在開始做任何行動時，的時間，注意，我們並不確定，在第一部分的時間，有什麼好事，我們只是想像，因為崩塌在，第二部分的時間，這可能是因為，第二部分的行動，這是一個很不智慧的，系統，因為，這就是我們想像的。

它只是想要，減少可能性，在低回報時，增加可能性，在高回報時，它並不確定，哪個行動比其他更好，尤其是在開始時，因為它沒有這樣的，回報，這只是說，我們想減少，什麼不好的事，增加什麼好的事，如果我們再做。

我們可以看到，下一次，車子開了，開了一段時間，如果我們再做，我們做同樣的事，現在在這個轉變，我們減少可能性，在低回報時，增加可能性，在高回報時，我們重新開始，然後在完成時，再更新程序，再一次。

它看起來開了一段時間，我們可以再做，我們繼續做，直到它學會，跟著行車道，不墜車，我覺得這很棒，因為我們從來沒有教過這台車，什麼，我們從來沒有教過，什麼是行車道，我們從來沒有教過，什麼是行車標。

但是它學會避開行車道，避開崩潰，只要觀察，很微妙的崩潰獎勵，它觀察了很多崩潰，然後學會說，好的，我不會做任何，這些行為，發生在我崩潰的附近，只要觀察這些事，它成功避開行車道，並且在這個環境中。

長時間活下去，現在剩下的問題，是我們如何更新，我們的政策，在每個訓練的一段時間，來減少壞事件的可能性，並增加這些好的事件的可能性，或者說這些好的行為，這讓我們集中在，這項訓練的學習方法中的點4和5。

我們如何進行，學習過程，減少壞事件的可能性，並增加他們的可能性，我們來看一看，更詳細的部分，我們來看，特定的失誤功能，訓練政策的階段，然後我們會分析，為何這項功能有效，所以這個失誤，涉及到兩部分。

我想深入研究，第一項是，Log-likelihood，Log-likelihood，是我們的政策，是我們的行動的可能性，以我們的國家為例，第二項是，我們將這個，Log-likelihood。

分成總的優惠，總的優惠，抱歉，R(t)，假設我們得到很多優惠，對一個有很高的Log-likelihood，這個損失會很大，並且會強化這些行動，因為他們造成了非常好的回報，另一方面，如果優惠對一個。

有很高的可能性，它會調整這些可能性，以免將來，這個行動再次被檢驗，因為它並沒有造成，可望的回報，所以當我們插入，這個損失，到Gradient Descent Algorithm，來訓練我們的網絡。

我們可以看到，這個Policy Gradient Term，是在藍色的位置顯示的，就是這個，這個Algorithm的名字，因為它需要計算這個，Gradient 和這個Policy，這個功能的一部分。

再次強調，這個Policy Gradient Term，是由這兩部分結合的，第一是行動的可能性，第二是回報，如果行動非常正面，非常好，造成了好的回報，它會透過這個Gradient Term，去強化它。

如果行動非常可望，抱歉，不是非常可望，但它造成了好的回報，它會更加強化，所以一些之前不可能的事情，會成為可望，因為它造成了好的回報，相反的，另一方面也一樣，我想談談，我們如何可以延伸。

這些強化學習的 Algorithm，到現實生活，這是一個非常有挑戰性的問題，因為這是一個，對強化學習領域的，特別的興趣，現在，特別是現在，因為在現實世界，應用這些 Algorithm，是非常困難的。

有一個原因，或是一個主要的原因，就是這個步驟，從行政到結束，這是我提到的一個問題，但我沒有花太多時間，去分析，為什麼這麼困難，在現實世界，結束意味著，塌陷、死亡，通常都是很壞的事情，我們通常可以。

通過訓練和測試，但問題是，現代的測試器，不確定地描述現實世界，更何況，它們不能轉移到現實世界，當你使用它們，所以如果你在測試中訓練一些東西，它會在測試中有效，會在測試中有效，但當你，想要把這個政策。

轉移到現實世界，它並不太有效，現在，我們在我的實驗室，創造了一個非常酷的結果，就是在發展一台，全新的相機實驗機，特別是為了自駕駛的車，我想和大家分享，它是完全數據主流，並且能夠讓這些。

強化學習的進步，在現實世界，我們創造了一個非常酷的結果，就是在發展一台，這樣的相機實驗機，叫做Vista，它能夠讓我們使用，現實世界的數據，來模擬全新的，實體代理人在實驗中，現在，結果非常，相機實驗的。

如同你們所看到的，它能夠讓我們訓練代理人，使用強化學習，在實驗中，使用我們今天看到的方式，讓他們可以直接進行運作，沒有任何的交換學習，或是領域應用，直接進入現實世界，事實上，我們做了這個。

我們把代理人放進了，我們的模擬實驗機，訓練他們，使用了我們在這次的講座中，學到的同樣的，政策定律系統，所有的訓練，都在我們的模擬實驗機中，然後我們把這些政策，放在我們全面的，自駕駛車上，如同你們看到的。

而在我左手邊的，你們可以看到我，坐在這個車上，在車內的下方，你們可以看到我，坐在這個車上，當它駕駛到，現實世界時，完全自動，這代表了第一次，在我們發布這些結果時，第一次在自動車上，訓練人，使用RL。

完全在模擬實驗，並且能夠在現實世界，運作，這是一個非常棒的結果，所以現在我們已經，探索了價值學習的基礎，以及政策定律，強化學習的方式，我覺得現在，我們需要探索一些，我們最近看到的，非常出色的。

深入強化學習應用。

我們首先來看看，Go的遊戲，強化學習人員，被對人類冠軍，實現了當時的，仍然非常刺激的結果，首先我想先介紹一下，Go的遊戲，這是一個19x19的，範圍遊戲，遊戲由兩名玩家一起玩，他們是白色的，或黑色的。

遊戲的目標是，與對手佔用更多的，地區，雖然這個範圍，和遊戲的規則，非常簡單，但Go的問題，解決Go的問題，並且打敗，冠軍，是非常複雜的問題，因為，Go的遊戲，可以在多個地區，遇到的地區，非常多。

在多個地區，有更多的法律地區，比在宇宙上的地區更多，目標是，訓練AI，訓練一個，深入強化學習人員，可以控制Go的遊戲，不僅能打敗，現有的冠軍軟件。

也能打敗，現有的世界冠軍，2016年，Google DeepMind，就面臨了這個挑戰，幾年前，Go其實開發了，一個強化學習基礎的流程，打敗了Go冠軍玩家，這個主要的概念，非常簡單，並且跟我們今天。

所學到的一切一樣，首先，一個人工智能網絡，可以觀察到很多人工智能Go玩家，並學習模仿他們的行為，這個部分並沒有使用強化學習，而是使用監控學習，可以研究很多人工智能，然後，他們利用這些人工智能網絡。

來對抗強化學習的政策網絡，讓政策，超越人工智能人員，並且對抗自己，達成超人性的表現，此外，一個讓這項挑戰成功的技巧，就是使用這個人工智能網絡，以智能智能的智能來做指引，並預測智能的狀況，現在這個網絡。

AI可以用智能智能來幻想，不同的位置行動，它可以去評估，這些行動的效果，以這些預測的價值為例，這讓它可以穿越，並計劃它可以做的行動，以它在未來的發展方向為基礎，最後。

最近發佈的一項，這些方法的延伸，在2018年，叫做AlphaZero，只用自動玩，並將它集中在三個著名的遊戲之中，不僅是GO，還有桌上遊戲，手機遊戲，還有GO，在這些例子中，作者們顯示。

這些網絡不需要人工智能，而是他們從頭開始，自行去做調整，這正是一個，純粹的強化學習的方法，但它還能夠，不僅擊敗人類，也擊敗了，過去的網絡，是由人類資料進行調整，最近，只在上個月，非常最近。

這項工作的下一個進展，是由MuZero發佈的，該系統現在學會，掌握這些環境，甚至不再知道規則，我認為最好的方法，來形容MuZero，是與之前的進步，與它們的能力相比，我們已經討論過，今天，我們開始討論。

AlphaGo，這顯示了人類超人的表現，在GO上，使用自動遊戲，並預先訓練這些模式，使用人類超人資料，然後是AlphaGo Zero，這顯示了，更好的表現，可以完全自行達到，不需要預先訓練，人類超人。

而是直接從零開始學習，然後是AlphaZero，這項想法更廣闊，超越了GO遊戲，並且進入了比賽和衝擊，但仍然需要模式，了解規則，並且得到遊戲規則，以獲得他們的教訓，上個月，作者展示了，超人表現。

在超過50場比賽中，都沒有在預先知道規則的，遊戲學習方法，它需要學習，並且，學習如何，在訓練過程中，最好地玩遊戲，這非常重要，因為在許多場合，我們並沒有預先知道規則，來告訴模式，當我們處於環境中。

有時規則不明顯，規則或動態不明顯，物體可能會，不斷地互動，或是不可預測的，我們也可能處於一個環境，規則太複雜，人類無法形容，所以這個想法，學習遊戲規則，或是任務，是一個非常強大的概念，我們來簡單地。

看看這個方法，因為這是一個很棒的系統，但重點是，它實際上建立在我們今天學習的一切上，所以你應該能夠了解，每個部分的這個系統，我們開始從座位的狀態來觀察，從此時，我們預測，或是進行樹木尋找。

通過不同的可能發生的場景，我們會做一些行動，然後我們會看待，未來的可能場景，或未來的可能發生的狀態，但現在，因為我們不懂規則，網絡被迫學習，我們要學習這個尋找的模式，我們要學習，未來的可能發生的狀況。

以及它在現時的狀況下，和它所做的行動，現在，在最初的時間，這給我們一個可能性，在這次的行動中，根據它能夠得到的價值，通過這個樹木的根部，然後用這個來計劃，它應該做的下一步，這就是我們學習的，政策網絡。

但也能夠達到，這個樹木尋找的計劃，來計劃未來的發展，現在，因為這個政策網絡，它接受這個行動，並得到新的觀察，從遊戲中，然後重複這個過程，一遍又一遍，直到遊戲結束，或者遊戲結束，這就像是，我們看到的。

AlphaZero的運作，但現在，最重要的差別是，這個政策網絡，作為樹木尋找的一部分，我們可以看到，在每一個步驟中，是完全學習的，這對於這些技術，除了在硬體遊戲中，應用的方式，也非常大方。

所以在這些情況下，我們非常了解遊戲的規則，所以我們可以利用它，來訓練我們的系統，但在很多情況下，這種進步，讓我們能夠應用這些系統，去處理一些我們不懂的問題，我們需要學習的規則，來玩遊戲，或者是。

規則是很難去定義的，但在現實世界，很多有趣的情況下。

這就是這樣，所以我們來簡單地，回顧我們今天課堂學到的東西，我們開始，從深入強制學習的基礎，我們定義了，什麼是代理人，什麼是行動，什麼是環境，他們如何互相互動，在這個強制學習的循環中，我們開始從。

深入的學習問題，以及深入的循環網，來學習循環，以一個現實的交流，然後決定一個政策，選擇一個行動，能夠達到最大程度的循環，最後我們學習了，如何能夠更好地，而不是更好地，去定義循環。

而是更好地去直接定義政策，從現實的循環開始，我們看到這個有很大的影響，在持續的行動空間，Q系統，或是Q學習技術，是有些限制的，所以謝謝你來參加，這個深入強制學習課堂。

在此時，我們將在下一個課堂，專注於強制學習，你將獲得一些經驗，如何應用這些系統，來自你自己，專注於政策基礎系統，在非常簡單的例子中，例如Pong，以及更複雜的例子，你將從零開始，從零開始。

建立這個機器人，和環境的腦袋，你將能夠將很多的想法，我們今天在這次課堂中看到的，一起結合起來，所以請來GatherTown，如果你有任何問題，我們會很高興地討論，關於軟件實驗室的問題。

以及今天課堂的任何問題，所以我們期待能夠在那裡見到你。

謝謝。

posted @ 2024-09-25 07:57 绝不原创的飞龙阅读(25) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

P5-Reinforcement-Learning---爱可可-爱生活---BV1jo4y1d7R6

P5：Reinforcement Learning - 爱可可-爱生活 - BV1jo4y1d7R6

公告