強化學(xué)習(xí)與深度強化學(xué)習(xí)

主講老師：葉梓

課程詳情：

【課程時長】

3天（6小時/天）

【課程簡介】

強化學(xué)習(xí)是當(dāng)前最熱門的研究方向之一，廣泛應(yīng)用于機器人學(xué)、電子競技等領(lǐng)域。本課程系統(tǒng)性的介紹了強化學(xué)習(xí)（深度強化學(xué)習(xí)）的基本理論和關(guān)鍵算法，包括：馬爾科夫決策過程、動態(tài)規(guī)劃法、蒙特卡羅法、時間差分法、值函數(shù)逼近法，策略梯度法等；以及該領(lǐng)域的最新前沿發(fā)展，包括：DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強化學(xué)習(xí)等；同時也介紹大量的實際案例，包括深度強化學(xué)習(xí)中最著名的工程應(yīng)用：Alpha Go。

【課程對象】

計算機相關(guān)專業(yè)本科；或理工科本科，具備初步的IT基礎(chǔ)知識的人員

第一天強化學(xué)習(xí)

第一課強化學(xué)習(xí)綜述

1.強化學(xué)習(xí)要解決的問題

2.強化學(xué)習(xí)方法的分類

3.強化學(xué)習(xí)方法的發(fā)展趨勢

4.環(huán)境搭建實驗（Gym，TensorFlow等）

5.Gym環(huán)境的基本使用方法

第二課馬爾科夫決策過程

1.基本概念：馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

2.MDP基本元素:策略、回報、值函數(shù)、狀態(tài)行為值函數(shù)

3.貝爾曼方程

4.最優(yōu)策略

案例：構(gòu)建機器人找金幣和迷宮的環(huán)境

第三課基于模型的動態(tài)規(guī)劃方法

1.動態(tài)規(guī)劃概念介紹

2.策略評估過程介紹

3.策略改進方法介紹

4.策略迭代和值迭代

案例：實現(xiàn)基于模型的強化學(xué)習(xí)算法

第四課蒙特卡羅方法

1.蒙特卡羅策略評估

2.蒙特卡羅策略改進

3.基于蒙特卡羅的強化學(xué)習(xí)

4.同策略和異策略

案例：利用蒙特卡羅方法實現(xiàn)機器人找金幣和迷宮

第五課時序差分方法

1.DP，MC和TD方法比較

2.MC和TD方法偏差與方差平衡

3.同策略TD方法：Sarsa 方法

4.異策略TD方法：Q-learning 方法

案例：Q-learning和Sarsa的實現(xiàn)

第二天從強化學(xué)習(xí)到深度強化學(xué)習(xí)

第一課基于值函數(shù)逼近方法（強化學(xué)習(xí)）

1.維數(shù)災(zāi)難與表格型強化學(xué)習(xí)

2.值函數(shù)的參數(shù)化表示

3.值函數(shù)的估計過程

4.常用的基函數(shù)

第二課基于值函數(shù)逼近方法（深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合）

1.簡單提一下深度學(xué)習(xí)

2.深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合

3.DQN 方法介紹

4.DQN變種：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戲——flappy bird

第三課策略梯度方法（強化學(xué)習(xí)）

1.策略梯度方法介紹

2.常見的策略表示

3.常見的減小方差的方法:引入基函數(shù)法，修改估計值函數(shù)法

案例：利用gym和tensorflow實現(xiàn)小車倒立擺系統(tǒng)等

第四課 Alpha Go（深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合）

1.MCTS

2.策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)

3.Alpha Go的完整架構(gòu)

第五課 GAN（深度學(xué)習(xí)）

1.VAE與基本GAN

2.DCGAN

3.WGAN

案例：生成手寫數(shù)字的GAN

第三天深度強化學(xué)習(xí)進階

第一課 AC類方法-1

1. PG的問題與AC的思路

2. AC類方法的發(fā)展歷程

3. Actor-Critic基本原理

第二課 AC類方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例：AC類方法的案例

第三課信賴域系方法-1

1.信賴域系方法背景

2.信賴域系方法發(fā)展路線圖

3.TRPO方法

案例：TRPO方法的案例

第四課信賴域系方法-2

1.PPO方法

2.DPPO方法簡介

3.ACER方法

案例：PPO方法的案例

第五課多Agent強化學(xué)習(xí)

1.矩陣博弈

2.納什均衡

3.多人隨機博弈學(xué)習(xí)

4.完全合作、完全競爭與混合任務(wù)

5.MADDPG

案例：MADDPG的案例等

其他課程

強化學(xué)習(xí): 培訓(xùn)課程

數(shù)據(jù)分析與數(shù)據(jù)挖掘: 培訓(xùn)課程

人工智能之最新自然語言處理技術(shù)與實戰(zhàn): 培訓(xùn)課程

人工智能與深度學(xué)習(xí): 培訓(xùn)課程

人工智能自然語言處理: 培訓(xùn)課程

授課見證

葉梓還沒有發(fā)布授課見證

推薦講師

馬成功

Office超級實戰(zhàn)派講師,國內(nèi)IPO排版第一人

講師課酬：面議

常駐城市：北京市

學(xué)員評價：

賈倩

注冊形象設(shè)計師,國家二級企業(yè)培訓(xùn)師,國家二級人力資源管理師

講師課酬：面議

常駐城市：深圳市

學(xué)員評價：

鄭惠芳

人力資源專家

講師課酬：面議

常駐城市：上海市

學(xué)員評價：

晏世樂

資深培訓(xùn)師,職業(yè)演說家,專業(yè)咨詢顧問

講師課酬：面議

常駐城市：深圳市

學(xué)員評價：

文小林

實戰(zhàn)人才培養(yǎng)應(yīng)用專家

講師課酬：面議

常駐城市：深圳市

學(xué)員評價：

欧美成人影院,欧美精品亚洲二区,欧美精品亚州精品,国产高清视频一区三区

強化學(xué)習(xí)與深度強化學(xué)習(xí)

其他課程

馬成功

賈倩

鄭惠芳

晏世樂

文小林