Fork me on GitHub

深度强化学习核心技术

2022年数字信息化培训项目系列
各企、事业单位:

随着科技的快速发展,人工智能俨然成了当今社会的关注焦点。而在人工智能的发展上,深度学习、强化学习、迁移学习等成为了科学界、工业界研究和应用的热点。在实际研究和应用过程当中,研究人员逐渐发现了深度学习单独应用的缺点,如没有决策能力,不可推理等。而深度强化学习,作为一种崭新的机器学习方法,同时具有感知能力和决策能力,它是深度学习与强化学习的结合,二者的结合涵盖众多算法、规则、框架,并广泛应用于机器人、无人机、无人车、无人艇、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等众多领域,具有极高的研究与应用价值。

为积极响应科研及工作人员需求,根据国务院《国家中长期人才发展规划纲要(2010-2020年)》和人社部《专业技术人才知识更新工程实施方案(2010-2020年)》文件精神,中国管理科学研究院现代教育研究所(http://www.zgyxdjy.com)联合北京龙腾亚太教育咨询有限公司特举办“深度强化学习核心技术开发与应用研修班”。

培训专家

中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家,拥有丰富的科研及工程技术经验,长期从事人工智能、机器学习、深度学习、大数据分析等领域的教学与研究工作。

时间安排2022年7月29日-8月01日 线上直播

(29日下发上课所需材料,7月30日-8月1日全天上课)

参会对象

各省市、自治区从事人工智能、机器学习、计算机视觉、自然语言处理、无人机、无人艇、无人车、机器人、智能体、多智能体、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员,以及强化学习、人工智能广大爱好者。

课程安排

时间安排

大 纲

具体内容

实操案例

三天

关键点

1.强化学习的发展历程

2.马尔可夫决策过程

3.动态规划

4.无模型预测学习

5.无模型控制学习

6.价值函数逼近

7.策略梯度方法

8.深度强化学习-DQN算法系列

9.深度策略梯度-DDPG,PPO等

第一天

9:00-12:00

14:00-17:00

一、强化学习概述

1.强化学习介绍 2.强化学习与其它机器学习的不同

3.强化学习发展历史 4.强化学习典型应用

5.强化学习基本元素 6.强化学习算法分类

二、马尔科夫决策过程

1.马尔可夫性 2.马尔可夫决策过程

3.策略与价值 4.最优化原理

5.MDPs扩展

三、动态规划

1.动态规划 2.价值迭代

3.策略迭代 4.迭代策略评估

5.广义策略迭代 6.维数灾

1.python环境下简单扫地机器人环境

2.价值迭代python实现

3.策略迭代python实现

4.迭代策略评估python实现

四、无模型预测学习

1.蒙特卡洛方法 2.时间差分学习

3.n-步回报 4.TD(lambda)

5.资格迹

1.蒙特卡洛方法python实现

2.时间差分方法python实现

第二天

9:00-12:00

14:00-17:00

五、无模型控制学习

1.蒙特卡洛控制 2.Sarsa

3.重要性采样 4.Q-学习

4.Double Q学习 5.探索与利用

  1. Sarsa方法python实现
  2. Q学习方法python实现
  3. Sarsa(lambda)方法python实现

六、价值函数逼近

1.函数逼近器 2.线性函数逼近

3.常见的特征表示方法

4.价值迭代+离散化方法

5.Fitted Q Iteration

6.策略迭代+最小二乘

7.预测学习+随机梯度下降法

8.控制学习+随机梯度下降法

  1. 离散化Q迭代方法python实现
  2. LSPI方法python实现

七、策略梯度方法

1.基于策略的强化学习

2.有限差分策略梯度

3.解析法策略梯度

4.REINFORCE算法

5.Actor-Critic

6.策略梯度引入基准

7.自然梯度

8.确定型Actor-Critic

  1. 策略迭代方法python实现
  2. actor-critic方法python实现

第三天

9:00-12:00

14:00-17:00

八、深度强化学习

1.Deep Q learning(DQN)

2.Double DQN

3.Dueling DQN

4.Prioritized Experience Replay

5.A3C/A2C

6.DDPG

7.PPO

8.SAC

1.深度强化学习训练场-OpenAI Gym 安装与使用

2.Pytorch安装与使用

3.自动驾驶赛车任务

4.月球飞船降落任务

实操解析与训练一

实验:倒立摆和冰壶控制实践

1.环境编写 2.算法设计 3.实验结果

高频问题:

如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练

关键点:

1.基于模型的离线强化学习方法 2.基于数据的在线强化学习方法

实操解析与训练二

实验:OpenAI Gym实践

1.Gym安装 2.Gym使用 3.强化学习

高频问题:

1.如何基于Gym实现强化学习训练与测试

关键点:

1.掌握马尔可夫决策过程 2.低维输入的强化学习方法

实操解析与训练三

实验:月球飞船降落任务

1.DQN/Double DQN/Dueling DQN 2.PER

高频问题:

1.深度强化学习网络训练稳定性 2.探索与利用

关键点:

1.经验回放技术的实现 2.目标网络更新

实操解析与训练四

实验:自动驾驶赛车任务

1.连续控制任务 2.策略梯度方法DDPG/PPO

高频问题:

1.适用于高维输入的连续控制任务的深度强化学习方法

关键点:

1.掌握DDPG和PPO具体编程实现

2.根据实际需求,选用合理的深度强化学习方法

V :l95lllzzl5z

关注“人工智能技术与咨询”,了解更多资讯!


本文地址:https://www.6aiq.com/article/1658373470303
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出