Balaraman Ravindran

We provide two alternate ways of streaming the videos
- default Youtube Player ( )
- feature-rich Videoken Player ( ).

Week 0 - Preparatory Material

Week 1 - Introduction to RL and Immediate RL

Introduction to RL
RL framework and applications
Introduction to immediate RL
Bandit optimalities
Value function based methods
Assignment 1
Solution 1

Week 2 - Bandit Algorithms

Week 3 - Policy Gradient Methods & Introduction to Full RL

Policy search
REINFORCE
Contextual bandits
Full RL introduction
Returns, value functions & MDPs
Assignment 3
Solution 3

Week 4 - MDP Formulation, Bellman Equations & Optimality Proofs

MDP modelling
Bellman equation
Bellman optimality equation
Cauchy sequence & Green's equation
Banach fixed point theorem
Convergence proof
Assignment 4
Solution 4

Week 5 - Dynamic Programming & Monte Carlo Methods

Week 6 - Monte Carlo & Temporal Difference Methods

Week 7 - Eligibility Traces

Eligibility traces
Backward view of eligibility traces
Eligibility trace control
Thompson sampling recap
Assignment 7
Solution 7

Week 8 - Function Approximation

Function approximation
Linear parameterization
State aggregation methods
Function approximation & eligibility traces
LSTD & LSTDQ
LSPI & Fitted Q
Assignment 8
Solution 8

Week 9 - DQN, Fitted Q & Policy Gradient Approaches

DQN & Fitted Q-iteration
Policy gradient approach
Actor critic & REINFORCE
REINFORCE (cont'd)
Policy gradient with function approximation
Assignment 9
Solution 9

Week 10 - Hierarchical Reinforcement Learning

Hierarchical reinforcement learning
Types of optimality
Semi-Markov decision processes
Options
Learning with options
Hierarchical abstract machines
Assignment 10
Solution 10

Week 11 - Hierarchical RL: MAXQ

MAXQ
MAXQ value function decomposition
Option discovery
Assignment 11
Solution 11

Week 12 - POMDPs