0% found this document useful (0 votes)

51 views10 pages

Notações Dos Algoritimos

1. Reinforcement learning involves learning optimal policies through interactions with an environment. The goal is to maximize rewards received over time. Dynamic programming and Monte Carlo methods are commonly used to estimate state/action values and learn optimal policies. 2. Dynamic programming methods such as value iteration and policy iteration use the Bellman equations to iteratively estimate values and improve policies. Monte Carlo methods estimate values by averaging returns from sample episodes following a policy. 3. The Bellman equations relate the value of a state/action to expected rewards plus discounted future values, providing a recursive definition used by dynamic programming algorithms to estimate optimal values and policies.

Uploaded by

Jonathan Messias

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

51 views10 pages

Notações Dos Algoritimos

Uploaded by

Jonathan Messias

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

REINFORCEMENT LEARNING

1. The Problem
St state at time t
At action at time t
Rt reward at time t
γ discount rate (where 0 ≤ γ ≤P 1)
∞
Gt discounted return at time t ( k=0 γ k Rt+k+1 )
S set of all nonterminal states
S+ set of all states (including terminal states)
A set of all actions
A(s) set of all actions available in state s
R set of all rewards
p(s0 , r|s, a) probability of next state s0 and reward r, given current state s and current action a (P(St+1 = s0 , Rt+1 = r|St = s, At = a))

2. The Solution
π policy
if deterministic: π(s) ∈ A(s) for all s ∈ S
if stochastic: π(a|s) = P(At = a|St = s) for all s ∈ S and a ∈ A(s)
.
vπ state-value function for policy π (vπ (s) = E[Gt |St = s] for all s ∈ S)
.
qπ action-value function for policy π (qπ (s, a) = E[Gt |St = s, At = a] for all s ∈ S and a ∈ A(s))
.
v∗ optimal state-value function (v∗ (s) = maxπ vπ (s) for all s ∈ S)
.
q∗ optimal action-value function (q∗ (s, a) = maxπ qπ (s, a) for all s ∈ S and a ∈ A(s))

1
3. Bellman Equations
3.1. Bellman Expectation Equations.
X X
vπ (s) = π(a|s) p(s0 , r|s, a)(r + γvπ (s0 ))
a∈A(s) s0 ∈S,r∈R

X X
qπ (s, a) = p(s0 , r|s, a)(r + γ π(a0 |s0 )qπ (s0 , a0 ))
s0 ∈S,r∈R a0 ∈A(s0 )

3.2. Bellman Optimality Equations.

X
v∗ (s) = max p(s0 , r|s, a)(r + γv∗ (s0 ))
a∈A(s)
s0 ∈S,r∈R

X
q∗ (s, a) = p(s0 , r|s, a)(r + γ 0max 0 q∗ (s0 , a0 ))
a ∈A(s )
s0 ∈S,r∈R

3.3. Useful Formulas for Deriving the Bellman Equations.

X
vπ (s) = π(a|s)qπ (s, a)
a∈A(s)

v∗ (s) = max q∗ (s, a)

a∈A(s)

X
qπ (s, a) = p(s0 , r|s, a)(r + γvπ (s0 ))
s0 ∈S,r∈R

The reasoning for the above is as follows:

.
• (1) by definition (qπ (s, a) = Eπ [Gt |St = s, At = a])

• (2) Law of Total Expectation

.
• (3) by definition (p(s0 , r|s, a) = P(St+1 = s0 , Rt+1 = r|St = s, At = a))

• (4) Eπ [Gt |St = s, At = a, St+1 = s0 , Rt+1 = r] = Eπ [Gt |St+1 = s0 , Rt+1 = r]

• (5) Gt = Rt+1 + γGt+1

• (6) Linearity of Expectation

• (7) vπ (s0 ) = Eπ [Gt+1 |St+1 = s0 ]

3
4. Dynamic Programming

Algorithm 1: Policy Evaluation

Input: MDP, policy π, small positive number θ
Output: V ≈ vπ
Initialize V arbitrarily (e.g., V (s) = 0 for all s ∈ S + )
repeat
∆←0
for s ∈ S do
v ← V (s)
V (s) ← a∈A(s) π(a|s) s0 ∈S,r∈R p(s0 , r|s, a)(r + γV (s0 ))
P P

∆ ← max(∆, |v − V (s)|)
end
until ∆ < θ;
return V

Algorithm 2: Estimation of Action Values

Input: MDP, state-value function V
Output: action-value function Q
for s ∈ S do
for a ∈ A(s) do
Q(s, a) ← s0 ∈S,r∈R p(s0 , r|s, a)(r + γV (s0 ))
P

end
end
return Q

4
Algorithm 3: Policy Improvement
Input: MDP, value function V
Output: policy π 0
for s ∈ S do
for a ∈ A(s) do
Q(s, a) ← s0 ∈S,r∈R p(s0 , r|s, a)(r + γV (s0 ))
P

end
π 0 (s) ← arg maxa∈A(s) Q(s, a)
end
return π 0

Algorithm 4: Policy Iteration

Input: MDP, small positive number θ
Output: policy π ≈ π∗
1
Initialize π arbitrarily (e.g., π(a|s) = |A(s)| for all s ∈ S and a ∈ A(s))
policy-stable ← f alse
repeat
V ← Policy Evaluation(MDP, π, θ)
π 0 ← Policy Improvement(MDP, V )
if π = π 0 then
policy-stable ← true
end
π ← π0
until policy-stable = true;
return π

Algorithm 5: Truncated Policy Evaluation

Input: MDP, policy π, value function V , positive integer max iterations
Output: V ≈ vπ (if max iterations is large enough)
counter ← 0
while counter < max iterations do
for s ∈ S do
V (s) ← a∈A(s) π(a|s) s0 ∈S,r∈R p(s0 , r|s, a)(r + γV (s0 ))
P P

end
counter ← counter + 1
end
return V

5
Algorithm 6: Truncated Policy Iteration
Input: MDP, positive integer max iterations, small positive number θ
Output: policy π ≈ π∗
Initialize V arbitrarily (e.g., V (s) = 0 for all s ∈ S + )
1
Initialize π arbitrarily (e.g., π(a|s) = |A(s)| for all s ∈ S and a ∈ A(s))
repeat
π ← Policy Improvement(MDP, V )
Vold ← V
V ← Truncated Policy Evaluation(MDP, π, V, max iterations)
until maxs∈S |V (s) − Vold (s)| < θ;
return π

Algorithm 7: Value Iteration

Input: MDP, small positive number θ
Output: policy π ≈ π∗
Initialize V arbitrarily (e.g., V (s) = 0 for all s ∈ S + )
repeat
∆←0
for s ∈ S do
v ← V (s)
V (s) ← maxa∈A(s) s0 ∈S,r∈R p(s0 , r|s, a)(r + γV (s0 ))
P

∆ ← max(∆, |v − V (s)|)
end
until ∆ < θ;
π ← Policy Improvement(MDP, V )
return π

6
5. Monte Carlo Methods

Algorithm 8: First-Visit MC Prediction (for state values)

Input: policy π, positive integer num episodes
Output: value function V (≈ vπ if num episodes is large enough)
Initialize N (s) = 0 for all s ∈ S
Initialize returns sum(s) = 0 for all s ∈ S
for i ← 1 to num episodes do
Generate an episode S0 , A0 , R1 , . . . , ST using π
for t ← 0 to T − 1 do
if St is a first visit (with return Gt ) then
N (St ) ← N (St ) + 1
returns sum(St ) ← returns sum(St ) + Gt
end
end
V (s) ← returns sum(s)/N (s) for all s ∈ S
return V

Algorithm 9: First-Visit MC Prediction (for action values)

Input: policy π, positive integer num episodes
Output: value function Q (≈ qπ if num episodes is large enough)
Initialize N (s, a) = 0 for all s ∈ S, a ∈ A(s)
Initialize returns sum(s, a) = 0 for all s ∈ S, a ∈ A(s)
for i ← 1 to num episodes do
Generate an episode S0 , A0 , R1 , . . . , ST using π
for t ← 0 to T − 1 do
if (St , At ) is a first visit (with return Gt ) then
N (St , At ) ← N (St , At ) + 1
returns sum(St , At ) ← returns sum(St , At ) + Gt
end
end
Q(s, a) ← returns sum(s, a)/N (s, a) for all s ∈ S, a ∈ A(s)
return Q

7
Algorithm 10: First-Visit GLIE MC Control
Input: positive integer num episodes, GLIE {i }
Output: policy π (≈ π∗ if num episodes is large enough)
Initialize Q(s, a) = 0 for all s ∈ S and a ∈ A(s)
Initialize N (s, a) = 0 for all s ∈ S, a ∈ A(s)
for i ← 1 to num episodes do
← i
π ← -greedy(Q)
Generate an episode S0 , A0 , R1 , . . . , ST using π
for t ← 0 to T − 1 do
if (St , At ) is a first visit (with return Gt ) then
N (St , At ) ← N (St , At ) + 1
Q(St , At ) ← Q(St , At ) + N (S1t ,At ) (Gt − Q(St , At ))
end
end
return π

Algorithm 11: First-Visit Constant-α (GLIE) MC Control

Input: positive integer num episodes, small positive fraction α, GLIE {i }
Output: policy π (≈ π∗ if num episodes is large enough)
Initialize Q arbitrarily (e.g., Q(s, a) = 0 for all s ∈ S and a ∈ A(s))
for i ← 1 to num episodes do
← i
π ← -greedy(Q)
Generate an episode S0 , A0 , R1 , . . . , ST using π
for t ← 0 to T − 1 do
if (St , At ) is a first visit (with return Gt ) then
Q(St , At ) ← Q(St , At ) + α(Gt − Q(St , At ))
end
end
return π

8
6. Temporal-Difference Methods

Algorithm 12: TD(0)

Input: policy π, positive integer num episodes
Output: value function V (≈ vπ if num episodes is large enough)
Initialize V arbitrarily (e.g., V (s) = 0 for all s ∈ S + )
for i ← 1 to num episodes do
Observe S0
t←0
repeat
Choose action At using policy π
Take action At and observe Rt+1 , St+1
V (St ) ← V (St ) + α(Rt+1 + γV (St+1 ) − V (St ))
t←t+1
until St is terminal ;
end
return V

Algorithm 13: Sarsa

Input: policy π, positive integer num episodes, small positive fraction α, GLIE {i }
Output: value function Q (≈ qπ if num episodes is large enough)
Initialize Q arbitrarily (e.g., Q(s, a) = 0 for all s ∈ S and a ∈ A(s), and Q(terminal-state, ·) = 0)
for i ← 1 to num episodes do
← i
Observe S0
Choose action A0 using policy derived from Q (e.g., -greedy)
t←0
repeat
Take action At and observe Rt+1 , St+1
Choose action At+1 using policy derived from Q (e.g., -greedy)
Q(St , At ) ← Q(St , At ) + α(Rt+1 + γQ(St+1 , At+1 ) − Q(St , At ))
t←t+1
until St is terminal ;
end
return Q

9
Algorithm 14: Sarsamax (Q-Learning)
Input: policy π, positive integer num episodes, small positive fraction α, GLIE {i }
Output: value function Q (≈ qπ if num episodes is large enough)
Initialize Q arbitrarily (e.g., Q(s, a) = 0 for all s ∈ S and a ∈ A(s), and Q(terminal-state, ·) = 0)
for i ← 1 to num episodes do
← i
Observe S0
t←0
repeat
Choose action At using policy derived from Q (e.g., -greedy)
Take action At and observe Rt+1 , St+1
Q(St , At ) ← Q(St , At ) + α(Rt+1 + γ maxa Q(St+1 , a) − Q(St , At ))
t←t+1
until St is terminal ;
end
return Q

Algorithm 15: Expected Sarsa

Input: policy π, positive integer num episodes, small positive fraction α, GLIE {i }
Output: value function Q (≈ qπ if num episodes is large enough)
Initialize Q arbitrarily (e.g., Q(s, a) = 0 for all s ∈ S and a ∈ A(s), and Q(terminal-state, ·) = 0)
for i ← 1 to num episodes do
← i
Observe S0
t←0
repeat
Choose action At using policy derived from Q (e.g., -greedy)
Take action At and observe Rt+1 , St+1 P
Q(St , At ) ← Q(St , At ) + α(Rt+1 + γ a π(a|St+1 )Q(St+1 , a) − Q(St , At ))
t←t+1
until St is terminal ;
end
return Q

Reinforcement Learning Cheat Sheet: Return
No ratings yet
Reinforcement Learning Cheat Sheet: Return
7 pages
CS 188 Fall 2018 Written HW4 Soln
No ratings yet
CS 188 Fall 2018 Written HW4 Soln
6 pages
Oracle Leasing and Finance Management
No ratings yet
Oracle Leasing and Finance Management
74 pages
5 Data Centric Engineering
No ratings yet
5 Data Centric Engineering
23 pages
Ix Developer: User's Guide
100% (1)
Ix Developer: User's Guide
48 pages
Technology and Livelihood Education: Module 5 & 6
No ratings yet
Technology and Livelihood Education: Module 5 & 6
18 pages
Reinforcement Learning: Amulya Viswambaran (202090007) Kehkashan Fatima (202090202) Sruthi Krishnan (202090333)
No ratings yet
Reinforcement Learning: Amulya Viswambaran (202090007) Kehkashan Fatima (202090202) Sruthi Krishnan (202090333)
40 pages
10 Ways To Sell 100,000 Copies of Your Book PDF
No ratings yet
10 Ways To Sell 100,000 Copies of Your Book PDF
6 pages
cs229 Notes13
No ratings yet
cs229 Notes13
15 pages
Chapter 19 - Continual Improvement Methods With Six Sigma and Lean
No ratings yet
Chapter 19 - Continual Improvement Methods With Six Sigma and Lean
8 pages
RL Theory Tutorial
No ratings yet
RL Theory Tutorial
80 pages
Module 3.0
No ratings yet
Module 3.0
17 pages
(System Message) (System Message) (System Message) : (Dota V6.69C.W3X)
No ratings yet
(System Message) (System Message) (System Message) : (Dota V6.69C.W3X)
38 pages
02 MarkovDecisionProcess
No ratings yet
02 MarkovDecisionProcess
51 pages
Instructor (Andrew NG) :okay, Good Morning. Welcome Back. So I Hope All of You Had
No ratings yet
Instructor (Andrew NG) :okay, Good Morning. Welcome Back. So I Hope All of You Had
14 pages
0wning Antivirus: Alex Wheeler Neel Mehta
No ratings yet
0wning Antivirus: Alex Wheeler Neel Mehta
39 pages
Oracle Fusion Middleware: Cloning
No ratings yet
Oracle Fusion Middleware: Cloning
25 pages
4 Reinforcement Learning - Basic Algorithms: - S, A) ) and The Immediate Reward Function R (R (S, A, S
No ratings yet
4 Reinforcement Learning - Basic Algorithms: - S, A) ) and The Immediate Reward Function R (R (S, A, S
16 pages
Lec 09
No ratings yet
Lec 09
51 pages
Markov Decision Processes and Exact Solution Methods
No ratings yet
Markov Decision Processes and Exact Solution Methods
34 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
101 pages
EG-EM1 Manual
No ratings yet
EG-EM1 Manual
4 pages
New CZ3005 Module 4 - Markov Decision Process
No ratings yet
New CZ3005 Module 4 - Markov Decision Process
38 pages
Lnotes 04
No ratings yet
Lnotes 04
8 pages
A Short Tutorial On Reinforcement Learning: Review and Applications
No ratings yet
A Short Tutorial On Reinforcement Learning: Review and Applications
5 pages
Exam Prep 4 Solutions: Q1. MDPS: Dice Bonanza
No ratings yet
Exam Prep 4 Solutions: Q1. MDPS: Dice Bonanza
4 pages
Book All-In-One 2
No ratings yet
Book All-In-One 2
281 pages
Littomore
No ratings yet
Littomore
169 pages
Add Label For XY Scatter Chart
No ratings yet
Add Label For XY Scatter Chart
34 pages
Assignment 5 (Sol.) : Reinforcement Learning
100% (1)
Assignment 5 (Sol.) : Reinforcement Learning
4 pages
Homework 1: ELEN E6885: Introduction To Reinforcement Learning September 21, 2021
No ratings yet
Homework 1: ELEN E6885: Introduction To Reinforcement Learning September 21, 2021
8 pages
Trends1 Aio Pretest
No ratings yet
Trends1 Aio Pretest
4 pages
Module2-Signals and Systems
No ratings yet
Module2-Signals and Systems
21 pages
AI 3000 / CS 5500: Reinforcement Learning Assignment 1: Problem 1: Markov Reward Process
No ratings yet
AI 3000 / CS 5500: Reinforcement Learning Assignment 1: Problem 1: Markov Reward Process
5 pages
PCS50-630 User Manual 20220509
No ratings yet
PCS50-630 User Manual 20220509
37 pages
Cs748 s2021 Quizzes Till q4
No ratings yet
Cs748 s2021 Quizzes Till q4
4 pages
Reinforcement Learning and Control: CS229 Lecture Notes
No ratings yet
Reinforcement Learning and Control: CS229 Lecture Notes
7 pages
Bill of Material IH
No ratings yet
Bill of Material IH
1 page
Reinforcement Learning and Control: CS229 Lecture Notes
No ratings yet
Reinforcement Learning and Control: CS229 Lecture Notes
15 pages
Unit 05 Dynamic Programming
No ratings yet
Unit 05 Dynamic Programming
9 pages
Book All in One
No ratings yet
Book All in One
288 pages
Unit - 1 Notes
No ratings yet
Unit - 1 Notes
27 pages
B11 - B12 - B13 - 0141 - MAT2002 - 100318 - Dr. Sheerin Kayenat - Fall 22-23 - TEE
No ratings yet
B11 - B12 - B13 - 0141 - MAT2002 - 100318 - Dr. Sheerin Kayenat - Fall 22-23 - TEE
2 pages
242 Sheet 02 03
No ratings yet
242 Sheet 02 03
5 pages
Tut21 RL
No ratings yet
Tut21 RL
101 pages
MarkovDecisionProcesses Analysis
No ratings yet
MarkovDecisionProcesses Analysis
10 pages
JP-Finance Officer
No ratings yet
JP-Finance Officer
2 pages
Oil Seals Met
No ratings yet
Oil Seals Met
22 pages
UNIT-3 Strings
No ratings yet
UNIT-3 Strings
33 pages
Tentative 3rd International Conference On Communication
No ratings yet
Tentative 3rd International Conference On Communication
2 pages
Shoprite - Navigating A Competitive Market
No ratings yet
Shoprite - Navigating A Competitive Market
4 pages
RL Unit-4
No ratings yet
RL Unit-4
18 pages
18 - Dynamic Programming For Markov Decision Processes
No ratings yet
18 - Dynamic Programming For Markov Decision Processes
50 pages
Policy (RL IITH)
No ratings yet
Policy (RL IITH)
46 pages
Numerical Diff and Integration
No ratings yet
Numerical Diff and Integration
56 pages
Experiment 4
No ratings yet
Experiment 4
7 pages
Ml-15 Work Procedure For Row Clean Up & Restoration
No ratings yet
Ml-15 Work Procedure For Row Clean Up & Restoration
8 pages
2.2+model Free+Control
No ratings yet
2.2+model Free+Control
92 pages
Experiment 3
No ratings yet
Experiment 3
6 pages
Ar514 MDP
No ratings yet
Ar514 MDP
27 pages
Module 04
No ratings yet
Module 04
63 pages
Research On Topology Planning For Wireless Mesh Networks Based On Deep Reinforcement Learning
No ratings yet
Research On Topology Planning For Wireless Mesh Networks Based On Deep Reinforcement Learning
6 pages
Cs229-Notes12 Reinforcement in Control
No ratings yet
Cs229-Notes12 Reinforcement in Control
17 pages
EE290 Lecture 16
No ratings yet
EE290 Lecture 16
4 pages
1 - Table of Contents
No ratings yet
1 - Table of Contents
6 pages
Reinforcement Learning: Foundations Exam
No ratings yet
Reinforcement Learning: Foundations Exam
42 pages
کتاب هشتم بارگزاری شده
No ratings yet
کتاب هشتم بارگزاری شده
112 pages
Kunuba Prliminary Pages 8
No ratings yet
Kunuba Prliminary Pages 8
9 pages
RL Exam Tutti
No ratings yet
RL Exam Tutti
47 pages
K039-Pic-Checklist For JCB
No ratings yet
K039-Pic-Checklist For JCB
1 page
12 ML Reinforcement Learning Value Based Control
No ratings yet
12 ML Reinforcement Learning Value Based Control
12 pages
Notes
No ratings yet
Notes
6 pages
RL 2021 22 Exam I
No ratings yet
RL 2021 22 Exam I
4 pages
UNIT 2.2 Functional Modeling
No ratings yet
UNIT 2.2 Functional Modeling
23 pages
WM412C.1-V1.1-1.2 Main Vertical Sections
No ratings yet
WM412C.1-V1.1-1.2 Main Vertical Sections
1 page
Reinforcement Learning Cheatsheet
No ratings yet
Reinforcement Learning Cheatsheet
16 pages
Solution 3
No ratings yet
Solution 3
4 pages
Sew Cost Map
No ratings yet
Sew Cost Map
20 pages
MDP Cheatsheet
No ratings yet
MDP Cheatsheet
3 pages
CS229
No ratings yet
CS229
17 pages
RL Problem Sheet: E0 270: Machine Learning (Spring 2025)
No ratings yet
RL Problem Sheet: E0 270: Machine Learning (Spring 2025)
10 pages
Markov Decision
No ratings yet
Markov Decision
4 pages
DRL Homework 1
No ratings yet
DRL Homework 1
4 pages
RL Paper Deepsk
No ratings yet
RL Paper Deepsk
4 pages
2024 MDPs Part 1
No ratings yet
2024 MDPs Part 1
59 pages
2025 - MDPs 2
No ratings yet
2025 - MDPs 2
42 pages
Lec17 ReinforcementLearning
No ratings yet
Lec17 ReinforcementLearning
58 pages
GDD Nonlinear NIPS 2009 Convergent Temporal Difference Learning With Arbitrary Smooth Function Approximation
No ratings yet
GDD Nonlinear NIPS 2009 Convergent Temporal Difference Learning With Arbitrary Smooth Function Approximation
9 pages
RL Lecture4
No ratings yet
RL Lecture4
7 pages
Shortcuts to College Calculus Refreshment Kit
From Everand
Shortcuts to College Calculus Refreshment Kit
Juan Acevedo
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Notações Dos Algoritimos

Uploaded by

Notações Dos Algoritimos

Uploaded by

REINFORCEMENT LEARNING

3.2. Bellman Optimality Equations.

3.3. Useful Formulas for Deriving the Bellman Equations.

v∗ (s) = max q∗ (s, a)

The reasoning for the above is as follows:

• (2) Law of Total Expectation

• (4) Eπ [Gt |St = s, At = a, St+1 = s0 , Rt+1 = r] = Eπ [Gt |St+1 = s0 , Rt+1 = r]

• (5) Gt = Rt+1 + γGt+1

• (6) Linearity of Expectation

• (7) vπ (s0 ) = Eπ [Gt+1 |St+1 = s0 ]

Algorithm 1: Policy Evaluation

Algorithm 2: Estimation of Action Values

Algorithm 4: Policy Iteration

Algorithm 5: Truncated Policy Evaluation

Algorithm 7: Value Iteration

Algorithm 8: First-Visit MC Prediction (for state values)

Algorithm 9: First-Visit MC Prediction (for action values)

Algorithm 11: First-Visit Constant-α (GLIE) MC Control

Algorithm 12: TD(0)

Algorithm 13: Sarsa

Algorithm 15: Expected Sarsa

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.