0% found this document useful (0 votes)

16 views15 pages

p5 CO Opti Algo

The document outlines optimization algorithms used in machine learning, focusing on both first-order methods like gradient descent and second-order methods such as Newton's algorithm. It discusses the overall line-search algorithm, the classification of algorithms, and practical approaches for determining step sizes, including the Armijo condition and backtracking line search. Additionally, it covers convergence properties and the stochastic gradient descent method for minimizing averages of functions.

Uploaded by

achintyaharsha0317

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views15 pages

p5 CO Opti Algo

Uploaded by

achintyaharsha0317

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 15

Mathematics for Machine

Learning
Amit Chattopadhyay

IIIT-Bangalore

Module 1: Convex Optimization: Optimization Algorithms

1
5. Optimization Algorithms
Overview

f0∗ = minn f0 (x)

x∈R

Overall Line-Search Algorithm (f0 , x0 ∈ dom f0 , ε > 0)

1. Start with initial candidate point: x0 ∈ Rn
2. Next generate a sequence of candidate points {xk } (for k = 1, 2, . . .)
converging towards the actual minimum using update rule:

xk+1 = xk + sk vk

where scalar sk > 0 is called the stepsize, and vk ∈ Rn is the update

direction.
3. Stop: if the current solution meets desired accuracy level ε.
Note: Behavior of the algorithm depends on choice of direction vk and
stepsize sk .
3
Classification of Algorithms

First-order methods:
• Gradient descent method
• Subgradient method
• Proximal gradient descent
• Stochastic gradient descent
Second-order methods:
• Newton’s method
• Barrier method
• Primal-dual interior-point methods
• Quasi-Newton methods
• Proximal Newton method
4
First-order: Gradient Descent Method

f0 (xk + svk ) − f0 (xk )

The local rate of variation of f0 : lim = ∇f0 (xk )T vk
s→0 s
Descent Directions: vk for which ∇f0 (xk )T vk < 0 we have:

f0 (xk+1 ) < f0 (xk ).

Steepest Descent Direction: Direction of maximum local decrease

∇f0 (xk )
vk = −
∥∇f0 (xk )∥

5
First-order: Gradient Descent Method

Stepsize:
Restriction of f0 along vk : ϕ(s) = f0 (xk + svk )
To find s > 0 such that: ϕ(s) < ϕ(0)
Exact Line Search: s ∗ = arg min ϕ(s)
s≥0

(Computationally Expensive)
6
Stepsize: Practical Approach

Armijo Condition
Valid step sizes must satisfy: ϕ(s) ≤ ϕ(0) + s(αδk )
More explicitly, f0 (xk + svk ) ≤ f0 (xk ) + sα(∇f0 (xk )T vk ) for chosen
α ∈ (0, 1)
Note: s̄ is the smallest point where ϕ(s) and l̄(s) cross. Armijo
condition is satisfied ∀s ∈ (0,s̄).
7
Stepsize: Practical Approach

Backtracking Line Search

Require: f0 differentiable, α ∈ (0, 1), β ∈ (0, 1), xk ∈ dom f0 , vk a decent
direction, sinit a positive constant (typically, sinit = 1)
1: Set s = sinit , δk = ∇f0 (xk )T vk
2: If f0 (xk + svk ) ≤ f (xk ) + sαδk , then return sk = s
3: Else let s ← β s and go to step 2.

8
Stepsize: Lower Bound

Assumption: f0 has Lipschitz continuous gradient on S0 , i.e.,∃L > 0 such

that
∥∇f0 (x) − ∇f0 (y)∥2 ≤ L∥x − y∥2 , ∀x, y ∈ S0 .
Lower bound on step-size: ∃ a constant slb > 0 such that

sk ≥ slb , ∀k = 0, 1, . . .

9
Convergence

Convergence to a stationary point:

xk+1 = xk − sk ∇f0 (xk )

with stepsizes sk computed via backtracking line search, satisfying Armijo

condition:

f0 (xk+1 ) ≤ f0 (xk ) − sk α∥∇f0 (xk )∥22

=⇒ f0 (xk ) − f0 (xk+1 ) ≥ sk α∥∇f0 (xk )∥22
≥ slb α∥∇f0 (xk )∥22 , ∀k = 0, 1, . . .

k
Thus, slb α ∑ ∥∇f0 (xi )∥22 ≤ f0 (x0 ) − f (xk+1 ) ≤ f0 (x0 ) − f0∗
i=0
=⇒ lim ∥∇f0 (xk )∥2 = 0 (the algorithm converges to a stationary point
k→∞
of f0 )

10
Convergence

k
∑ ∥∇f0 (xi )∥22 ≥ (k + 1) i=0,...,k
min ∥∇f0 (xi )∥
i=0
1 1
q
=⇒ gk∗ = min ∥∇f0 (xi )∥2 ≤ √ √ f0 (x0 ) − f0∗
i=0,...,k 1 + k slb α
1
=⇒ gk∗ ∝ √
1+k
Stopping criterion is set as: ∥∇f0 (xi )∥2 ≤ ε
The exit condition is achieved in
1 f0 (x0 ) − f0∗

kmax =
ε2 slb α
.

11
Convergence: Convex Function

Assume: f0 has Lipschitz continuous gradient and it is convex.

1. The gradient algorithm converges to global minimum x∗
2. f0 (xk ) → f0∗ at a rate ∝ 1
k
3. f0 (xk ) − f0∗ ≤ ε in at most

∥x0 − x∗ ∥22

kmax =
2εslb

12
Second-order: Newton’s Algorithm

xk+1 = xk − sk [∇2 f0 (xk )]−1 ∇f0 (xk ), k = 0, 1, . . .

• vk = [∇2 f0 (xk )]−1 ∇f0 (xk )

• sk can be found by the Backtracking algorithm

• In particular useful in minimizing strongly convex functions, since

∇2 f0 (x) ⪰ mI ∀x

13
Second-order: Newton’s Algorithm

• Obtained by minimizing second order Taylor approximation at xk :

(k)
f0 (x) ≃ fq (x)
1
= f0 (xk ) + ∇f0 (xk )T (x − bxk ) + (x − xk )T ∇2 f0 (xk )(x − xk )
2
• λk2 = ∇f0 (xk )T [∇2 f0 (xk )]−1 f0 (xk ) (Newton decrement)

14
Stochastic Gradient Descent Method (SGD)

Consider minimizing an average of functions:

1 m
minn f (x) = ∑ fi (x)
x∈R m i=1

• Ordinary gradient descent: xk+1 = xk − sk m1 ∑m

i=1 ∇fi (xk ) (expensive
when m is large)
• Stochastic Gradient Descent : xk+1 = xk − sk ∇fik (xk ) where
ik ∈ {11, . . . , m} is chosen randomly.
• E[∇fik (x)] = ∇f (x): SGD is using an unbiased estimate of the
gradient at each step
• iteration cost is independent of m (number of functions)

Beamer NEW 091023
No ratings yet
Beamer NEW 091023
224 pages
Lecture 1and2-Revision Part1
No ratings yet
Lecture 1and2-Revision Part1
53 pages
Clnote Sept24
No ratings yet
Clnote Sept24
24 pages
Les Hoches 2022 Convex Optimization
No ratings yet
Les Hoches 2022 Convex Optimization
34 pages
Probability I - Mark Scheme
No ratings yet
Probability I - Mark Scheme
17 pages
Lecture 4-Revision - Part3 - PCA - Reg
No ratings yet
Lecture 4-Revision - Part3 - PCA - Reg
39 pages
Gradient Descent
No ratings yet
Gradient Descent
52 pages
ConvexSpring25 Week9
No ratings yet
ConvexSpring25 Week9
26 pages
Lecture 5-Perceptron - SVM1 - ConstrainedOptimization
No ratings yet
Lecture 5-Perceptron - SVM1 - ConstrainedOptimization
35 pages
7.93 - Lecture #4 - and - Multiple Sequence Alignment: More Pairwise Sequence Comparisons
No ratings yet
7.93 - Lecture #4 - and - Multiple Sequence Alignment: More Pairwise Sequence Comparisons
44 pages
Lecture 3-Revision - Part2
No ratings yet
Lecture 3-Revision - Part2
25 pages
02 Grad Desc
No ratings yet
02 Grad Desc
54 pages
Optimisation in MAchine Learning
No ratings yet
Optimisation in MAchine Learning
114 pages
Lecture8 CMOS Buffer
No ratings yet
Lecture8 CMOS Buffer
12 pages
Optim ML
No ratings yet
Optim ML
41 pages
Lec 11
No ratings yet
Lec 11
13 pages
Lecture 8-NeuralNetworks-Part1
No ratings yet
Lecture 8-NeuralNetworks-Part1
10 pages
Lecture3 PartA Non Ideal MOS Effects
No ratings yet
Lecture3 PartA Non Ideal MOS Effects
8 pages
IML Summary
No ratings yet
IML Summary
12 pages
p4 CO Duality Annotated
No ratings yet
p4 CO Duality Annotated
17 pages
Optimization For Machine Learning: Massachusetts Institute of Technology
No ratings yet
Optimization For Machine Learning: Massachusetts Institute of Technology
169 pages
Lecture 3 Gradient Descent
No ratings yet
Lecture 3 Gradient Descent
37 pages
Numerical Optimization For Inverse Problems - 10 Lectures On Inverse Problems and Imaging
No ratings yet
Numerical Optimization For Inverse Problems - 10 Lectures On Inverse Problems and Imaging
15 pages
Recurrent Neural Network: Unit - 3
No ratings yet
Recurrent Neural Network: Unit - 3
12 pages
Lecture 3 Gradient Descent
No ratings yet
Lecture 3 Gradient Descent
37 pages
Screenshot 2024-10-19 at 10.37.25 AM
No ratings yet
Screenshot 2024-10-19 at 10.37.25 AM
25 pages
Unit VI Optimization Techniques Question Bank Solved Answer
No ratings yet
Unit VI Optimization Techniques Question Bank Solved Answer
20 pages
Xu2001 Minimax
No ratings yet
Xu2001 Minimax
13 pages
Gradient Descent Algorithm in Machine Learning
No ratings yet
Gradient Descent Algorithm in Machine Learning
21 pages
Skript Opt Mach
No ratings yet
Skript Opt Mach
49 pages
Parity Bits Exercises
No ratings yet
Parity Bits Exercises
4 pages
04 Nonlinear Systems and Optimization
No ratings yet
04 Nonlinear Systems and Optimization
74 pages
Optimization For Machine Learning: Lecture 8: Subgradient Method Accelerated Gradient 6.881: MIT
No ratings yet
Optimization For Machine Learning: Lecture 8: Subgradient Method Accelerated Gradient 6.881: MIT
89 pages
Berkeley-Tutorial Optimization For Machine Learningpart2
No ratings yet
Berkeley-Tutorial Optimization For Machine Learningpart2
35 pages
Gradient - Descent Important 23-24
No ratings yet
Gradient - Descent Important 23-24
37 pages
Convex Module B
No ratings yet
Convex Module B
29 pages
05 Gradient Descent
No ratings yet
05 Gradient Descent
23 pages
06 Optimization
No ratings yet
06 Optimization
42 pages
2202.00726 Yhe Atrs
No ratings yet
2202.00726 Yhe Atrs
13 pages
11 Gradient Descent
No ratings yet
11 Gradient Descent
58 pages
PS 1
No ratings yet
PS 1
2 pages
Electromagnetic Theory Notes
100% (2)
Electromagnetic Theory Notes
178 pages
Notes HQ
No ratings yet
Notes HQ
96 pages
Chapter Three: One-Dimensional, Two Dimensional, Three-Dimensional
No ratings yet
Chapter Three: One-Dimensional, Two Dimensional, Three-Dimensional
15 pages
PrOBLEM Reading and Measuring THERMOMETER
No ratings yet
PrOBLEM Reading and Measuring THERMOMETER
16 pages
LN - Optimization For ML
No ratings yet
LN - Optimization For ML
129 pages
CS 4476 Project 1 Description
No ratings yet
CS 4476 Project 1 Description
8 pages
O4MD 03 Descent Methods
No ratings yet
O4MD 03 Descent Methods
18 pages
Bologna 07
No ratings yet
Bologna 07
315 pages
Hauser Lecture2
No ratings yet
Hauser Lecture2
26 pages
Chapter 1 - Introduction To Finite Element Analysis
No ratings yet
Chapter 1 - Introduction To Finite Element Analysis
16 pages
Opt Lec 10
No ratings yet
Opt Lec 10
16 pages
MLSS Complete PDF
No ratings yet
MLSS Complete PDF
106 pages
Subgrad Method Slides
No ratings yet
Subgrad Method Slides
33 pages
Stats 102B Cheat Sheet
No ratings yet
Stats 102B Cheat Sheet
4 pages
Optimization For Machine Learning
No ratings yet
Optimization For Machine Learning
45 pages
1953 04erdos
No ratings yet
1953 04erdos
5 pages
Convex Cardinality Optimization
No ratings yet
Convex Cardinality Optimization
26 pages
Nisheeth VishnoiFall2014 ConvexOptimization PDF
No ratings yet
Nisheeth VishnoiFall2014 ConvexOptimization PDF
114 pages
CS-6777 Liu Abs
No ratings yet
CS-6777 Liu Abs
103 pages
Exercises 9 - Decision Making 0 0
No ratings yet
Exercises 9 - Decision Making 0 0
6 pages
6 Gradient Method
No ratings yet
6 Gradient Method
19 pages
Constraint Programming: Michael Trick Carnegie Mellon
No ratings yet
Constraint Programming: Michael Trick Carnegie Mellon
41 pages
Discontinuidades en Concreto
No ratings yet
Discontinuidades en Concreto
9 pages
Chapter 07
No ratings yet
Chapter 07
20 pages
Lecture 11
No ratings yet
Lecture 11
4 pages
Lecture 5
No ratings yet
Lecture 5
6 pages
Unconstrained Numerical Optimization An Introduction For Econometricians
100% (1)
Unconstrained Numerical Optimization An Introduction For Econometricians
32 pages
Gradient Descent: Ryan Tibshirani Convex Optimization 10-725
No ratings yet
Gradient Descent: Ryan Tibshirani Convex Optimization 10-725
27 pages
Chapter 3 Unconstrained Convex Optimization
No ratings yet
Chapter 3 Unconstrained Convex Optimization
28 pages
Adam: Adaptive Moment Estimation: The Error To Be Minimized
No ratings yet
Adam: Adaptive Moment Estimation: The Error To Be Minimized
4 pages
Electrical First Term Allocation
No ratings yet
Electrical First Term Allocation
1 page
Vinyl Acetate
No ratings yet
Vinyl Acetate
13 pages
Assignment 1 CV1 WS16/17: This Assignment Is Due On November 14th, 2016 at 12:00
No ratings yet
Assignment 1 CV1 WS16/17: This Assignment Is Due On November 14th, 2016 at 12:00
4 pages
ML Notes
No ratings yet
ML Notes
14 pages
Smooth Convex Minimization Problems
No ratings yet
Smooth Convex Minimization Problems
28 pages
BE EnTc Mid Sem Examination Digital Image and Video Processing 2021-2022 Sem I
No ratings yet
BE EnTc Mid Sem Examination Digital Image and Video Processing 2021-2022 Sem I
11 pages
OpTimIzation Overview
No ratings yet
OpTimIzation Overview
47 pages
02-Subgrad Method Notes
No ratings yet
02-Subgrad Method Notes
27 pages
Virani Sir
No ratings yet
Virani Sir
17 pages
Lead Compensator Design Paper
No ratings yet
Lead Compensator Design Paper
17 pages
Assume That One Third of All Used Cars Are Lemons If
No ratings yet
Assume That One Third of All Used Cars Are Lemons If
2 pages
06 SG Method
No ratings yet
06 SG Method
33 pages
Coordinate Descent Algorithms: Stephen J. Wright
No ratings yet
Coordinate Descent Algorithms: Stephen J. Wright
32 pages
PHP Type Comparison Tables
No ratings yet
PHP Type Comparison Tables
2 pages
Introduction To Quantitative Methods: Morning 6 December 2007
100% (1)
Introduction To Quantitative Methods: Morning 6 December 2007
20 pages
Sparsity and Its Mathematics
No ratings yet
Sparsity and Its Mathematics
44 pages
(K) K (k+1) (K) K (K)
No ratings yet
(K) K (k+1) (K) K (K)
6 pages
cs3110 sp11 Prelim 2 Solutions
No ratings yet
cs3110 sp11 Prelim 2 Solutions
8 pages
EViews Guide
100% (1)
EViews Guide
14 pages
Maintaining Test Methods in The User's Laboratory: Standard Guide For
No ratings yet
Maintaining Test Methods in The User's Laboratory: Standard Guide For
4 pages
Design Optimization of Solid Propellant Rocket Motor Pavel Konečný, Vojtěch Hrubý, Zdeněk Křižan
No ratings yet
Design Optimization of Solid Propellant Rocket Motor Pavel Konečný, Vojtěch Hrubý, Zdeněk Křižan
8 pages
Taylor and Maclaurin Series
No ratings yet
Taylor and Maclaurin Series
14 pages
Chapter 0: Introduction: 0.2.1 Examples in Machine Learning
No ratings yet
Chapter 0: Introduction: 0.2.1 Examples in Machine Learning
4 pages
Project For Automated Train by Roshan
No ratings yet
Project For Automated Train by Roshan
6 pages
Algorithms Process Optimization
No ratings yet
Algorithms Process Optimization
5 pages
Optimization Class Notes MTH-9842
No ratings yet
Optimization Class Notes MTH-9842
25 pages
Worked Examples in Mathematics for Scientists and Engineers
From Everand
Worked Examples in Mathematics for Scientists and Engineers
G. Stephenson
No ratings yet
Shortcuts to College Calculus Refreshment Kit
From Everand
Shortcuts to College Calculus Refreshment Kit
Juan Acevedo
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

p5 CO Opti Algo

Uploaded by

p5 CO Opti Algo

Uploaded by

Mathematics for Machine

Module 1: Convex Optimization: Optimization Algorithms

f0∗ = minn f0 (x)

Overall Line-Search Algorithm (f0 , x0 ∈ dom f0 , ε > 0)

where scalar sk > 0 is called the stepsize, and vk ∈ Rn is the update

f0 (xk + svk ) − f0 (xk )

f0 (xk+1 ) < f0 (xk ).

Steepest Descent Direction: Direction of maximum local decrease

Backtracking Line Search

Assumption: f0 has Lipschitz continuous gradient on S0 , i.e.,∃L > 0 such

Convergence to a stationary point:

xk+1 = xk − sk ∇f0 (xk )

with stepsizes sk computed via backtracking line search, satisfying Armijo

f0 (xk+1 ) ≤ f0 (xk ) − sk α∥∇f0 (xk )∥22

Assume: f0 has Lipschitz continuous gradient and it is convex.

xk+1 = xk − sk [∇2 f0 (xk )]−1 ∇f0 (xk ), k = 0, 1, . . .

• vk = [∇2 f0 (xk )]−1 ∇f0 (xk )

• sk can be found by the Backtracking algorithm

• In particular useful in minimizing strongly convex functions, since

• Obtained by minimizing second order Taylor approximation at xk :

Consider minimizing an average of functions:

• Ordinary gradient descent: xk+1 = xk − sk m1 ∑m

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.