PPO Clipped Surrogate Objective

Explore how clipping constrains policy updates — visualize all four cases and their gradients

Objective L(θ)

Gradient ∂L/∂r

Both Views

Unclipped: r·Â

Clipped: clip(r)·Â

L^CLIP = min(...)

Clip region

L^CLIP(θ) = 𝔼_t[ min( r_t(θ) Â_t, clip(r_t, 1−ε, 1+ε) Â_t ) ]

Parameters

Advantage Â_t+1.00

Clip ε0.20

Current r_t(θ)1.00

Current Point

Region

Inside clip

L^CLIP value

1.00

L^unclip value

1.00

Gradient

Â = +1.00

Four Cases

Â	r_t	Effect	Grad
+	↑ > 1+ε	Clip	ZERO
+	↓ < 1−ε	Correct	FULL
−	↓ < 1−ε	Clip	ZERO
−	↑ > 1+ε	Correct	FULL
±	in bounds	Normal	Â

Quick Presets