Advantage Function & Variance Reduction

How subtracting a baseline transforms noisy returns into clean learning signals

Click "Next Step" to sample a batch of trajectories and compare REINFORCE vs. Advantage

Gradient weight: ∇log π · G_t — all positive → all actions reinforced!

Gradient weight: ∇log π · A_t — good ↑, bad ↓, clean signal!

Mean Return (Baseline)

—

Variance (Raw Returns)

—

Variance (Advantages)

—

Variance Reduction

—

Raw return G_t

Positive advantage (better than avg)

Negative advantage (worse than avg)

Baseline V(s)