SARSA

Temporal difference learning for action values.

q_{t + 1} (S_{t}, A_{t}) \leftarrow q_{t} (S_{t}, A_{t}) + α target R_{t + 1} + γ q_{t} (S_{t + 1}, A_{t + 1}) - q_{t} (S_{t}, A_{t}) TD error

It’s known as SARSA since it uses $(S_{t}, A_{t}, R_{t + 1}, S_{t + 1}, A_{t + 1})$ .

Yanda's Random Notes