Algorithm 1 Quantile Regression Q Learning [5]

Require: N, κ

Input $s, a, r, s^{'},$ $γ ϵ [0, 1)$

#Compute distributional Bellman target

$Q (s^{'}, a^{'}) : = \sum_{j}^{} q_{j} θ_{j} (s^{'}, a^{'})$ where $q_{j} = 1 / N$

$a^{*} \leftarrow a r g m a x_{a^{'}} Q (s^{'}, a^{'})$

$T θ_{j} \leftarrow r + γ θ_{j} (s^{'}, a^{*}), \forall j$

#Compute quantile regression loss

Output $\sum_{i = 1}^{N} E_{j} [ρ_{\hat{τ}}^{k}_{_{i}} (T θ_{j} - Q (s, a))]$