Algorithm 1. Dynamic programming algorithm

Require: $L, T, A, P_{p i c k u p}, P_{d e s t}, d_{s e e k}, d_{d r i v e r}, t_{s e e k}, t_{d r i v e r}, D_{y}, p_{k}$

Ensure: The optimal policy $π$

1: $p_{k}$ is a $| L | \times 1$ , V is a $| L | \times | T |$ matrix; $p_{k} \leftarrow 0, V \leftarrow 0$

2: for |L| to 1 do

3: $p_{L} \leftarrow p_{k}$

4: end for

5: for t = T − 1 to 1 do

6: for l = 1 to |L| do

7: for d in len(d) do

8: for $a \in A$ do

9: $a_{\max} \leftarrow$ find a $\max V^{'} (s, a)$ can be computed by Equation (4)

10: $π \leftarrow a_{\max}$

11: $V (s) \leftarrow \max V^{'} (s, a_{\max})$

12: end for

13: end for

14: end for

15: end for

16: Return $π$