Data: Layer $f_{i}$ , output gradients $\frac{δ L}{δ z_{i}}$

CPU pinned memory buffer $P_{i - 1}$

CPU thread $T_{c o m p}$

CUDA events $E_{d a t a}^{i}$ , $E_{d a t a}^{i + 1}$ , $E_{c o m p}^{i}$

CUDA Streams $S_{d a t a}$ , $S_{c o m p}$

Result: $\frac{δ L}{δ z_{i - 1}}$ , $\frac{δ L}{δ θ_{i}}$

Allocate ( $z_{i - 1}$ );

$S_{d a t a} \Leftarrow z_{i - 1} \leftarrow P_{i - 1}$ ;

$S_{d a t a} \Leftarrow E_{d a t a}^{i}$ ;

Wait ( $E_{d a t a}^{i + 1}$ );

Allocate ( $\frac{δ L}{δ z_{i - 1}}$ , $\frac{δ L}{δ θ_{i}}$ );

$S_{c o m p} \Leftarrow \frac{δ L}{δ z_{i - 1}} \leftarrow \frac{δ L}{δ z_{i}} \times \frac{δ z_{i}}{δ z_{i - 1}}$ ;

$S_{c o m p} \Leftarrow \frac{δ L}{δ θ_{i}} \leftarrow \frac{δ L}{δ z_{i}} \times \frac{δ z_{i}}{δ θ_{i}}$ .