3D CNN은 보통 Video 처리를 할 때 사용되며 output shape에 대한 계산은 다음과 같다.
The convolution formula is the same as in 2D and is well-described in CS231n tutorial:
where W is the input volume size, F is the receptive field size, S is the stride, and P is the amount of zero padding used on the border. In particular, when S=1 and P=0, like in your question, it simplifies to
So, if you input the tensor (40,64,64,12), ignoring the batch size, and F=3 then the output tensor size will be (38,62,62,8)
라고 한다.
3D CNN 계산에 대해 더 자세하게 정리된 글이 있어 참고의 블로그를 확인하자!!
참고:
좋은 글 감사합니다. 자주 방문할게요 :)