Linear.weight의 shape는 예상과는 다르게 (out_dim, input_dim)이다. 이는 pytorch 내부적으로 matmul연산시 weight를 transpose하기 때문이다.
link를 보면 transpose가 computational loss가 없다고 한다.