어떠한 text token도 포함되지 않은 경우, 이미지 patch encoding은 그 자체를 유지
Layout Modal을 unify하기 위해, 우리는 최근 연구에서 사용된 layout modal을 discrete화
이외에도 TILT에서 사용한 2D relative attention bias를 사용