데이터 구성
각 이미지 X에 대해서 multi turn conversation data 생성 (Xq1,Xa1,....,XqT,XaT)(X_q^1, X_a^1, ...., X_q^T, X_a^T)(Xq1,Xa1,....,XqT,XaT)
이때 instruction은 random으로 이미지-텍스트 순서를 변경함
그 후 instrcution tuning
학습