CLIP 모델을 사용 →
이미지 품질을 예측하는데, 왜곡(distortion)과 장면(scene)을 함께 고려하여 품질 예측의 정확성을 높이려는 목적
목표 :
CLIP 모델을 활용하여 단순한 품질 예측에서 벗어나, 장면 및 왜곡 정보를 추가로 고려함으로써 이미지 품질 예측의 정확성을 높이고자 함.
이를 통해 단순히 품질 점수만을 예측하는 것이 아니라, 이미지의 장면이나 왜곡의 종류에 따라 예측이 어떻게 달라질 수 있는지를 반영하여 더 정확한 예측을 수행 가능
이러한 방법은 특히 다양한 장면과 왜곡이 포함된 데이터셋에서 더욱 유용할 수 있음.
→ 예를 들어, 특정 왜곡이 특정 장면에서는 더 강하게 나타날 수 있으므로, 장면 정보를 추가로 고려하면 품질 예측의 신뢰도를 높일 수 있음
✔ 연구 목표 :
🔔 distortion과 scene에 대한 정보를 index로 주지말고
모델이 스스로 학습해 왜곡유형과 장면유형을 스스로 찾아 quality를 출력하도록,,
사용자가 이미지를 첨부하면, 그 이미지의 장면 정보와 왜곡 정보를 모델이 자동으로 파악하고, 높은 품질 점수를 출력하는 시스템을 구축하기 위함
모델이 이미지 데이터에서 직접 특징을 학습하도록 하는 방법.
→ 이를 통해 모델은 이미지의 장면 정보와 왜곡 유형을 인식하게 되고, 이러한 정보는 품질 점수 예측에 유용하게 사용됨.
대표적인 방법 : Contrastive Learning
Contrastive Learning | 이미지 쌍을 이용해 유사한 이미지와 그렇지 않은 이미지를 구분하도록 모델 학습.
→ 이 과정에서 모델은 자연스럽게 이미지의 장면과 왜곡 정보를 학습하게 됨
Multi-task Learning은 모델이 동시에 여러 과제를 학습하도록 함으로써, 특정 과제에 대한 성능을 높이는 방법
→ 예를 들어, 모델이 이미지의 품질 점수를 예측하는 동시에 장면 인식과 왜곡 감지를 수행하게 하면, 모델이 장면과 왜곡 정보를 더 잘 이해하게 되고, 이를 품질 예측에 더 효과적으로 활용할 수 있게 됨
구체적인 접근 방법:
Multi-task Network Design: 네트워크를 설계할 때, 품질 예측을 위한 메인 브랜치와 장면 및 왜곡 인식을 위한 서브 브랜치를 함께 학습.
→ 이 경우 장면 인식과 왜곡 인식이 품질 예측에 필요한 중요한 정보를 모델에 제공
Feature Aggregation: 장면 정보와 왜곡 정보를 통해 얻어진 특징들을 종합하여, 최종 품질 점수를 계산.
→ 이를 통해 사용자가 첨부한 이미지에 대해 더 정확한 품질 예측 수행
최종 학습 전략 제안:
- Self-Supervised Pre-training: 먼저 Self-Supervised Learning을 통해 모델이 이미지의 중요한 특징(장면 및 왜곡 관련)을 학습 함
- Multi-task Fine-tuning: 그런 다음, Multi-task Learning을 통해 품질 예측, 장면 인식, 왜곡 감지를 동시에 학습시킴
- End-to-End Training: 모든 학습이 끝나면, 전체 모델을 End-to-End로 재학습시켜 모델이 모든 정보를 종합하여 품질 예측을 최적화함