#[IQA] 2. 이미지 품질 평가 LIQE_NON_INDEX 방법 제시

degull·2024년 9월 3일
0

기존의 CLIP 모델을 활용한 LIQE

CLIP 모델을 사용 →
이미지 품질을 예측하는데, 왜곡(distortion)과 장면(scene)을 함께 고려하여 품질 예측의 정확성을 높이려는 목적

목표 :
CLIP 모델을 활용하여 단순한 품질 예측에서 벗어나, 장면 및 왜곡 정보를 추가로 고려함으로써 이미지 품질 예측의 정확성을 높이고자 함.
이를 통해 단순히 품질 점수만을 예측하는 것이 아니라, 이미지의 장면이나 왜곡의 종류에 따라 예측이 어떻게 달라질 수 있는지를 반영하여 더 정확한 예측을 수행 가능

이러한 방법은 특히 다양한 장면과 왜곡이 포함된 데이터셋에서 더욱 유용할 수 있음.
→ 예를 들어, 특정 왜곡이 특정 장면에서는 더 강하게 나타날 수 있으므로, 장면 정보를 추가로 고려하면 품질 예측의 신뢰도를 높일 수 있음


✔ 연구 목표 :
🔔 distortion과 scene에 대한 정보를 index로 주지말고
모델이 스스로 학습해 왜곡유형과 장면유형을 스스로 찾아 quality를 출력하도록,,

방법

사용자가 이미지를 첨부하면, 그 이미지의 장면 정보와 왜곡 정보를 모델이 자동으로 파악하고, 높은 품질 점수를 출력하는 시스템을 구축하기 위함

1. Self-Supervised Learning (자기지도 학습)

모델이 이미지 데이터에서 직접 특징을 학습하도록 하는 방법.
→ 이를 통해 모델은 이미지의 장면 정보왜곡 유형을 인식하게 되고, 이러한 정보는 품질 점수 예측에 유용하게 사용됨.
대표적인 방법 : Contrastive Learning

Contrastive Learning | 이미지 쌍을 이용해 유사한 이미지와 그렇지 않은 이미지를 구분하도록 모델 학습.
→ 이 과정에서 모델은 자연스럽게 이미지의 장면과 왜곡 정보를 학습하게 됨



2. Multi-task Learning (다중 과제 학습)

Multi-task Learning은 모델이 동시에 여러 과제를 학습하도록 함으로써, 특정 과제에 대한 성능을 높이는 방법


→ 예를 들어, 모델이 이미지의 품질 점수를 예측하는 동시에 장면 인식과 왜곡 감지를 수행하게 하면, 모델이 장면과 왜곡 정보를 더 잘 이해하게 되고, 이를 품질 예측에 더 효과적으로 활용할 수 있게 됨


구체적인 접근 방법:

  1. Representation Learning: 모델이 이미지의 일반적인 표현을 학습하도록 하여, 이러한 표현을 품질 점수 예측에 활용.
    Variational Autoencoder(VAE)SimCLR과 같은 방법을 사용해 이미지의 잠재적 표현(latent representation) 학습
  1. Multi-task Network Design: 네트워크를 설계할 때, 품질 예측을 위한 메인 브랜치와 장면 및 왜곡 인식을 위한 서브 브랜치를 함께 학습.
    → 이 경우 장면 인식과 왜곡 인식이 품질 예측에 필요한 중요한 정보를 모델에 제공

  2. Feature Aggregation: 장면 정보와 왜곡 정보를 통해 얻어진 특징들을 종합하여, 최종 품질 점수를 계산.
    → 이를 통해 사용자가 첨부한 이미지에 대해 더 정확한 품질 예측 수행


최종 학습 전략 제안:

  • Self-Supervised Pre-training: 먼저 Self-Supervised Learning을 통해 모델이 이미지의 중요한 특징(장면 및 왜곡 관련)을 학습 함
  • Multi-task Fine-tuning: 그런 다음, Multi-task Learning을 통해 품질 예측, 장면 인식, 왜곡 감지를 동시에 학습시킴
  • End-to-End Training: 모든 학습이 끝나면, 전체 모델을 End-to-End로 재학습시켜 모델이 모든 정보를 종합하여 품질 예측을 최적화함
profile
그래도 해야지

0개의 댓글