

𝐼는 원본 이미지, 𝐾는 복원된 이미지.
- PSNR이 클수록 복원 품질이 좋음.
- 보통 30dB 이상이면 사람이 품질 차이를 느끼기 어렵다고 봄.
- 단점: 인간 시각적 특성을 반영하지 못함. PSNR이 높아도 실제 품질이 별로일 수 있음.


- SSIM은 0에서 1 사이의 값을 가지며, 1에 가까울수록 두 이미지가 더 비슷함.
- 구조, 밝기, 명암 대비를 평가해서 인간 시각적 민감도를 반영함.
- PSNR에 비해 더 직관적으로 품질 평가 가능.
| 특징 | PSNR | SSIM |
|---|---|---|
| 평가 기준 | 픽셀 간 절대 차이 | 구조적 유사성, 밝기, 명암 대비 |
| 값의 범위 | 0 이상 (보통 20~40dB) | 0~1 (1에 가까울수록 유사) |
| 인간 시각 반영 | 반영 안 함 | 반영함 |
| 적합한 사례 | 기본 화질 평가 | 구조적 유사성이 중요한 경우 |
- PSNR: 모델 학습 중 품질 비교에 적합함.
- SSIM: 사용자 경험을 더 잘 반영하는 품질 평가에 적합함.
- 두 지표는 상호 보완적으로 사용하면 좋음.

Bicubic (양방향 보간법)
SRResNet
SRGAN
Original (참조 이미지)
PSNR
SSIM
시각적 품질
- PSNR/SSIM 지표만 보면 SRResNet이 더 나은 성능을 보임.
- 하지만 시각적 품질 측면에서는 SRGAN이 더 좋은 디테일 복원을 보여줌.
- PSNR과 SSIM은 정량적 평가 지표이며, SRGAN처럼 시각적 품질이 중요한 경우 MOS나 LPIPS 같은 평가가 더 적합할 수 있음.
MOS는 주관적인 품질 평가 지표로, 사람이 직접 이미지를 보고 평가한 결과를 평균낸 값임. 주로 이미지나 비디오 품질의 시각적 품질을 평가할 때 사용됨.
평가 방식
평가 과정
주관성
- GAN 기반 모델 평가
MOS는 PSNR이나 SSIM 같은 정량적 지표로는 평가하기 어려운 시각적 디테일과 자연스러움을 측정하는 데 유용함.- 시각 품질 향상이 중요한 경우
GAN 기반 모델(SRGAN, ESRGAN 등)은 MOS 점수를 높이는 데 초점이 맞춰짐. 이는 사람이 실제로 느끼는 품질을 개선하기 위함.
| 특징 | MOS | PSNR/SSIM |
|---|---|---|
| 평가 방식 | 사람이 직접 평가 | 수학적 계산 기반 |
| 결과 범위 | 1~5 (또는 특정 범위 내 정규화) | PSNR(dB), SSIM(0~1) |
| 평가 기준 | 주관적 (자연스러움, 디테일 복원 등) | 객관적 (픽셀 차이, 구조적 유사성) |
| 적합한 상황 | 시각적 품질이 중요한 경우 (GAN 모델 등) | 정량적 품질 비교가 중요한 경우 |

LPIPS는 딥러닝 기반으로 시각적 품질을 평가하는 지표로, 두 이미지 간의 유사성을 측정. 인간이 느끼는 시각적 품질과 유사한 기준으로 설계되었으며, 특히 GAN 기반 모델 평가에서 널리 사용.
동작 원리
공식


값의 범위
특징
| 특징 | LPIPS | PSNR/SSIM |
|---|---|---|
| 평가 방식 | 딥러닝 기반 특징 유사성 | 픽셀 차이(PNSR), 구조적 유사성(SSIM) |
| 값의 범위 | 0~1 (작을수록 유사) | PSNR(dB), SSIM(0~1, 클수록 유사) |
| 시각적 품질 반영 | 인간 시각 품질과 밀접 | 부분적으로만 반영 |
| 적합한 상황 | GAN 및 시각 품질이 중요한 경우 | 정량적 품질 평가 |
| 특징 | LPIPS | MOS |
|---|---|---|
| 평가 방식 | 딥러닝 모델 기반 자동 평가 | 사람이 직접 평가 |
| 결과 범위 | 0~1 (작을수록 더 유사) | 1~5 (주관적 점수) |
| 평가 기준 | 시각적 특징 유사성 | 시각적 품질 (주관적 판단) |
| 사용 편의성 | 자동화 가능 (반복적인 실험에 적합) | 사람의 직접 평가 필요 (비효율적일 수 있음) |
| 지표 | 평가 방식 | 초점 | 장점 | 단점 |
|---|---|---|---|---|
| PSNR | 픽셀 차이 | 정량적 차이 | 계산 간단 | 인간 시각 반영 X |
| SSIM | 구조적 유사성 | 구조적 유사성, 밝기, 명암 대비 | 시각적 품질 반영 | 디테일한 품질 측정 X |
| MOS | 사람의 주관적 평가 | 인간이 느끼는 품질 | 사용자 경험 직접 반영 | 시간, 비용 소모, 주관성 존재 |
| LPIPS | 딥러닝 특징 맵 비교 | 인간 시각에 가까운 품질 평가 | 디테일 복원과 시각적 자연스러움 평가 | 계산 복잡, 모델 의존성 |
이 네 가지는 모두 이미지 및 비디오 품질 평가 지표로 사용 가능함.
- 정량적 비교가 필요하면 PSNR, SSIM 사용.
- 주관적 품질이 중요하면 MOS나 LPIPS가 적합.
특정 상황에 따라 PSNR + SSIM + MOS/LPIPS를 조합하여 활용하는 것이 최적의 방법임.