ETSI TR 102 493 문서 요약

SSONG·2022년 9월 27일
0

VQA

목록 보기
3/3

ETSI TR 102 493 <Speech and multimedia Transmission Quality (STQ); Guidelines for the use of Video Quality Algorithms for Mobile Applications>

모바일 환경에 적용되는 다양한 서비스 및 시나리오에서의 비디오 품질 알고리즘 사용에 대한 지침 제공


0. Background

Video Quality Assessment (VQA)는 비디오 압축 시스템 사용과 모바일 네트워크를 통한 전송이 증가함에 따라 central issue가 되었다.

Coding 표준 및 전송 네트워크의 특성 상 제공되는 품질은 시간과 공간에 따라 다르기 때문에 VQA는 end-to-end 애플리케이션의 성능 비교에 있어 중요한 도구가 된다.

ITU-T는 시각적 품질의 객관적 예측을 위한 다양한 알고리즘을 승인하였다. 각각의 알고리즘은 범위, 제한조건, 입력정보 등으로 인해 서로 다른 예측 정확도를 가진다.


<대략적인 알고리즘 개요>

1) 이미지 기반 분석

  • ITU-T J.256의 RR 알고리즘 (VGA 해상도까지)
  • ITU-T J.247의 Multiple FR 알고리즘 (모든 해상도)
  • ITJ-T J.341의 HD 해상도에 대한 알고리즘

2) Bitstream 기반 모델

  • Payload 및 전송 헤더의 분석을 기반으로 비디오, 오디오 또는 멀티미디어의 주관적 인식 품질을 예측하는 계산 모델
  • ITU-T P.1201 및 P.1202 시리즈에 설명되어 있음
  • 암호화된/암호화되지 않은 비트스트림에는 차이가 있음

3) Hybrid 모델

  • 미디어 신호와 Payload 및 전송 헤더를 기반으로 비디오, 오디오 또는 멀티미디어의 주관적 인식 품질을 예측하는 계산 모델 (비트스트림 기반 모델 + 메타데이터 정보 결합)
  • 2015년, ITU는 ITU-T J.343 시리즈에서 하이브리드 모델 세트를 승인함
    • NR 하이브리드 모델 (ITU-T J.343.1, J.343.2)
    • RR 하이브리드 모델 (ITU-T J.343.3, J.343.4)
    • FR 하이브리드 모델 (ITU-T J.343.5, J.343.6)

비디오 품질은 사용되는 서버 및 클라이언트 응용프로그램에 따라 달라지므로, 비디오 품질 검증을 위해서는 다양한 조건들이 문서화되어 품질 값 측정에 필요한 정보가 제공되어야 한다.


1. Services

패킷 교환 및 회선 교환 서비스를 사용하는 비디오 콘텐츠 전송의 종류는 다음과 같다.


1) Streaming

  • 오디오 및 비디오와 같은 미디어 스트림을 데이터 네트워크를 통해 클라이언트가 수신하는 동안 연속적으로 재생하는 것
  • 스트리밍은 데이터 네트워크 트래픽의 많은 부분을 차지
  • On-demand / Live information delivery 애플리케이션으로 분류
    • On-demand : 저장된 콘텐츠의 스트리밍 (ex.YouTube와 같은 Video-on-demand 애플리케이션)
    • Live information delivery : 웹 카메라, TV 프로그램, 라디오 같은 생방송

2) Conversational Multimedia

  • 둘 이상의 Party가 비디오, 오디오 및 텍스트를 교환하고 문서를 공유하는 서비스
  • 하나의 Party가 원본(서버), 다른 Party가 클라이언트로 작동하며 그 반대의 경우도 실시간으로 가능한 Peer-to-peer 설정
  • 3gpp 표준화 MTSI 서비스도 한 예시

3) Video Telephony

  • 비디오와 오디오를 모두 전달하는 full-duplex 시스템이며 대화 환경에서 사용하도록 설계됨
  • Conversational voice와 동일한 delay requirements 적용 → No echo, Minimal effect on conversational dynamics
  • 오디오와 비디오를 특정 제한 내에서 동기화해야한다는 requirements도 추가 됨 (”lip-synch”를 제공하기 위해)


2. QoS Scenarios

다양한 비디오 서비스 품질을 구하기 위한 테스트가 필요하며, 이 측정을 용이하게 하기 위해 주요 시나리오를 식별해야한다.


1) Measurement Scenarios

  • 주요 시나리오 : Live streaming, Streaming on demand, Video telephony, Conversational Multimedia
  • Drive test나 Static fashion으로 테스트 할 수 있음
  • 시청각 품질을 추정하는 알고리즘은 아래와 같이 분류될 수 있음

<Input 타입별>

  • Perceptual (Video signal에 access)
  • Hybrid (Video signal, Transport layer payload, Transport header information에 access)
  • Bitstream (Transport layer payload에 access / Video signal에는 access 하지 않음)
  • Parametric (Transport header, Client information, Knowledge about used codec에 access)

<Media 타입별>

  • Video quality only
  • Audiovisual quality (오디오와 비디오 품질의 결합된 효과를 고려함)

2) Other Scenarios

  • 전달된 비디오의 지각 품질에 초점을 맞추지 않고, 실시간으로 원하는 컨텐츠의 전달에 초점을 맞추는 접근 방식 → Live verification or Live monitoring 으로 NR, Parametric, Bitstream 모델이 이러한 목적에 더 적합함

3. Requirements for test systems for mobile networks

모바일 네트워크 테스트는 비디오 품질 측정 알고리즘의 특별한 적용 분야이다. 이러한 모바일 네트워크 테스트가 Drive test 등에 실제로 적용되기 위해서는 다음과 같은 요구사항을 충족해야 한다.


1) Sequence and Observation length

  • 데이터를 제공하고 8~30초 사이의 시퀀스를 평가할 수 있어야 함
  • Video telephony call 및 Video streaming length는 몇 초 ~ 몇 시간 사이로 다를 수 있음
  • Rebuffering으로 품질이 저하되는 비디오 스트리밍 세션의 경우, 저하된 성능 품질을 측정할 수 있도록 시퀀스 길이가 15~30초 사이여야 함
  • 30초보다 긴 시퀀스의 품질 측정은 짧은 샘플 시퀀스의 결과를 수집하고 집계하여 수행할 수 있음 → 샘플 시퀀스들의 결과를 통합하는 방법이 결정되어야 함

2) Content

  • 모바일 네트워크를 통해 전달되는 모든 시각적 컨텐츠의 품질을 평가할 수 있어야 함 (ex. 화상 회의 / 영화 / 영화 예고편 / 사진 및 정지 이미지)
  • Hybrid 알고리즘을 사용할 때, 테스트 설정에는 다양한 컨텐츠가 포함되어야 하며 최종 품질은 사용된 모든 컨텐츠의 평균이어야 함
  • Parametric 품질 모델은 컨텐츠의 평균 품질을 직접 추정함

4. Algorithms

1) Image-based Algorithms

  • 최종 사용자 디바이스에 실제로 표시된 이미지 (사용자가 실제로 보는 이미지) 가 알고리즘에 의해 분석되므로 사용자의 인식을 잘 반영함

  • 디코딩된 이미지를 평가하기 때문에 암호화에 적합하며 널리 적용할 수 있음

    ***<Access to reference 방식>*** 

FR 방식

  • 수신된 비디오를 고품질의 압축되지 않은 비디오(원본/참조 비디오)와 비교
  • 프레임 및 픽셀 단위로 수행됨
  • 참조 비디오와의 차이가 Degradation으로 가늠되며, 고품질 참조 비디오와의 상세한 비교로 인해 매우 정확한 것으로 간주됨
  • 참조 비디오를 미리 업로드 하고 필요에 따라 미리 스트리밍하여야 하므로, Live video 평가에는 사용할 수 없음

RR 방식

  • 참조 비디오의 전체 영상 대신 특정 일부만 필요로 하는 알고리즘
    (참조 비디오의 일부 메타 정보가 필요하지만 전체 비트맵은 필요하지 않음)

  • FR 방식과 마찬가지로 Live video 평가에 제한이 있음

→ 두 가지 유형의 알고리즘 모두 IP 스트림의 메타 정보를 고려하여 향상된 품질 예측을 수행하며, 각각 ‘FR Hybrid 모델’, ‘RR Hybrid 모델’ 이라 함


< No reference 방식>

NR 방식

  • 참조 비디오에 access 하지 않고 수신된 비디오만으로 품질 평가
  • 암호화, 트랜스 코딩 및 re-scaling, re-packaging에 적합함
  • 참조 비디오 샘플을 제공하는 전용 비디오 서버와 독립적이며 Live video를 평가할 수 있음
  • Artefact와 유사한 컨텐츠가 실제 artefact와 혼동되는 등 특정 컨텐츠로 인한 잘못된 평가를 방지해야할 필요가 있음
  • IP 스트림의 메타 정보를 사용하여 예측 정확도를 높임 → ‘NR Hybrid 모델’

FRNR
Technology기준 신호와 처리 신호 직접 비교명시적 참조 없이 분석
Measurement TypeIntrusive: Reference가 필요Non-Intrusve: Reference 필요 X
Real-timeClip 길이 + Evaluation time간 결과 지연최소 버퍼링 및 Evaluation time간 결과 지연
Accuracy높지만 known source에만 작동중간 정도 (컨텐츠에 따라 다름)
LimitationsHigh resource requirements (CPU 및 스토리지)많은 사람들이 특정 artefact와 비슷한 컨텐츠를 artefact와 혼동
ImplementationTypically on WorkstationWorkstation or end terminal
System requirements충분한 CPU power 및 memoryFast capture devices

2) Bitstream Algorithm

  • IP 비트스트림을 사용하여 품질 추정
  • 수신기에서 디코딩된 비디오 신호나 참조 비디오 시퀀스를 사용하지 않음
  • 품질과 관련된 정보는 IP payload 정보, IP 메타 정보에서 파생됨
    • 암호화된 비트스트림이나 payload의 경우 메타정보만 사용 가능
    • 암호화되지 않은 컨텐츠는 비디오 payload 정보에도 access 및 분석 가능
  • 화면에 보이는 실제 비디오를 분석하지 않으며 비디오 버퍼, 플레이어 및 디코더 특성을 알고리즘 내부의 일반 모델로 시뮬레이션 함

→ Mid-point 측정 지점에서 수동적이고 non-intrusive한 네트워크 모니터링에 적용할 수 있음 (일반 분석 및 수동 비디오 네트워크 모니터링에 더 유용)


3) Parametric Algorithm

  • 실제 비디오나 오디오 신호를 기반으로 하지 않고, 전송 계층 및 클라이언트 매개 변수에 기초하여 비디오 품질을 측정

  • Input → 코덱, 코드화된 비트 전송률, 전송 오류 및 버퍼링에 대한 클라이언트 정보

  • 평균적인 비디오 컨텐츠 품질을 측정하도록 훈련됨

  • 실제 비디오에 대한 자세한 정보가 필요하지 않기 때문에 Live video를 평가할 수 없음

  • 암호화된 비트스트림만 사용할 수 있는 경우에도 적용 가능

    → 비트스트림에 대한 정보가 매우 제한된 비트스트림 모델로 간주


각 알고리즘의 출력은 서로 다른 조건에서 수집된 결과를 쉽게 비교할 수 있도록 1~5 까지의 MOS scale의 값이어야 한다.


5. Standardized algorithms for video quality prediction

비디오 품질 예측을 위한 여러 표준화된 알고리즘이 시행 중이며 최신 알고리즘들은 HD 해상도의 품질도 예측할 수 있다.


1) Bitstream based and Parametric Algorithms

현재 표준화된 비트스트림 기반 및 parametric 모델

  • Recommendations ITU-T P.1201.1/.2 Parametric, non-intrusive audiovisual media streaming quality [i.4] and [i.5].
  • Recommendations ITU-T P.1202.1/.2 Parametric non-intrusive bitstream assessment of video media streaming quality [i.6] and [i.7].
  • Recommendations ITU-T P.1203.1/.2/.3 Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport [i.8] and [i.9].

→ 모두 NR 방식이며 non-intrusive 모델도 있으므로 참조 비디오가 필요하지 않음


2) Image based Algorithms

현재 표준화된 이미지 기반 및 HD 지원 모델

  • Recommendations ITU-T J.343.1/.2 Image based no-reference hybrid algorithm for up to HD resolution [i.11] and [i.12].
  • Recommendations ITU-T J.343.3/.4 Image based reduced-reference hybrid algorithm for up to HD resolution [i.13] and [i.14].
  • Recommendations ITU-T J.343.5/.6 Image based full-reference hybrid algorithm for up to HD resolution [i.15] and [i.16].

→ 문서 번호의 마지막 숫자가 홀수인 경우는 암호화된 비트스트림, 짝수인 경우는 암호화되지 않은 비트스트림에 적용하는 모델을 나타냄


➕ Degradations and Metrics

지각적 비디오 품질 지표는 소비자가 직관적으로 이해할 수 있는 artefact를 식별할 수 있어야 하며, 목표로 하는 고유한 특성 저하 요소가 있어야 한다. 이를 통해 전체적인 품질 등급(ex.MOS)을 안정적으로 결정할 수 있도록 해야 한다.


1) Jerkiness

  • Smooth하게 보이지 않는 움직임의 지각적 metric (극단적인 경우에는 정지된 그림)
  • 네트워크 정체, 패킷 손실과 같은 전송 문제가 주요 원인
  • 인코더가 프레임을 삭제 / 프레임률이 낮거나 다양할 경우에도 발생할 수 있음
  • FR 및 NR 모델로 감지

2) Freezing

  • 네트워크 정체가 심하거나 무선 상태가 좋지 않은 경우 비디오가 일시 중지되며 프레임이 손실
  • FR 및 NR 모델로 감지

3) Blockiness

  • 모든 Block-DCT 기반 이미지 및 비디오 압축 기술에 공통적인 블록 구조의 지각적 측정
  • DCT는 프레임 내 8x8 블록에서 수행되며 각 블록의 계수는 개별적으로 양자화되어 인접 블록의 경계에서 불연속성이 발생함
  • Resulting pattern의 규칙성과 범위로 인하여 blocking 효과가 쉽게 눈에 띄게 됨
  • FR 및 NR 모델로 감지

4) Slice Error

  • 일반적으로 Slice 수는 이미지의 복잡성이 증가함에 따라 증가
  • FR 모델에서만 감지

5) Blurring

  • 비디오에서 미세한 디테일의 손실과 가장자리 얼룩을 측정하는 metric
  • FR 및 NR 모델로 감지

6) Ringing

  • Smooth region의 고대비 edge 주변에서 관찰되는 파동의 지각 측정
  • FR 모델에서만 감지

7) Noise

  • 가짜 픽셀 형태의 고주파 왜곡에 대한 지각 측정
  • Smooth region과 edge noise에서 가장 두드러짐
  • FR 모델에서만 감지

8) Colourfulness

  • 색상의 강도 또는 채도, 이미지에서 개별 색상의 확산 및 분포를 지각적으로 측정하는 metric
  • 압축이나 전송 손실로 인해 색상의 범위 및 채도가 저하될 수 있음
  • FR 및 NR 모델로 감지

9) MOS Prediction

  • 주관적 실험에서 비디오의 품질을 결정할 때 각 관찰자가 부여하는 품질 등급의 평균
  • FR과 NR metric 모두 MOS를 예측해야하며 이를 통해 전체 비디오 품질을 추정할 수 있음

FR vs NR 비교

FRNR
JerkinessOO
FreezingOO
BlockinessOO
Slice ErrorOX
BlurringOO
RingingOX
NoiseOX
ColourfulnessOO
MOS PredictionOO

0개의 댓글