ITU-T REC P.1203 / P.1204

SSONG·2022년 9월 27일
0

VQA

목록 보기
2/3

SERIES P: TELEPHONE TRANSMISSION QUALITY, TELEPHONE INSTALLATIONS, LOCAL LINE NETWORKS


0. Overview

  • 두 가지 모두 많은 주관적 테스트를 통해 표준화 과정을 검증하여, human score와 비교하여 높은 정확도를 보임
  • P.1203은 전반적인 품질 예측에 Stalling 같은 효과를 통합한 최초의 표준화 모델
  • P.1204의 모델, 그 중 특히 비트스트림 기반 모델인 P.1204.3는 VMAF 보다 우수한 성능을 보임

1. Background

1-1. Model Type

1) Planning models

  • 서비스에 대한 정보, 즉 실제로 발생하지 않은 가상 스트림에 대해서만 작동
  • 예를 들어 ISP는 허용 가능한 품질을 제공하기 위해 스트리밍 서비스에 필요한 대역폭을 추정할 수 있음

2) Parametric and bitstream-based models

  • 전송된 미디어 (예: 비디오 코덱, 비트레이트) 또는 실제 비트스트림을 설명하는 매개변수를 사용. “Parameter”가 주요 초점

3) Hybrid models

  • Parametric 모델을 Signal-based model과 결합

4) Signal-based models

  • Player의 디코딩된 신호 (예: 화면 캡쳐)를 픽셀로 사용해야 함 → NR 모델
  • RR 모델은 원본 소스에서 제한된 feature에 access 할 수 있으며, FR 모델은 소스 픽셀 전체에 대한 access 권한을 가짐

2. ITU-T Rec.P.1203

Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport

2-1. Overview

HTTP Adaptive Streaming (HAS) 서비스를 위한 QoE (Quality of Experience) 를 예측하는 세계 최초의 모델을 지정하는 표준 제품군

2017년에 출시되었으며 1개의 Main recommendation, 3개의 Sub recomendation으로 구성된다.

NR 방식의 비트스트림 기반 모델.


<구성>

  • ITU-T P.1203 : 신뢰할 수 있는 전송을 통한 Progressive download 및 Adaptive audiovisual streaming 서비스의 Parametric bitstream 기반 품질 평가
  • ITU-T P.1203.1 : 비디오 품질 추정 모듈 (단기, 초당 출력 정보 제공)
  • ITU-T P.1203.2 : 오디오 품질 추정 모듈 (단기, 초당 출력 정보 제공)
  • ITU-T P.1203.3 : Audiovisual 통합 및 최종 점수 통합. 30초 ~ 5분 사이의 시청 세션에 대해 기억된 품질 반영

대부분의 다른 품질 모델과 마찬가지로 MOS 관점에서 품질을 출력한다. (1: 나쁜 품질 ~ 5: 우수)


<차별점>

  • PSNR, SSIM 또는 VMAF와 같은 비디오 전용 품질을 계산
  • 오디오와 비디오를 통합
  • 초기 Loading delay와 전체 품질 예측에 Stalling을 고려 → 대부분의 비디오 품질 모델은 시간에 따른 품질 변동을 통합하지 않고, 전체적인 MOS에 중요한 영향을 미치는 초기 Loading이나 Stalling의 영향을 처리할 수 없음
  • Visual artifacts가 덜 보여 더 높은 MOS 값을 가지는 PC/TV와 모바일 비디오 시청의 차이를 고려

ITU-T P.1203은 최대 1080p HD의 해상도 / 최대 30fps의 프레임 속도 / 최대 5분 길이의 시퀀스의 모바일 장치, 노트북, PC 또는 TV의 모든 유형의 비디오 스트리밍에 사용할 수 있다.

비디오는 H.264 코덱으로 코딩되어야하며 다양한 오디오 코덱 (AAC 포함) 이 지원된다.


2-2. Model Structure

ITU-T P.1203은 전체 품 측정의 각각 다른 측면을 계산하는 여러 모듈로 구성되어 있다. (단기 오디오 및 비디오 품질 추정을 위한 모듈들로 구성)

1) P.1203.1 및 P.1203.2 표준

  • 최대 10초 길이의 짧은 segment에서 비디오 및 오디오 품질을 예측
  • 이러한 모델은 메타데이터 및 비트스트림 기반
  • 품질 예측은 Lossy compression, Temporal or spatial down-scalig, 즉 서버 측의 인코딩에 의해 야기되는 비디오 스트림에서 발생할 수 있는 degradation의 영향을 포함함
  • 미디어 품질 점수는 P.1203.1 통합 모듈에 1초 단위로 제공됨

2) P.1203.3 표준

  • 최대 5분 길이의 전체 비디오 세션의 QoE를 예측
  • P.1203.1과 P.1203.2의 기존 단기 점수를 Input으로 받음
  • 최종 점수에는 Rebuffering 이벤트 (초기 로딩 포함) 로 인한 Stalling 효과가 포함됨

2-3. Modes of Operation

비디오 품질 추정 모듈인 P.1203.1 Audiovisual stream의 가용 정보와 필요, 사용 가능한 Computational resources에 따라 4가지 작동 모드를 제공한다.

작동 모드가 높아질수록 보다 계산 집약적이고 심층적인 비트스트림 입력 데이터가 필요하지만, 그만큼 더 높은 예측 정확도를 가진다. (입력 정보와 모델 알고리즘의 복잡성에 따라 서로 다른 모델 생성)

1) Mode 0

  • 가장 간단한 작동 모드
  • Progressive download 및 Adaptive audiovisual streaming 중에 사용할 수 있는 메타 정보로부터 얻은 정보
  • 오디오/비디오 코덱, 오디오/비디오 비트레이트, 비디오 해상도, 초당 프레임 입력
  • HAS manifests에서 사용할 수 있는 정보와 함께 사용 가능

2) Mode 1

  • Mode 0의 기본 데이터에 A ccess 하여 얻은 정보
  • 패킷 헤더 검사에 기반한 추가 비디오 및 오디오 프레임 정보

3) Mode 2

  • 비트스트림 자체에 접근할 수 있으며, Computing effort를 줄이기 위해 stream의 2%에만 접근
  • Mode 1의 모든 정보, 심층 패킷 검사 및 부분 비트스트림 구문 분석 기반

4) Mode 3

  • Mode 1의 모든 정보 및 비트스트림 구문 분석을 기반으로 한 전체 stream 정보

2-4. 주요 적용 분야

작동 및 유지 보수를 위한 전송 품질 모니터링

  • 특정 IP 기반 시청각 서비스에 대한 서비스 품질 모니터링
  • 다양한 서비스 구현 벤치마킹 (다른 인코더 구현의 직접적인 벤치마킹에는 사용 불가)

2-5. Model Perofrmance

ITU-T P.1203은 PSNR이나 VMAF와 같은 다른 모델들과 쉽게 비교할 수는 없다.

(새로운 아키텍처를 가지고 있고, PSNR과 VMAF는 예측에 있어 Stalling이나 Qualiyt fluctuation를 고려하지 않기 때문에)

  • ITU-T P.1203은 사용된 모드에 따라 0.81~0.89의 피어슨 상관관계를 제공
  • RMSE (Root Mean Square Error)는 0.47~0.33 사이 → 숫자가 작을수록 좋음

<오픈 소스 데이터 세트를 사용한 4가지 모드의 성능 검증>


3. ITU-T Rec.P.1204

Video quality assessment of streaming services over reliable transport for resoultions up to 4K

3-1. Overview

VQEG와 협력하여 ITU-T P.1203의 후속 모델로 개발된 차세대 비디오 품질 모델로 2019년에 발행됨.

<구성>

  • ITU-T P.1204.1 : 전송 정보에 Access (개발 중)
  • ITU-T P.1204.2 : 비디오 프레임 정보에 Access (개발 중)
  • ITU-T P.1204.3 : 비트스트림 기반 모델로 비트스트림 정보에 Access
  • ITU-T P.1204.4 : 픽셀 기반 모델 (FR) 로 FR 및 RR 참조 픽셀 정보에 Access
  • ITU-T P.1204.5 : 하이브리드 모델로 전송 및 수신 픽셀 정보에 대해 Access → 기존의 메타데이터 및 비트스트림 기반 모델 대신, 동일한 제품군으로 표준화된 픽셀 기반 및 하이브리드 모델이 새로운 유형으로 고려됨

새롭게 개발된 표준은 이전 개발 모델의 범위를 강화하여 새로운 범위를 포함함.

  • 4K/UHD 비디오 해상도
  • 새 코덱 (H.265/HEVC, VP9 지원 추가)
  • Higher frame rates (최대 60fps)
  • Higer bit depths (최대 10비트)

3-2. Model Input & Output Info

각 모델의 Input 및 Output 정보는 다음과 같다.

Model Input Info

1) I.13 → Video coding information

DescriptionValuesFrequencyAvailable to models (ITU-T P.1204.X)
Video bitrateBitrate in kilobits per secondPer media chunk3, 5
Video frame rateFrame rate in frames per secondPer media chunk3, 5
Segment durationDuration in secondsPer media chunk3, 5
Video encoding resolutionNumber of pixels (W X H) in transmitted videoPer media chunk3, 5
Video codec and profileH.264 (MPEG-4 Part10): Constrained Baseline, Main, Hi, Hi10, Hi422 / H.265: Main, Main10, RExt. / VP9: 0,1,2,3Per media chunk3, 5
Video frame numberInteger, starting at 1, denoting the frame sequence number in encoding orderPer video frame3
Video frame durationDuration of the frame in secondsPer video frame3
Frame presentation timestampThe frame presentation timestampPer video frame3
Frame decoding timestampThe frame decoding timestampPer video frame3
Video frame sizeThe size of the encoded video frame in bytesPer video frame3
Type of each picture“I”/”P”/”B” for ITU-T P.1204.3Per video frame3
Video bitstreamEncoded video bytes for the framePer video frame3
Video pixel format8-bit or 10-bit together with 4:2:2 or 4:2:0 chroma subsamplingPer media chunk3

2) I.15 → Degraded video pixel information

DescriptionValuesFrequencyAvailable to models (ITU-T P.1204.X)
Degraded videoThe raw pixels (YUV file including metadata required for parsing; width, height, frame rate, and pixel format) of the processed video, i.e., the video decoded and upscaled to display resolution without buffering or stalling. The frame information in I.16 and I.15 is synchronized, i.e., no frame misalignements are presentPer media chunk4, 5

3) I.16 → Reference video pixel information

DescriptionValuesFrequencyAvailable to models (ITU-T P.1204.X)
Reference video informationThe reference-side information extraction module taskes as input the reference video and outputs the side information file. The reference model side channel bandwidth limit is 256 kbit/s. Thus, the side information of the reference model for a video sequence v is stored in a file with size at most 256/8 * tv kB, where tv is the duration of video v in seconds.Per media chunk4

Model Output Info

1) O.22

  • Video coding quality per second (per-1-second scroes provided per chunk and on a quality scale of 1 to 5)

2) O.27

  • Final video session quality score (single score for the chunk, on a quality scale of 1 to 5)

3-3. 주요 적용 분야

  • 특정 IP 기반 시청각 서비스에 대한 서비스 품질 모니터링
  • 인코딩 비트레이트, 인코딩 해상도 및 인코딩 프레임률로 인한 영향을 고려한 라이브 네트워크의 성능 및 품질 평가
  • 비디오 시스템 Lab test
  • 서비스 구현 벤치마킹
  • 인코더 구현 벤치마킹 (FR/RR 기준 픽셀 기반 모델 유형만 사용 가능)
  • 트랜스코딩 솔루션 평가

3-4. ITU-T P.1204.3

원본 파일에 Access 할 필요가 없는 비트스트림 기반 모델로 애플리케이션이 훨씬 단순하고 리소스 효율성이 높아지며, 비디오 디코딩이 필요하지 않다.

  • 모델 자체는 비디오 비트스트림에서 추출한 feature 에서 작동
  • 예측 정확도를 향상시키기 위해 비디오 품질을 결정하는 고전적인 접근 방식과 머신 러닝을 결합
  • 비트스트림은 Parsing 되고 Quantization parameters, Motion vectors, Frame size 등에 대한 특징이 추출됨
  • 이 후 이러한 feature들을 비디오 시퀀스당 최종 MOS에 통합

3-5. Model Performance

ITU-T P.1204 모델은 여러 주관적 데이터베이스를 사용하여 검증되었다.

→ 모델 개발을 위해 13개의 훈련 데이터베이스 생성 / 성능 검증을 위해 13개의 검증 데이터베이스 사용


<공식 테스트 환경>

1) Database

  • 각 데이터베이스는 PVS set로 구성
  • 각 데이터베이스의 소스 비디오는 6~9초까지 지속됨
  • 각 소스 비디오는 데이터베이스 내에서 최대 6번 반복됨
  • 각 데이터베이스의 PVS 수는 약 200개로 총 5002개의 PVS가 사용됨

2) Video

  • 각각 libx264, 265 또는 libvpx VP9 코덱 구현을 사용하여 H.264, H.265 또는 VP9으로 인코딩
  • 일부 비디오는 자주 사용되는 온라인 스트리밍 서비스를 통해 인코딩 됨

3) Device

  • 26개 테스트 중 12개는 UHD PC 모니터를 사용하여 재생
  • 6개는 UHD TV, 7개는 5~6인치 디스플레이를 가진 MO, 1개는 10인치 태블릿에서 수행

위와 같은 Setting으로 진행한 공식 ITU-T 데이터베이스에서 파생된 데이터베이스 및 모델 성능은 공개 되어있지 않다.

이에 대한 대안으로 TU Ilmenau에서 제공한 심층 분석 내용을 첨부한다.


<ITU-T P.1204.3 모델 성능 분석 테스트>

  • PSNR, SSIM, MS-SSIM 및 VMAF와 같은 인기 Metric과 비교하여 P.1204.3의 성능에 대한 심층 분석 제공

  • 공개적으로 사용 가능한 데이터세트인 AVT-VQDB-UHD1 사용

    → 총 756개의 평가 시퀀스를 가진 4개의 주관적 테스트로 구성. 총 19,620개의 Human rating

    Test 1Test 2Test 3Test 4
    Sources6668
    Codecs3 (H.264, H.265, VP9)2 (H.264, H.265)2 (H.265, VP9)1 (H.264)
    Resolutions4 (360p, 720p, 1080p, 2160p)4 (360p, 720p, 1080p, 2160p)4 (360p, 720p, 1080p, 2160p)6 (360p, 480p, 720p, 1080p, 1440p, 2160p)
    FPS1 (60fps)1 (60fps)1 (60fps)4 (15, 24, 30, 60fps)
    PVSs180192192192
    Participants29242625
    Display65” (Panasonic)55” (LG OLED)55” (LG OLED)55” (LG OLED)

ITU-T P.1204.3 모델은 4개 데이터베이스의 모든 시퀀스에서 실행되었으며, 동일한 시퀀스에 대해 PSNR, SSIM, MS-SSIM 및 VMAF가 계산되었다.


<테스트 결과>

  • P.1204.3은 0.94의 매우 높은 피어슨 상관관계로 다른 모든 Metric을 능가
  • 다른 Metric 중에서는 VMAF만 0.87로 허용 가능한 성능에 도달
  • PSNR과 (MS-)SSIM은 비디오 시퀀스 품질 평가에 적합하지 않음

0개의 댓글