ITU-T REC P.1203 / P.1204

SSONG·2022년 9월 27일

ITU-T VQA

VQA

목록 보기

2/3

SERIES P: TELEPHONE TRANSMISSION QUALITY, TELEPHONE INSTALLATIONS, LOCAL LINE NETWORKS

0. Overview

두 가지 모두 많은 주관적 테스트를 통해 표준화 과정을 검증하여, human score와 비교하여 높은 정확도를 보임
P.1203은 전반적인 품질 예측에 Stalling 같은 효과를 통합한 최초의 표준화 모델
P.1204의 모델, 그 중 특히 비트스트림 기반 모델인 P.1204.3는 VMAF 보다 우수한 성능을 보임

1. Background

1-1. Model Type

1) Planning models

서비스에 대한 정보, 즉 실제로 발생하지 않은 가상 스트림에 대해서만 작동
예를 들어 ISP는 허용 가능한 품질을 제공하기 위해 스트리밍 서비스에 필요한 대역폭을 추정할 수 있음

2) Parametric and bitstream-based models

전송된 미디어 (예: 비디오 코덱, 비트레이트) 또는 실제 비트스트림을 설명하는 매개변수를 사용. “Parameter”가 주요 초점

3) Hybrid models

Parametric 모델을 Signal-based model과 결합

4) Signal-based models

Player의 디코딩된 신호 (예: 화면 캡쳐)를 픽셀로 사용해야 함 → NR 모델
RR 모델은 원본 소스에서 제한된 feature에 access 할 수 있으며, FR 모델은 소스 픽셀 전체에 대한 access 권한을 가짐

2. ITU-T Rec.P.1203

Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport

2-1. Overview

HTTP Adaptive Streaming (HAS) 서비스를 위한 QoE (Quality of Experience) 를 예측하는 세계 최초의 모델을 지정하는 표준 제품군

2017년에 출시되었으며 1개의 Main recommendation, 3개의 Sub recomendation으로 구성된다.

NR 방식의 비트스트림 기반 모델.

<구성>

ITU-T P.1203 : 신뢰할 수 있는 전송을 통한 Progressive download 및 Adaptive audiovisual streaming 서비스의 Parametric bitstream 기반 품질 평가
ITU-T P.1203.1 : 비디오 품질 추정 모듈 (단기, 초당 출력 정보 제공)
ITU-T P.1203.2 : 오디오 품질 추정 모듈 (단기, 초당 출력 정보 제공)
ITU-T P.1203.3 : Audiovisual 통합 및 최종 점수 통합. 30초 ~ 5분 사이의 시청 세션에 대해 기억된 품질 반영

대부분의 다른 품질 모델과 마찬가지로 MOS 관점에서 품질을 출력한다. (1: 나쁜 품질 ~ 5: 우수)

<차별점>

PSNR, SSIM 또는 VMAF와 같은 비디오 전용 품질을 계산
오디오와 비디오를 통합
초기 Loading delay와 전체 품질 예측에 Stalling을 고려 → 대부분의 비디오 품질 모델은 시간에 따른 품질 변동을 통합하지 않고, 전체적인 MOS에 중요한 영향을 미치는 초기 Loading이나 Stalling의 영향을 처리할 수 없음
Visual artifacts가 덜 보여 더 높은 MOS 값을 가지는 PC/TV와 모바일 비디오 시청의 차이를 고려

ITU-T P.1203은 최대 1080p HD의 해상도 / 최대 30fps의 프레임 속도 / 최대 5분 길이의 시퀀스의 모바일 장치, 노트북, PC 또는 TV의 모든 유형의 비디오 스트리밍에 사용할 수 있다.

비디오는 H.264 코덱으로 코딩되어야하며 다양한 오디오 코덱 (AAC 포함) 이 지원된다.

2-2. Model Structure

ITU-T P.1203은 전체 품 측정의 각각 다른 측면을 계산하는 여러 모듈로 구성되어 있다. (단기 오디오 및 비디오 품질 추정을 위한 모듈들로 구성)

1) P.1203.1 및 P.1203.2 표준

최대 10초 길이의 짧은 segment에서 비디오 및 오디오 품질을 예측
이러한 모델은 메타데이터 및 비트스트림 기반
품질 예측은 Lossy compression, Temporal or spatial down-scalig, 즉 서버 측의 인코딩에 의해 야기되는 비디오 스트림에서 발생할 수 있는 degradation의 영향을 포함함
미디어 품질 점수는 P.1203.1 통합 모듈에 1초 단위로 제공됨

2) P.1203.3 표준

최대 5분 길이의 전체 비디오 세션의 QoE를 예측
P.1203.1과 P.1203.2의 기존 단기 점수를 Input으로 받음
최종 점수에는 Rebuffering 이벤트 (초기 로딩 포함) 로 인한 Stalling 효과가 포함됨

2-3. Modes of Operation

비디오 품질 추정 모듈인 P.1203.1 Audiovisual stream의 가용 정보와 필요, 사용 가능한 Computational resources에 따라 4가지 작동 모드를 제공한다.

작동 모드가 높아질수록 보다 계산 집약적이고 심층적인 비트스트림 입력 데이터가 필요하지만, 그만큼 더 높은 예측 정확도를 가진다. (입력 정보와 모델 알고리즘의 복잡성에 따라 서로 다른 모델 생성)

1) Mode 0

가장 간단한 작동 모드
Progressive download 및 Adaptive audiovisual streaming 중에 사용할 수 있는 메타 정보로부터 얻은 정보
오디오/비디오 코덱, 오디오/비디오 비트레이트, 비디오 해상도, 초당 프레임 입력
HAS manifests에서 사용할 수 있는 정보와 함께 사용 가능

2) Mode 1

Mode 0의 기본 데이터에 A ccess 하여 얻은 정보
패킷 헤더 검사에 기반한 추가 비디오 및 오디오 프레임 정보

3) Mode 2

비트스트림 자체에 접근할 수 있으며, Computing effort를 줄이기 위해 stream의 2%에만 접근
Mode 1의 모든 정보, 심층 패킷 검사 및 부분 비트스트림 구문 분석 기반

4) Mode 3

Mode 1의 모든 정보 및 비트스트림 구문 분석을 기반으로 한 전체 stream 정보

2-4. 주요 적용 분야

작동 및 유지 보수를 위한 전송 품질 모니터링

특정 IP 기반 시청각 서비스에 대한 서비스 품질 모니터링
다양한 서비스 구현 벤치마킹 (다른 인코더 구현의 직접적인 벤치마킹에는 사용 불가)

2-5. Model Perofrmance

ITU-T P.1203은 PSNR이나 VMAF와 같은 다른 모델들과 쉽게 비교할 수는 없다.

(새로운 아키텍처를 가지고 있고, PSNR과 VMAF는 예측에 있어 Stalling이나 Qualiyt fluctuation를 고려하지 않기 때문에)

ITU-T P.1203은 사용된 모드에 따라 0.81~0.89의 피어슨 상관관계를 제공
RMSE (Root Mean Square Error)는 0.47~0.33 사이 → 숫자가 작을수록 좋음

<오픈 소스 데이터 세트를 사용한 4가지 모드의 성능 검증>

3. ITU-T Rec.P.1204

Video quality assessment of streaming services over reliable transport for resoultions up to 4K

3-1. Overview

VQEG와 협력하여 ITU-T P.1203의 후속 모델로 개발된 차세대 비디오 품질 모델로 2019년에 발행됨.

<구성>

ITU-T P.1204.1 : 전송 정보에 Access (개발 중)
ITU-T P.1204.2 : 비디오 프레임 정보에 Access (개발 중)
ITU-T P.1204.3 : 비트스트림 기반 모델로 비트스트림 정보에 Access
ITU-T P.1204.4 : 픽셀 기반 모델 (FR) 로 FR 및 RR 참조 픽셀 정보에 Access
ITU-T P.1204.5 : 하이브리드 모델로 전송 및 수신 픽셀 정보에 대해 Access → 기존의 메타데이터 및 비트스트림 기반 모델 대신, 동일한 제품군으로 표준화된 픽셀 기반 및 하이브리드 모델이 새로운 유형으로 고려됨

새롭게 개발된 표준은 이전 개발 모델의 범위를 강화하여 새로운 범위를 포함함.

4K/UHD 비디오 해상도
새 코덱 (H.265/HEVC, VP9 지원 추가)
Higher frame rates (최대 60fps)
Higer bit depths (최대 10비트)

3-2. Model Input & Output Info

각 모델의 Input 및 Output 정보는 다음과 같다.

Model Input Info

1) I.13 → Video coding information

Description	Values	Frequency	Available to models (ITU-T P.1204.X)
Video bitrate	Bitrate in kilobits per second	Per media chunk	3, 5
Video frame rate	Frame rate in frames per second	Per media chunk	3, 5
Segment duration	Duration in seconds	Per media chunk	3, 5
Video encoding resolution	Number of pixels (W X H) in transmitted video	Per media chunk	3, 5
Video codec and profile	H.264 (MPEG-4 Part10): Constrained Baseline, Main, Hi, Hi10, Hi422 / H.265: Main, Main10, RExt. / VP9: 0,1,2,3	Per media chunk	3, 5
Video frame number	Integer, starting at 1, denoting the frame sequence number in encoding order	Per video frame	3
Video frame duration	Duration of the frame in seconds	Per video frame	3
Frame presentation timestamp	The frame presentation timestamp	Per video frame	3
Frame decoding timestamp	The frame decoding timestamp	Per video frame	3
Video frame size	The size of the encoded video frame in bytes	Per video frame	3
Type of each picture	“I”/”P”/”B” for ITU-T P.1204.3	Per video frame	3
Video bitstream	Encoded video bytes for the frame	Per video frame	3
Video pixel format	8-bit or 10-bit together with 4:2:2 or 4:2:0 chroma subsampling	Per media chunk	3

2) I.15 → Degraded video pixel information

Description	Values	Frequency	Available to models (ITU-T P.1204.X)
Degraded video	The raw pixels (YUV file including metadata required for parsing; width, height, frame rate, and pixel format) of the processed video, i.e., the video decoded and upscaled to display resolution without buffering or stalling. The frame information in I.16 and I.15 is synchronized, i.e., no frame misalignements are present	Per media chunk	4, 5

3) I.16 → Reference video pixel information

Description	Values	Frequency	Available to models (ITU-T P.1204.X)
Reference video information	The reference-side information extraction module taskes as input the reference video and outputs the side information file. The reference model side channel bandwidth limit is 256 kbit/s. Thus, the side information of the reference model for a video sequence v is stored in a file with size at most 256/8 * tv kB, where tv is the duration of video v in seconds.	Per media chunk	4

Model Output Info

1) O.22

Video coding quality per second (per-1-second scroes provided per chunk and on a quality scale of 1 to 5)

2) O.27

Final video session quality score (single score for the chunk, on a quality scale of 1 to 5)

3-3. 주요 적용 분야

특정 IP 기반 시청각 서비스에 대한 서비스 품질 모니터링
인코딩 비트레이트, 인코딩 해상도 및 인코딩 프레임률로 인한 영향을 고려한 라이브 네트워크의 성능 및 품질 평가
비디오 시스템 Lab test
서비스 구현 벤치마킹
인코더 구현 벤치마킹 (FR/RR 기준 픽셀 기반 모델 유형만 사용 가능)
트랜스코딩 솔루션 평가

3-4. ITU-T P.1204.3

원본 파일에 Access 할 필요가 없는 비트스트림 기반 모델로 애플리케이션이 훨씬 단순하고 리소스 효율성이 높아지며, 비디오 디코딩이 필요하지 않다.

모델 자체는 비디오 비트스트림에서 추출한 feature 에서 작동
예측 정확도를 향상시키기 위해 비디오 품질을 결정하는 고전적인 접근 방식과 머신 러닝을 결합
비트스트림은 Parsing 되고 Quantization parameters, Motion vectors, Frame size 등에 대한 특징이 추출됨
이 후 이러한 feature들을 비디오 시퀀스당 최종 MOS에 통합

3-5. Model Performance

ITU-T P.1204 모델은 여러 주관적 데이터베이스를 사용하여 검증되었다.

→ 모델 개발을 위해 13개의 훈련 데이터베이스 생성 / 성능 검증을 위해 13개의 검증 데이터베이스 사용

<공식 테스트 환경>

1) Database

각 데이터베이스는 PVS set로 구성
각 데이터베이스의 소스 비디오는 6~9초까지 지속됨
각 소스 비디오는 데이터베이스 내에서 최대 6번 반복됨
각 데이터베이스의 PVS 수는 약 200개로 총 5002개의 PVS가 사용됨

2) Video

각각 libx264, 265 또는 libvpx VP9 코덱 구현을 사용하여 H.264, H.265 또는 VP9으로 인코딩
일부 비디오는 자주 사용되는 온라인 스트리밍 서비스를 통해 인코딩 됨

3) Device

26개 테스트 중 12개는 UHD PC 모니터를 사용하여 재생
6개는 UHD TV, 7개는 5~6인치 디스플레이를 가진 MO, 1개는 10인치 태블릿에서 수행

위와 같은 Setting으로 진행한 공식 ITU-T 데이터베이스에서 파생된 데이터베이스 및 모델 성능은 공개 되어있지 않다.

이에 대한 대안으로 TU Ilmenau에서 제공한 심층 분석 내용을 첨부한다.

<ITU-T P.1204.3 모델 성능 분석 테스트>

PSNR, SSIM, MS-SSIM 및 VMAF와 같은 인기 Metric과 비교하여 P.1204.3의 성능에 대한 심층 분석 제공

공개적으로 사용 가능한 데이터세트인 AVT-VQDB-UHD1 사용

→ 총 756개의 평가 시퀀스를 가진 4개의 주관적 테스트로 구성. 총 19,620개의 Human rating

	Test 1	Test 2	Test 3	Test 4
Sources	6	6	6	8
Codecs	3 (H.264, H.265, VP9)	2 (H.264, H.265)	2 (H.265, VP9)	1 (H.264)
Resolutions	4 (360p, 720p, 1080p, 2160p)	4 (360p, 720p, 1080p, 2160p)	4 (360p, 720p, 1080p, 2160p)	6 (360p, 480p, 720p, 1080p, 1440p, 2160p)
FPS	1 (60fps)	1 (60fps)	1 (60fps)	4 (15, 24, 30, 60fps)
PVSs	180	192	192	192
Participants	29	24	26	25
Display	65” (Panasonic)	55” (LG OLED)	55” (LG OLED)	55” (LG OLED)

ITU-T P.1204.3 모델은 4개 데이터베이스의 모든 시퀀스에서 실행되었으며, 동일한 시퀀스에 대해 PSNR, SSIM, MS-SSIM 및 VMAF가 계산되었다.

<테스트 결과>

P.1204.3은 0.94의 매우 높은 피어슨 상관관계로 다른 모든 Metric을 능가
다른 Metric 중에서는 VMAF만 0.87로 허용 가능한 성능에 도달
PSNR과 (MS-)SSIM은 비디오 시퀀스 품질 평가에 적합하지 않음

SSONG

이전 포스트

ITU-T J.343.1/2 문서 요약

다음 포스트