1) Planning models
2) Parametric and bitstream-based models
3) Hybrid models
4) Signal-based models
Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport
HTTP Adaptive Streaming (HAS) 서비스를 위한 QoE (Quality of Experience) 를 예측하는 세계 최초의 모델을 지정하는 표준 제품군
2017년에 출시되었으며 1개의 Main recommendation, 3개의 Sub recomendation으로 구성된다.
NR 방식의 비트스트림 기반 모델.
<구성>
대부분의 다른 품질 모델과 마찬가지로 MOS 관점에서 품질을 출력한다. (1: 나쁜 품질 ~ 5: 우수)
<차별점>
ITU-T P.1203은 최대 1080p HD의 해상도 / 최대 30fps의 프레임 속도 / 최대 5분 길이의 시퀀스의 모바일 장치, 노트북, PC 또는 TV의 모든 유형의 비디오 스트리밍에 사용할 수 있다.
비디오는 H.264 코덱으로 코딩되어야하며 다양한 오디오 코덱 (AAC 포함) 이 지원된다.
ITU-T P.1203은 전체 품 측정의 각각 다른 측면을 계산하는 여러 모듈로 구성되어 있다. (단기 오디오 및 비디오 품질 추정을 위한 모듈들로 구성)
1) P.1203.1 및 P.1203.2 표준
2) P.1203.3 표준
비디오 품질 추정 모듈인 P.1203.1 Audiovisual stream의 가용 정보와 필요, 사용 가능한 Computational resources에 따라 4가지 작동 모드를 제공한다.
작동 모드가 높아질수록 보다 계산 집약적이고 심층적인 비트스트림 입력 데이터가 필요하지만, 그만큼 더 높은 예측 정확도를 가진다. (입력 정보와 모델 알고리즘의 복잡성에 따라 서로 다른 모델 생성)
1) Mode 0
2) Mode 1
3) Mode 2
4) Mode 3
작동 및 유지 보수를 위한 전송 품질 모니터링
ITU-T P.1203은 PSNR이나 VMAF와 같은 다른 모델들과 쉽게 비교할 수는 없다.
(새로운 아키텍처를 가지고 있고, PSNR과 VMAF는 예측에 있어 Stalling이나 Qualiyt fluctuation를 고려하지 않기 때문에)
<오픈 소스 데이터 세트를 사용한 4가지 모드의 성능 검증>
Video quality assessment of streaming services over reliable transport for resoultions up to 4K
VQEG와 협력하여 ITU-T P.1203의 후속 모델로 개발된 차세대 비디오 품질 모델로 2019년에 발행됨.
<구성>
새롭게 개발된 표준은 이전 개발 모델의 범위를 강화하여 새로운 범위를 포함함.
각 모델의 Input 및 Output 정보는 다음과 같다.
1) I.13 → Video coding information
Description | Values | Frequency | Available to models (ITU-T P.1204.X) |
---|---|---|---|
Video bitrate | Bitrate in kilobits per second | Per media chunk | 3, 5 |
Video frame rate | Frame rate in frames per second | Per media chunk | 3, 5 |
Segment duration | Duration in seconds | Per media chunk | 3, 5 |
Video encoding resolution | Number of pixels (W X H) in transmitted video | Per media chunk | 3, 5 |
Video codec and profile | H.264 (MPEG-4 Part10): Constrained Baseline, Main, Hi, Hi10, Hi422 / H.265: Main, Main10, RExt. / VP9: 0,1,2,3 | Per media chunk | 3, 5 |
Video frame number | Integer, starting at 1, denoting the frame sequence number in encoding order | Per video frame | 3 |
Video frame duration | Duration of the frame in seconds | Per video frame | 3 |
Frame presentation timestamp | The frame presentation timestamp | Per video frame | 3 |
Frame decoding timestamp | The frame decoding timestamp | Per video frame | 3 |
Video frame size | The size of the encoded video frame in bytes | Per video frame | 3 |
Type of each picture | “I”/”P”/”B” for ITU-T P.1204.3 | Per video frame | 3 |
Video bitstream | Encoded video bytes for the frame | Per video frame | 3 |
Video pixel format | 8-bit or 10-bit together with 4:2:2 or 4:2:0 chroma subsampling | Per media chunk | 3 |
2) I.15 → Degraded video pixel information
Description | Values | Frequency | Available to models (ITU-T P.1204.X) |
---|---|---|---|
Degraded video | The raw pixels (YUV file including metadata required for parsing; width, height, frame rate, and pixel format) of the processed video, i.e., the video decoded and upscaled to display resolution without buffering or stalling. The frame information in I.16 and I.15 is synchronized, i.e., no frame misalignements are present | Per media chunk | 4, 5 |
3) I.16 → Reference video pixel information
Description | Values | Frequency | Available to models (ITU-T P.1204.X) |
---|---|---|---|
Reference video information | The reference-side information extraction module taskes as input the reference video and outputs the side information file. The reference model side channel bandwidth limit is 256 kbit/s. Thus, the side information of the reference model for a video sequence v is stored in a file with size at most 256/8 * tv kB, where tv is the duration of video v in seconds. | Per media chunk | 4 |
1) O.22
2) O.27
원본 파일에 Access 할 필요가 없는 비트스트림 기반 모델로 애플리케이션이 훨씬 단순하고 리소스 효율성이 높아지며, 비디오 디코딩이 필요하지 않다.
ITU-T P.1204 모델은 여러 주관적 데이터베이스를 사용하여 검증되었다.
→ 모델 개발을 위해 13개의 훈련 데이터베이스 생성 / 성능 검증을 위해 13개의 검증 데이터베이스 사용
<공식 테스트 환경>
1) Database
2) Video
3) Device
위와 같은 Setting으로 진행한 공식 ITU-T 데이터베이스에서 파생된 데이터베이스 및 모델 성능은 공개 되어있지 않다.
이에 대한 대안으로 TU Ilmenau에서 제공한 심층 분석 내용을 첨부한다.
<ITU-T P.1204.3 모델 성능 분석 테스트>
PSNR, SSIM, MS-SSIM 및 VMAF와 같은 인기 Metric과 비교하여 P.1204.3의 성능에 대한 심층 분석 제공
공개적으로 사용 가능한 데이터세트인 AVT-VQDB-UHD1 사용
→ 총 756개의 평가 시퀀스를 가진 4개의 주관적 테스트로 구성. 총 19,620개의 Human rating
Test 1 | Test 2 | Test 3 | Test 4 | |
---|---|---|---|---|
Sources | 6 | 6 | 6 | 8 |
Codecs | 3 (H.264, H.265, VP9) | 2 (H.264, H.265) | 2 (H.265, VP9) | 1 (H.264) |
Resolutions | 4 (360p, 720p, 1080p, 2160p) | 4 (360p, 720p, 1080p, 2160p) | 4 (360p, 720p, 1080p, 2160p) | 6 (360p, 480p, 720p, 1080p, 1440p, 2160p) |
FPS | 1 (60fps) | 1 (60fps) | 1 (60fps) | 4 (15, 24, 30, 60fps) |
PVSs | 180 | 192 | 192 | 192 |
Participants | 29 | 24 | 26 | 25 |
Display | 65” (Panasonic) | 55” (LG OLED) | 55” (LG OLED) | 55” (LG OLED) |
ITU-T P.1204.3 모델은 4개 데이터베이스의 모든 시퀀스에서 실행되었으며, 동일한 시퀀스에 대해 PSNR, SSIM, MS-SSIM 및 VMAF가 계산되었다.
<테스트 결과>