(paper review) Age Suitability Rating: Predicting the MPAA Rating Based on Movie Dialogues

uchan·2021년 7월 29일
0

저번 시간에 이어 movie rating에 관한 논문 두번째 리뷰를 작성한다.
저번에는 multi-modality(text, audio, video)를 이용하여 binary-classification를 진행했다면 이번에는 movie Dialogues(text)를 이용하여 age rating(multi-classification)를 연구한 논문을 소개하고자 한다. 문제정의를 구체적으로 정의하여 class를 inference하는 연구기에 나의 연구에 도움이 될거같다.

introduce

저번 논문과 동일하게 MPAA rating guideline에 따라 class를 분류한다. 해당 논문에서는 오로지 movie script만을 사용하여 predict를 진행한다. 또한 class predict를 할 때 genre, conversation with characters 등을 사용하여 퍼포먼스를 향상시킨다. 퍼포먼스 측정은 F1-score를 통해 진행한다.

Related Work

해당 논문에서는 필자들의 주제와 맞아떨어지는 선례 연구들을 찾을수 없었고, 대신 movie script를 사용하여 폭력성을 분류한 연구들을 소개했다. RNN-based classification model을 사용하여 진행하였고, 해당 논문 또한 비슷한 방식으로 진행한다. 또한 문장에서 공격성 및 폭력성을 인식하는 speech detection에 대한 연구도 소개하고 있다.

Dataset

해당 논문에서는 MPAA rating과 관련하여 G, PG, PG-13, R, NC-17로 카테고리를 나누고 데이터세트는 다음과 같이 모았다.

출처 : paper[1]의 table 1
보는 것과 같이 NC-17에 대한 데이터가 적기 때문에 해당 논문에서는 이를 무시하기로 하였다(클래스 불균형으로 인한 퍼포먼스 저하를 이유로 그러한 것 같다).
또한 MPAA는 violence, language, substance, nudity, sexual 에 기반하여 정의되는데 MPAA에서 특별히 제공하지 않아 IMDB사이트에서 직접 다음과 같이 수집하였다.
1) violence
2) sex & nudity
3) frightening and Intense scene
4) profanity
5) alcohol, drugs & smoking
해당 레이블은 각각 None, Mild, moderate, Severe의 클래스를 지니고 있다.
이들은 age rating에 깊게 연관성을 지니고 있다. 예를 들어 G의 rating을 지닌 영화는 violence가 None이 확률이 높다.

출처 : paper[1]의 table 2

또한 genre도 age rating과 깊은 연관성을 지니고 있다하여 수집을 하였고 결과는 아래와 같다.

출처 : paper[1]의 table 3

Model


출처 : paper[1]의 figure 1

모델은 생각보다 단순했다. 워드 임베딩 + LSTM with attention을 사용하여 sentence로부터 feature vector를 추출하였고, movie dialogues로부터 emotion vector를 추출하며, genre vector까지 정의한 다음에 fully connected layer + softmax layer를 통과시켜 최종 output을 출력하였다. 여기서 특별한 것은 similar movies vector인데 이는 IMDB사이트로부터 장르, 배우 등에 대한 몇몇 요소들을 이용하여 5차원의 벡터로 해당 벡터는 MPAA rating의 유사성 확률로 정의된다고 한다.

Experiment


출처 : paper[1]의 table 5

실험은 위와 같이 나왔고, 몇몇 baseline의 F1-score보다 emotion vector + genre vector + similarity vector를 사용한 LSTM with Attention 이 더 좋다고 나왔다.

Review

해당 논문은 age rating의 퍼포먼스를 위해 단순 classification이 아닌 연관성이 있는 데이터들을 더 수집하여 보다 구체적으로 문제점을 정의하고 연구를 진행한 점이 놀라웠다. 나의 연구에도 분명 도움이 될 내용들이 많다고 생각한다.

Reference

[1] Shafaei, Mahsa, et al. "Age Suitability Rating: Predicting the MPAA Rating Based on Movie Dialogues." Proceedings of The 12th Language Resources and Evaluation Conference. 2020.

0개의 댓글