[자연어처리] Static Word Embedding 후 결과 비교 분석하기

Yura Gang·2022년 6월 21일
1

자연어처리

목록 보기
2/2

영화 감상이 취미인 나는 거의 매주 영화관에 가서 개봉하는 영화들을 챙겨봤었는데
영화를 많이 보다 보니 좋아하는 영화 감독이 생겼고 그들의 영화가 개봉하면 꼭 챙겨보고 있다. 좋아하는 감독들의 작품 성격은 완전히 다른데
문득 내가 왜 그 감독의 영화를 좋아하는지 그들의 영화에는 어떤 특징이 있는지 궁금증이 생겼다.
그래서 내가 좋아하는 감독의 영화에는 어떤 특징이 있는지, 감독 별 특징을 키워드로 정리해 볼 수 있을지 단어 임베딩 기법-Word2Vec, GloVe, FastText-을 시각화하여 알아보기로 했다.

<감독별 키워드로 Word Embedding 결과 분석>

1. 데이터 수집

감독 별 특징을 분석하기 위해서는 각 영화의 특징이 포함되어 있는 데이터가 필요한데 영화의 줄거리나 위키피디아의 감독 혹은 영화 정보로는 이들의 특징을 추출하기 어려웠다.
고민 끝에 관람객들의 생각, 즉 영화 한줄평을 대량으로 수집한 후 감독과 관련된 키워드를 추출하면 원하는 정보를 얻을 수 있지 않을까 판단해 내가 좋아하는 감독 5인이 연출한 영화의 한줄평을 감독별로 최대 10,000개씩 웹크롤링을 통해 수집했다.

  • 분석 툴: Google Colab, Embedding Projector(URL)
  • 추출 데이터: 각 5인의 감독이 연출한 영화의 네이버 영화 한줄평 추출 (알파벳 순)


2. 데이터 전처리


3. 모델링/시각화 과정

  • 다섯 감독의 한줄평 파일을 사용해 감독 별 Word2Vec, GloVe, FastText로 단어 임베딩 후 “감독”과 유사한 단어를 확인했다. (상위 19개 단어만 표시)
  • 결과를 한 눈에 확인하기 위해 구글의 Embedding Projector를 사용해 시각화하였다.
  • 임베딩 그래프에서 불용어는 제외하였다.

.

3-1. 알폰소 쿠아론 (A)

대표작: 그래비티, 칠드런 오브 맨, 해리포터와 아즈카반의 죄수


알폰소 쿠아론
국내에서는 그래비티, 해리포터 아즈카반의 죄수 등으로 유명해 생동감 있는 CG, 기술, 음향, 영상미, 그리고 롱테이크 카메라 기법이 유사도 순위에 있었다. 감독의 영화는 주로 사람의 생명, 인간의 존재와 관련된 내용이라 그런지 생명, 인류, 탄생, 경이 등이 눈에 띄었다.

.

3-2. 크리스 콜럼버스 (C)

대표작: 나홀로집에 1,2, 해리포터와 마법사의 돌, 미세스 다웃파이어


크리스 콜럼버스
나홀로 집에, 해리포터의 마법사의 돌, 미세스 다웃파이어 등으로 유명한 크리스 콜럼버스의 유사어는 역시나 전설, 대단, 판타지, 완벽 등의 감탄어 들이 많았다. 학교, 극장, 학년, 시절, 어린이 등의 단어가 등장하는 이유는 관객이 어렸을 때 좋아했던 추억의 영화이기 때문으로 보이며 ‘초등학생 때 극장에서 처음 본 영화’, ‘어린 시절 좋아하던 추억의 영화’ 등의 한줄평이 많아서 인 것으로 보인다.

.

3-3. 조엘 코엔 (J)

대표작: 노인을 위한 나라는 없다, 파고, 블러드 심플


조엘 코엔
조엘 코엔 단독 작품보다는 ‘코엔 형제’로 유명한 감독이라 형제, 코엔 형제라는 단어의 유사도가 높았다. 국내에서는 ‘노인을 위한 나라는 없다’라는 영화가 가장 흥행했기 때문에 이 영화와 관련된 단어(스릴러, 서스펜스, 악역)가 많이 등장한다.
우연에 기반한 인물 간의 관계를 주로 다루기 때문에 특히나 FastText 유사도에서는 ‘해석, 이해, 의미’등의 단어가, ‘꼬이는’이라는 단어가 눈에 띈다.

.

3-4. 쿠엔틴 타란티노 (Q)

대표작: 킬빌 1,2, 펄프픽션, 헤이트풀8


쿠엔틴 타란티노
다른 감독들과 비교해 ‘감독’과 유사도가 가장 높은 단어들의 일순위는 Word2Vec, GloVe, FastText에서 모두 ‘쿠엔틴’과 ‘타란티노’ 였다. 그만큼 감독 특유의 스타일이 있어 ‘쿠엔틴 타란티노식 영화’가 대중화되었기 때문이라고 생각된다. 감독의 영화는 주로 복수를 소재로, 살인 장면을 ‘우습게’ 풀어나가는 특징이 있어 위트, 유머, 복수, 피, 액션이라는 단어가 등장했다. 재미있는 부분은 Word2Vec에는 ‘A급’이, GloVe에서는 ‘B급’ 이라는 단어가 유사도 상위권에 있었는데 Raw data를 보니 ‘B급인척하는 A급 영화’라는 평이 많이 있었다. 각 패키지의 유사도 측정 방법이 미세하게 다르다는 것을 확인할 수 있는 순간이었다.

.

3-5. 웨스 앤더슨 (W)

대표작: 그랜드 부다페스트 호텔, 문라이즈 킹덤, 프랜치 디스패치


웨스 앤더슨
'그랜드 부다페스트 호텔’로 잘 알려진 웨스 앤더슨 영화의 특징은 단연코 시각적인 요소이다. 그가 영화에서 사용한 소품과 배경 디자인만을 담은 도서나 전시회가 나올 정도라 ‘프랑스 잡지를 보는 기분이다’, ‘컬러가 예술이다’등의 평이 많았으며 이 때문에 미술, 예술, 스타일, 미장센, 잡지, 컬러 등의 영상미와 관련된 단어가 상위권을 차지했다. 나 또한 감독 영화의 특유의 색감과 사랑스러운 소품을 좋아해 영화를 다시 보곤 한다.

.


4. 분석 결과

감독 별 특징을 키워드로 확인하는 이번 분석에서는 FastText는 적합한 임베딩 도구가 아니라는 생각이 들었다.
.
Word2Vec과 GloVe가 단어를 쪼갤 수 없는 개체명으로 나눈다면 FastText는 하나의 개체명에 조사가 붙어 여러 단어로 나눠지게 하기 때문에 임베딩 결과 중복되는 키워드가 많았고 이를 수작업으로 제외하는데 많은 시간이 소요되었다.
.
또한, 각 감독 별, 임베딩 패키지 별 동일한 지표에서 분석하기 위해 모두 ‘감독’이라는 단어의 유사도로 결과를 확인했지만 ‘연출’이나 각 감독의 이름의 유사어를 확인했을 때 결과값이 유사하게 다르다는 걸 확인할 수 있었다.
.
특히나 쿠엔틴 타란티노나 웨스 앤더슨의 경우에는 감독 이름 자체가 유명해져 ‘감독’이라는 단어보다 ‘타란티노’, ‘앤더슨’이라는 단어의 빈도가 높았으며 특히 ‘타란티노’는 ‘감독’ 단어 빈도수가 3배 이상이었다.
(타란티노 2,241개, 감독 678개)
.
반면 크리스 콜럼버스의 경우 감독의 이름보다는 영화 자체가 훨씬 유명한 편이라 ‘감독, 연출, 크리스, 콜럼버스’의 빈도수가 다른 감독에 비해 현저히 낮았기 때문에 의미 있는 유사어의 품질이 비교적 떨어졌다. (감독 45개, 연출 35개, 크리스 19개, 콜럼버스 19개)
.
보다 의미 있는 분석을 하기 위해서는 분석자의 비교 단어나 설정값을 선택하는 것이 얼마나 결과에 영향을 미치는 지 직접 실습을 해보니 실감하게 되었다.

profile
배움은 즐겁다.

0개의 댓글