[NLP]한국은행 뉴스심리지수(NSI) 관련 리뷰

인덱스·2023년 3월 26일
0

이번 포스팅은 한국은행에서 발행한 '기계학습을 이용한 뉴스심리지수(NSI)의 작성과 활용을 기반으로 경제 심리 중 하나인 뉴스심리지수에 대해 공부하는 내용을 담았습니다.

기계학습을 이용한 뉴스심리지수(NSI)의 작성과 활용

  • 한국은행 경제통계국은 2022년 2월부터 매주 한국은행 경제통계시스템(ECOS)에 실험적 통계로 경제분야 뉴스기사에나타나는 경제심리를 지수화한 뉴스심리지수를 공개하고 있다.
  • 이 지수는 웹크롤링 기법으로 수집한 인터넷 포털사이트의 경제기사 텍스트를 최신 자연어 처리 모형(NLP)으로 분석하여 작성한 것이다.

검토 배경

뉴스심리지수 특징

  • 수시로 입수 가능한 뉴스기사 데이터
  • 신속하게 경제심리 변화를 포착하고 변동요인을 쉽게 파악 가능
  • 뉴스기사 데이터는 자료의 양(Volume), 속보성(Velocity), 정보의 다양성(Variety) 측면에서 매우 우수한 것으로 평가
  • 미국 샌프란시스코 연준은 미리 정해놓은 특정 단어들의 감성 사전을 만드는 방법(lexical approach)으로 일별 뉴스 심리지수를 산출하고 공개 중
  • 뉴스기사에서 추출한 지표들을 경제 전망에 활용하여 경기예측 정확도를 높이고자 하는 연구가 활발히 진행중

뉴스심리지수 작성 방법

1.데이터

  • 웹크롤링
  • 데이터 무결성을 처리하기 위해 새로 수집한 뉴스기사 원문이 직전 30일 내에 한번이라도 동일하게 데이터베이스에 등장하는 경우는 데이터베이스에서 배제(동일한 내용이 반복적으로 기재되는 광고성 기사 제외 가능)

2.작성 방법

  • 뉴스기사에 나타난 긍정문장과 부정문장을 카운트한 뒤 지수화하여 작성
  • 방대한 뉴스기사의 논조를 높은 정확도로 분류하는 것이뉴스심리지수 작성의 핵심
  • 사람이 미리 분류해 놓은 학습 문장의 패턴을 통계 모형에 학습시킨 뒤, 동 모형을 새로운 문장에 적용하여 문장의 논조를 분류하는 기계학습 방법 적용

가.기계학습 적용을 위한 전처리(Preprocessing) 과정

  • 감성분류모형(classifier)과 동 모형을 학습하기 위한 학습 데이터의 구축 필요
  • 통계 모형이 인식할 수 있는 형태로 텍스트 형태의 뉴스데이터 전처리 과정 선행
  • 과정
    -- 데이터의 구조 설정
    -- 구조화된 텍스트 데이터를 형태소 단위로 분해(tokenizing)
    -- 분해한 텍스트 데이터를 숫자로 전환(numerical encoding)
  • 여기서 문장 기준으로 논조를 분류
  • 뉴스기사 문장을 모형에 입력하기 위해서는 의미가 있는 가장 작은 말의 단위인(POS, part-of-speech)로 분해 필요
  • 문장을 형태소 단위로 분해하면 문장의 다양한 변형에도 불구하고 동일한 의미의 말뭉치(corpus) 토큰(token)들을 구별해 내는 것이 가능
  • 형태소 분석은 텍스트 데이터를 통계 모형에 적용하기 위한. 필수적 단계
  • 형태소로 분석한 말뭉치 토큰들을 통계 모형에 입력하기 위하여 정수 변환(integer encoding)을 이용하여 수치화
  • 즉, 유일한(distinct) 말뭉치 토큰별로 각각 하나의 정수를 매칭하여문장을 하나의 수치형 백터로 표현

감성분류모형(Classifier) 및 학습 데이터(Training Data)의 구축과 모형 학습(Model Training)

  • 뉴스문자의 논조를파악하기위한 감성분류(sentiment classification) 모형은 인공신경망 기반의 트랜스포머(transformer) 모형 이용 - 입력 벡터 전체의 맥락(context)을 더 잘 파악
  • Attention 구조 : 벡터를 입력 데이터로 하는 예측 모형(sequential models)에서 입력 벡터 값드 중 집중(attention)적으로 학습할 필요가 있는 값에 더 높은 가중치를 부여하도록 구성한 인공신경망 구조
  • 여러 자연어처리(NLP)모형은 Attention 구조를 통해 모형의 예측 정확도 높임
  • 감성분류모형은 뉴스문장을 입력변수로 받으며, 해당 문장의 감성이 긍정/부정/중립일 확률을 출력변수로 출력
  • 뉴스문장은 먼저 전처리과정을 거쳐 수치형 벡터로 치환
  • 수치형 벡터로 치환된 문장은 가 단어 토큰의 연관도를 학습하여 다시 다차원 공간으로 배치하는 Embedding 과정을 거치는데 뉴스심리지수는 Embedding을 위해 32차원을 고려
  • 따라서 하나의 뉴스문장은 전처리와 Embedding 과정을 거치면서 80X32차원을 수치행렬 값으로 치환
    -이후 트랜스포머 블록과 이어지는 Feed Forwrd 네트워크는 입력 문장의 논조를 잘 예측하는 비선형 함수를 찾아 뉴스문장의 감성을 긍정/부정/중립 중 하나로 분류
  • 마지막으로 Softmax 함수는 실수값의 출력변수를 0과 1사이의 확률값으로 변환

다. 일별 뉴스데이터의 구축과 감성분류모형의 적용(Prediction)

  • 컴퓨팅 비용을 낮추기 위하여 뉴스심리지수는 입수한 뉴스기사 문장 중 일부를 표본추출하여 작성
  • 즉, 입수한 뉴스기사를 문장 단위로 분해하여 일별 데이터 모집단을 먼저 구성한 다음 일별 모집단에서 1만 개의 표본문장을 임의로 추출하여일별 데이터베이스를 구성

라. 뉴스심리지수의 작성 및 표준화

  • 일별로 입수한 뉴스기사의 표본문장들을 앞에서 설명한 과정을 거쳐 '국내 긍정문장'과 '국내 부정문장'으로 분류한 뒤, 두 분류(class)의 문장 개수를 카운트하여 작성
    -이때 일별 뉴스심리지수의 겨우 변동성을 고려하여 해당일 기준 직전 7일간 발간된 뉴스기사를 기준으로 작성하였으며, 월별 뉴스심리지수의 경우 해당월 중 발간된 뉴스기사를 기준으로 작성
  • 지수의 안정성 및 여타 지표와의 비교 등을 고려하여 뉴스심리지수는 2005년부터 해당일 기준 직전 연도까지를 표준화 구간으로 설정하고 이 기간 중 지수의 평균과 분산을 이용하여 평균이 100, 표준편차가 10이 되도록 표준화하여 산출
  • 표준화한 뉴스심리지수는 지수가 100보다 크면 뉴스기사에 나타난 경제심리과 과거 평균보다 낙관적, 100보다 작으면 비관적으로해석 가능
  • 표준화 구간은 지수의 현실반영도 제고를 위해 매년 초에 전년말까지 연장하여 과거 시계열을 수정할 예정

3. 전과정의 자동화(Automation)

  • 일별 뉴스기사 텍스트 데이터의 입수, 전처리, 예측 및 지수의 작성 등 전 과정이 파이썬 기반 자동화 프로그램을 통하여 이루어지도록 구축
  • 자동화 프로그램은 매일 오전 5시에 데이터베이스의 마지막 시점부터 직전일까지의 뉴스기사를 수집하며, 이후 감성분류모형이 작동하여 해당일의 뉴스심리지수를 작성하여 출력

뉴스심리지수 유용성 평가

1.공식 경제지표와의 상관성

  • 대표적인 경제심리지표 : 소비자동향지수(CSI), 주요 CSI 항목을 합성한 소비자심리지수(CCSI), 기업가의 경제심리를 나타내는 기업경기실사지수(BSI), 소비자와 기업가를 합친 민간의 경제심리를 나타내기 위해 CSI와 BSI의 주요 항목을 합성한 경제심리지수(ESI) 등
  • 분석결과 월별 뉴스심리지수는 주요 경제심리지표에 1~2개월 선행하며 높은 상관관계를 보임

2. 속보성

  • 일 단위로 작성 가능하므로 월 단위의 공식통계가 공표되기 이전에 경제심리 변화를 신속하게 파악 가능
  • 특정 이슈 발생에 따른 경제심리 변화를 즉각 포착할 수 있어 설문조사 기간 이후에 발생한 이슈가 누락될 수 있는 월단위의 공식 경제지표들을 보완하는 역할 가능

3. 키워드 분석을 통한 설명가능성

  • 키워드 분석을 통해 변동요인을 쉽게 파악 가능
  • 설문조사에 의존하는 다른 심리지수에 비해 더 많은 정보 내포

시사점 및 향후 과제

  • 뉴스심리지수는 속보성을 갖는 고빈도 경제지표로서 기존의 경기지표를 보완
  • 기계학습 방법 및 자동화 과정을 통해 통계 작성에 적용하였다는 점에서 새로운 통계 작성기법의 안정성 및 효용성을 연구할 기반 제시
  • 지수의 적정성 및 안정성을 다양한 각도에서 검증하고 연구할 필요 있음
  • Nowcasting 등 비교적 짧은 시계의 전망모형에 활용하는 등 활용 가능성을 확대해 나갈 필요 있음

뉴스는 현상을 보고 쓰기 마련이다. 예를 들어, 기자들이 쏟아내는 단어들에 영향을 받아서 금리가 변하는 것일까? 아니면 금리가 변하니 기자들이 기사를 쓰는 것일까? 위의 글에서는 뉴스가 기존 경제심리지표 등의 선행 지표로 역할한다고 나와있지만 의심해 볼 필요가 있다. 더불어 시장의 변화를 예측할 수 있는 심리지표를 만들기 위해서는 어떤 요소들을 고려해야할 지 고민해야 한다. 데이터 수집과 빅데이터 분석을 통해 다양한 인사이트를 얻어낼 수 있지만, 시시각각 변하는 지표들을 찾아낼 때는 더 고차원적인 접근이 필요하다는 것을 깨닫는다. 이 내용을 바탕으로 다음 번에는 해외의 경제심리지표 등을 알아볼 예정이다.

profile
헤맨 만큼 내 땅이 된다

0개의 댓글