[AI Project] 뉴스 요약봇 만들기

yenaryu·2022년 2월 11일

DATA

목록 보기
6/14

프로젝트 진행 과정

1. 데이터 수집하기
네이버 영화의 댓글을 모아 구성된 한국어 텍스트 감성 분석
뉴스 기사 데이터(news_summary_more.csv)

 
2. 데이터 전처리하기 (추상적 요약)
전혀 가공되지 않은 nsmc 데이터셋 텍스트 파일을 읽어 data_loader 생성

  • 데이터 정리하기 : 중복 샘플과 NULL 값이 존재하는 샘플 제거, 텍스트 정규화와 불용어 제거
  • 훈련데이터와 테스트데이터 나누기 : 샘플의 최대 길이 정하기, 시작 토큰과 종료 토큰 추가하기
  • 정수 인코딩 : 단어 집합(vocabulary) 만들기 및 정수 인코딩
  • 패딩하기
  • 모델 설계하기

 
3. 어텐션 메커니즘 사용하기 (추상적 요약)

  • 인코더와 디코더의 모든 time step의 hidden state를 어텐션 층에 전달하고 결과를 리턴
  • 어텐션의 결과와 디코더의 hidden state들을 연결
  • 모델 정의 및 훈련

 
4. 실제 결과와 요약문 비교하기 (추상적 요약)

  • 인퍼런스 모델 구현하기
  • 모델 테스트하기
  • headlines 열 요약문과 추상적 요약 결과 비교

 
5. Summa을 이용해서 추출적 요약해보기

  • Summa의 summarize를 사용하여 추출적 요약

 

구현한 프로젝트

PROJECT : news summarization

 

회고

추상적 요약 : 문법적 오류가 많고 내용의 퀄리티가 좋지 않아 보임.

추출적 요약 : 기사를 그대로 추출해서 요약하는 것이기 때문에 상대적으로 완성도는 높았으나, 핵심내용이 아닌 경우가 많았고 text의 앞문단과 뒷문단을 무지성으로 긁어 요약이라고 보여준 느낌이 큼.

뉴스 요약에는 기사의 전체적인 내용을 함축하고 있는 추출적 요약이 더 적합하다.

 


📆 2022-02-03

0개의 댓글