네이버뉴스 요약봇 따라만들어보자(BertSum with HuggingFace)

Halo·2021년 6월 15일
5

Python

목록 보기
2/12
post-thumbnail

서론

네이버뉴스의 기사를 클릭하고 상단을 보면 뉴스 요약봇이라는 기능이 존재합니다.
이 기능을 사용하면 사용자는 추출요약을 통해 보고있는 뉴스의 요약본을 세줄로 제공받습니다.

여기서 추출요약이란 문서에서 문장이나 문단을 그대로 사용하여 모델이 중요도에 따라 요약을 하는 방식이며 반대 방식으로는 생성요약이 있습니다.

저는 이 기능을 위해 BertSum 모델을 참조하였습니다.

본론

BertSum 모델이란, Fine-tune BERT for Extractive Summarization이며 쉽게말하여 BERT를 추출요약에 맞게 모델을 튜닝한 것 입니다.

이 논문에선 encoder로 Classifier, Transformer, LSTM을 이용하는데 저는 여기서 간단한 Classifier를 이용했습니다.

모델을 학습하기 위해서 사용한 데이터는 데이콘의 한국어 문서 추출요약 AI 경진대회 데이터를 사용했습니다.

이를 학습에 사용하기 위해선 RAW -> Json -> .pt파일의 변환이 필요하며 그 전에 학습에 사용될 형태소 분석을 위해 은전한닢 Mecab을 활용하여 형태소 분석을 진행했습니다.

전처리 + 학습 .ipynb

결론

비교해 보기

Reference

SK바이오사이언스가 세계에서 쏟아지는 코로나19 백신 위탁계약(CMO) 주문을 맞추기 위해 경북 안동에 제2 백신 공장을 짓기로 했다.

SK바이오사이언스는 21일 경상북도, 안동시 등과 공장 부지 매입 및 설비 증설 내용을 담은 투자 양해각서를 체결했다. 총 투자 금액은 약 1500억원이다.

이 회사는 우선 노바백스와 아스트라제네카의 코로나19 백신을 생산하고 있는 L하우스 백신센터에 백신 제조 설비를 추가로 들여오기로 했다. 세포·세균배양 시설 등 최신 백신 제조 설비를 투입한다. SK바이오사이언스는 이미 유럽 업체에 배양기(리액터) 등을 주문한 것으로 알려졌다.

SK바이오사이언스는 또 안동 매곡리의 경북 바이오 2차 산업단지 부지 9만9130㎡를 추가 매입했다. L하우스 백신센터 부지보다 50% 정도 큰 규모다. 경북 바이오산업단지에는 SK플라즈마 혈액제제 공장, 경북바이오산업연구원, 동물세포 실증지원센터, 국제백신연구소 안동분원 등이 들어서 있다.

SK바이오사이언스가 창사 후 최대 규모 증설에 나선 이유는 밀려드는 백신 CMO 수요 때문이다. 전문가들은 코로나19가 팬데믹(전염병 대유행)을 넘어 ‘엔데믹’(종식 없는 토착 전염병)이 될 것으로 보고 있다. SK바이오사이언스는 이런 전망을 근거로 지난해 13억달러(약 1조4706억원) 수준이던 코로나19 백신 세계 시장 규모가 2025년 161억달러(약 18조2139억원)에 달할 것으로 내다보고 있다. 백신 CMO 수요가 갈수록 늘어날 것이란 얘기다.

SK바이오사이언스는 전체 생산 가능 시설의 3분의 2 이상을 코로나19 백신 생산에 배당한 상태다. 이 회사의 백신 생산능력은 2만3924L다. 더 이상 생산할 수 있는 여력이 없는데도 생산 문의가 끊이지 않자 증설 결정을 내렸다는 설명이다.

회사 관계자는 “백신 수요에 대응하기 위해 세포배양 독감 백신 ‘스카이셀플루’ 생산을 전면 중단했지만 여전히 공급이 수요를 따라가지 못하고 있다”며 “백신 CMO업계에서 주도권을 잡기 위해 증설을 결정했다”고 말했다.

나의 모델

['SK바이오사이언스가 세계에서 쏟아지는 코로나19 백신 위탁계약(CMO) 주문을 맞추기 위해 경북 안동에 제2 백신 공장을 짓기로 했다.\r', '총 투자 금액은 약 1500억원이다.\r', 'SK바이오사이언스는 21일 경상북도, 안동시 등과 공장 부지 매입 및 설비 증설 내용을 담은 투자 양해각서를 체결했다']

네이버 요약봇

학습된 모델을 통한 Test .ipynb

테스트 주소

- http://dev7halo.site/
세번째 기능(세줄요약하기 뉴스문장)을 사용해주세요 ...
다른 기능은 테스트 용도입니다 ...
~~
~~운영비가부족하여중지합니당 ㅠ.ㅠ

참조

profile
일단 해보자 !

2개의 댓글

comment-user-thumbnail
2022년 2월 17일

안녕하세요. 좋은 글 감사합니다.
BertSum_Test.ipynb 를 돌려보려고 하는데, model_step_10000.pt 모델 파일이 없어서 에러가 났습니다 ㅜㅜ
혹시 모델 파일 공개는 어려우실까요?

1개의 답글