한국어 뉴스 댓글 데이터 12GB(KcBERT Pretraining 데이터)

nawnoes·2020년 8월 23일

Comments Data KcBERT Korea News Comments Data 댓글 데이터

DeepLearning Data

목록 보기

3/4

한국어 뉴스 댓글 데이터

한국어 뉴스 데이터로 사전 학습한 BERT인 KcBERT를 학습시킨 데이터를 캐글에 공개해주셨다.
12GB의 데이터로 필요에 따라 다운로드 후 활용 가능하다.

댓글이 한줄한줄씩 되어있는데, 무난한 내용이 미리보기에는 안보이네요;;;

데이터 경로

https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments?fbclid=IwAR04wH_uKQ3jJ4ZIQ_5hj-s5ppkSOFCuii_2Qvj-L5gN3Hc-4xHAQdbjq2Q&select=20190101_20200611_v2.txt

데이터 정제 방법

import re
import emoji
from soynlp.normalizer import repeat_normalize

emojis = ''.join(emoji.UNICODE_EMOJI.keys())
pattern = re.compile(f'[^ .,?!/@$%~％·∼()\x00-\x7Fㄱ-힣{emojis}]+')
url_pattern = re.compile(
    r'https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)')

def clean(x):
    x = pattern.sub(' ', x)
    x = url_pattern.sub('', x)
    x = x.strip()
    x = repeat_normalize(x, num_repeats=2)
    return x

nawnoes

이전 포스트

유사질의 관련 데이터 Paraphrasing Data

다음 포스트

한국어 뉴스 댓글 데이터 12GB(KcBERT Pretraining 데이터)

DeepLearning Data

한국어 뉴스 댓글 데이터

데이터 경로

데이터 정제 방법

유사질의 관련 데이터 Paraphrasing Data

한국어-영어 번역 데이터

0개의 댓글