cleaning 작업은 토큰화 작업에 방해되는 부분을 없애기 위해 이루어짐 그래서 토큰화 작업 보다 대부분 먼저 진행함.토큰화 작업 이후에도 여전히 노이즈가 남아 있을 수 있음완벽한 정제 작업은 어려워서 이정도면 됐다~ 라는 합의점을 찾기도 함USA와 US는 같은 의미
자연어란 우리가 일상 생활에서 사용하는 언어자연어 처리란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일음성 인식, 내용 요약, 번역, 사용자의 감성 분석 등에서 사용됨텐서플로(TensorFlow), 파이토치(PyTorch)가장 인기 있는 두 가지

클라우드 기반의 환경으로, 실행되는 모든 코드와 데이터는 Google의 서버에서 처리됨사용자는 로컬 컴퓨터의 자원을 사용하지 않고, Google이 제공하는 무료 하드웨어(GPU, TPU 등)을 이용할 수 있음장점GPU/ TPU 등 고성능 하드웨어를 무료로 사용 가능브라
자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 전처리되지 않은 상태면, 용도에 맞게 토큰화(tokenization) & 정규화(normalization) & 정제(cleaning)하는 일을 해야함토큰의 기준을 단어로 하면 단어 토큰화(word tokenizati

자연어처리 연구 및 모델 평가에서 사용되는 데이터셋 중 논문에서 자주 보이는 데이터셋들을 몇 가지 정리해보려고함. 이게 뭔지는 알고 써야하니까.. MS MARCO (Microsoft MAchine Reading COmprehension) https://arxiv.or