실습 환경 구축
자연어처리에서 특징을 추출한다는 것은 텍스트 데이터의 단어, 문장들을 어떠한 값으로 바꿔주는 것을 의미한다. 즉, 기계가 인식할 수 있도록 수치화 시켜주는 것이다.사이킷런에는 다음 세 가지 방법으로 특징 추출이 가능하다.CountVectorizerTfidfVectori
자연어처리의 목적은 결국 인간이 살아가면서 접할 수 있는 모든 형태의 언어, 즉 자연어를 기계가 이해하고 이를 활용하는데에 있을 것이다. 다시 말하면 자연어처리에서 중요한 것 중 하나는 바로 텍스트 데이터에 대한 정보를 단위별로 나누는 것에 있을 것이다. 우리는 이를
인공지능 개발을 하는 사람이라면 누구나 이런 생각을 하지 않을까 싶다. 인공지능이라는 것이 결국 인간이 하지 못하거나 하는데 너무 오래걸리는, 문제를 해결해주는 역할로서 작용하기 위해 만들어진 것이기 때문이다. 물론 인공지능 기술은 매우 빠르게 발전하고 있기 때문에 요
본격적으로 캐글 문제를 해결하기 앞서서, 모델이 높은 성능을 낼 수 있도록 하려면 좋은 모델링을 거치는 것도 물론 중요하지만 데이터를 잘 파악하는 것이 우선이다. 이러한 데이터 이해 과정을 EDA(탐색적 데이터 분석; Exploratory Data Analysis)라고
자연어 처리 문제를 대표하는 텍스트 분류(Text Classification)는 NLP기술을 활용하여 특정한 텍스트를 어떠한 범주(Class, Label 등)로 구분하는 문제이다.텍스트 분류 문제를 해결하기 위해서는 지도학습과 비지도학습의 두가지 방식이 있다.Label
이전 글에서 텍스트 데이터를 분석해보고, 벡터화 및 전처리 작업까지 마무리했다.이제 본격적으로 텍스트 데이터 분류 모델 개발 작업을 시작할텐데, 먼저 앞서 정제된 텍스트 데이터를 활용해서 문장 벡터를 만들어 주어야한다. 가장 먼저 알아볼 모델은 앞서 공부했던 Tf-id
이전 글은 머신러닝을 활용한 모델이었다. 지금 부터는 딥러닝모델을 활용한 분류 모델을 알아보도록 하겠다. 가장 먼저 RNN이다.RNN(순환 신경망,Recurrent Neural Network)은 언어 모델에서 많이 쓰이는 딥러닝 모델 중 하나이다.주로 순서가 있는 데이
CNN은 Convolutional Neural Network의 약자로, Dense신경망 앞에 여러 계층의 합성곱(Convolution)을 쌓은 모델이다. 보통 이미지 데이터에 많이 쓰이는데, 입력받은 데이터에 대한 가장 좋은 특징을 만들어 내도록 학습하고, 추출된 특징
"검은 고양이 책의 저자는 누구야?""검은 고양이 책을 쓴 사람은 누구야?"두 문장은 완전히 똑같은 말을 하고 있다는 것을 일반적인 인간이라면 쉽게 확인할 수 있을 것이다. 그러나 기계도 과연 이 두 문장이 같다고 생각할까?이렇게 겉보기에는 달라보이는 두 문장이 사실