.
.
텍스트 데이터로부터 유용한 인사이트를 발굴하는 Data Mining의 한 종류
(Data Mining : 빅데이터 안에서 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정)
자연어 처리 방식(Natural Language Processing)과 문서처리 방법을 적용
하여 유용한 정보를 추출/가공하는 것을 목적으로 하는 기술
인간의 언어가 사용되는 실세계의 모든 영역
정보검색, 질의응답 시스템
· Google, Naver, iphone siri, 갤럭시 bixby, IBM Watson
기계번역, 자동통역
• Google 번역기, 네이버 Papago, ETRI 지니톡
문서작성, 문서요약, 문서 분류, 철자 오류 검색 및 수정, 문법 오류 검사 및
수정




사소하게 다 나눠서하면 오버피팅




많이 나오는 단어를 찾아야한다.
-> 카운트 벡터화는 카운트 값이 높을수록 중요한 단어로 인식(분별성 X)
-> 카운트 벡터화 보완 (패널티 부여)

워드클라우드
문서에서 중요한 부분 요약해줌

