텍스트 데이터 전처리 활용 - 1

boks·2024년 4월 24일
0

자연어 처리

목록 보기
1/14
post-thumbnail

DIKW 피라미드와 빅데이터 분석의 목적

DIKW 피라미드

빅데이터 분석 목적

  • 데이터 분석을 통해 무엇인지 아는 것
  • 데이터를 통해 우리가 원하는 정보를 추출해 내는 것

데이터의 종류

정형 데이터 (Structured Data)

  • 고정된 필드에 저장된 데이터
  • 고객 신상 데이터, 매출 데이터, 재고 데이터, 회계 데이터 등

반정형 데이터(Semi-structured Data)

  • 고정된 필드에 저장되진 않지만 메타데이터(Metadata)를포함하는 데이터
  • 메타데이터란 데이터에 대한 부가적인 정보를 추가하기 위한 데이터
  • 웹사이트 구조를 나타낸 HTML 코드

비정형 데이터(Unstructured Data)

  • 고정된 필드에 저장되지 않고 형태와 구조가 복잡한 데이터
  • 텍스트, 이미지, 동영상, 음성과 같은 멀티미디어 데이터
  • 향후 비정형 데이터가 차지하는 비중이 약 90%에달할 것으로 전망함

텍스트 데이터 분석

  • 자연어로 구성된 비정형 텍스트 데이터에서 특정한 패턴 혹은 관계를 추출하여 의미 있는 정보를 찾아내는 기법

  • 뉴스 기사, 댓글, 이메일, 웹사이트 등 다양한 텍스트 데이터 모두 분석 대상

텍스트 데이터 분석 순서

  • 텍스트 수집 → 텍스트 전처리 → 텍스트 분석 → 텍스트 시각화

텍스트 데이터 분석 사례

한국 일자리 문제 분석 사례

  • 고용정보원의 SW분야 일자리 구인공고 약 20만 건을 분석하여 직무의 종류를 도출
  • 기존의 분류와는 다르게 3개의 직종과 4개의 직무가 새로 생긴 것을 확인함
  • 채용 공고의 증감률 시각화(SW분야 일자리의 수요 및 시장 규모의 변화를 알 수 있게 시각화함)
profile
설계엔지니어의 변신

0개의 댓글