정형 데이터: 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을수 있는 데이터 행(row)과 열(column)으로 표현 가능한 데이터. 하나의 행은 하나의 데이터 인스턴스를 나타내고, 각 열을 데이터의 피처를 나타냄
비정형 데이터: 이미지, 비디오, 음성, 자연어 등의 정제되지 않은 데이터
정형데이터의 중요성
요즘 비정형 데이터가 핫한데 말이여.. 그 이유는?!
정형데이터의 분석능력이란?
데이터에 대한 상상력, 통찰력,
다양한 경험으로 한 분야에 국한되지 않고 범용적으로 쓰일수 있는능력
ex) 비행기로 생존률 높이기
2009년12월~ 2011년 11월 온라인 상점의 거래 데이터
행수는 780,502개, 컬럼은 9개의 컬럼으로 구성
X: 5914명의 2009년 12월~2011년 11월까지의 구매기록
Y: 2011년 12월 총 구매액 300 초과 여부
-> 우량고객 예측
분류: 예측해야할 대상의 개수가 정해져있는 문제
예) 이미지에서 개,고양이 분류, 신용카드 거래가 사기 거래인지 정상 거래인지 분류
회귀: 예측해야할 대상이 연속적인 숫자인 문제
예) 일기예보에서 내일의 기온 예측, 주어진 데이터에서 집값 예측
