데이터 분석의 첫 단계는 데이터와 변수의 특성을 정확히 이해하는 것입니다.
데이터는 그 특성에 따라 정형, 반정형, 비정형 등으로 분류되며, 변수는 데이터 안에서 분석하고자 하는 대상이 되는 요소를 의미합니다.
이를 체계적으로 분류하면 분석 방향과 전처리, 모델링 전략을 효과적으로 세울 수 있습니다.
1) 데이터 타입 (Type)
데이터의 기본 타입은 정수형(int), 실수형(float), 문자열(str), 불리언(bool) 등이 있으며, 각각의 데이터 타입은 다양한 연산 및 처리 방법이 있습니다.
2) 데이터 특성 (Data Format)
데이터는 그 특성에 따라 두 가지로 나뉩니다.
범주형 데이터 (Categorical Data)
명목형(Nominal): 순서가 없는 카테고리. 예를 들어, 성별, 혈액형 등이 이에 해당합니다.
서열형(Ordinal): 순서가 있는 카테고리. 예를 들어, 교육 수준, 만족도(고/중/저) 등이 있습니다.
수치형 데이터 (Numerical Data)
이산형(Discrete): 셀 수 있는 정수 값. 예를 들어, 학생 수, 사건 발생 횟수 등이 대표적입니다.
연속형(Continuous): 무한히 많은 값을 가질 수 있는 실수 값. 예를 들어, 키, 체중, 온도 등이 이에 속합니다.
데이터 유형 (Category)
또한, 데이터는 형태에 따라 아래와 같이 분류됩니다.
정형 데이터 (Structured Data): 테이블 형태의 데이터로, 데이터베이스나 CSV 파일, 스프레드시트 등을 포함합니다.
비정형 데이터 (Unstructured Data): 텍스트, 이미지, 오디오 등 구조화되어 있지 않은 데이터.
반정형 데이터 (Semi-structured Data): XML, JSON 등 일정한 구조는 있으나 엄격한 스키마를 갖추지 않은 데이터.
용어 정리 (데이터프레임에서의 관점)
열(Column), 변수(Variable), 속성(Attribute), 특성(Feature), 차원(Dimension)
→ 데이터프레임의 각 열은 변수로서 관측된 데이터를 담고 있으며, 분석의 핵심이 됩니다.
행(Row), 관측치(Observation), 샘플(Sample), 데이터포인트(DataPoint)
→ 각 행은 하나의 관측 단위로, 개별 데이터 케이스를 나타냅니다.