데이터 → 정보 → 지식 → 지혜
| 단계 | 설명 |
|---|---|
| 데이터 | 가공되지 않은 사실 |
| 정보 | 의미 있는 데이터 |
| 지식 | 경험과 결합된 정보 |
| 지혜 | 의사결정에 활용 |
| 요소 | 의미 |
|---|---|
| Volume | 데이터 규모 |
| Velocity | 데이터 생성 속도 |
| Variety | 데이터 종류 |
| Value | 데이터 가치 |
※ 시험에서 Velocity / Variety 혼동 문제 자주 출제
예
| 특징 | 의미 |
|---|---|
| 통합성 | 데이터 중복 최소 |
| 저장성 | 지속적으로 저장 |
| 공용성 | 여러 사용자가 공유 |
| 변화성 | 데이터 수정 가능 |
| 계층 | 설명 |
|---|---|
| External Schema | 사용자 관점 |
| Conceptual Schema | 전체 구조 |
| Internal Schema | 물리적 저장 구조 |
대량 데이터에서 패턴을 발견하는 기술
대표 기법
데이터 분석 산업 표준 프로세스
암기
비즈니스 → 데이터 → 준비 → 모델 → 평가 → 배포
| 방법론 | 특징 |
|---|---|
| CRISP-DM | 산업 표준 |
| KDD | 데이터 중심 |
| SEMMA | SAS 분석 방법론 |
| 방식 | 설명 |
|---|---|
| Top-down | 문제 → 데이터 |
| Bottom-up | 데이터 → 문제 |
평가 기준
| 유형 | 특징 |
|---|---|
| 집중형 | 중앙 분석 조직 |
| 기능형 | 부서별 분석 |
| 혼합형 | 두 방식 결합 |
평균 = Σx / n
데이터 가운데 값
가장 많이 나온 값
데이터 퍼짐 정도
분산의 제곱근
특징
| 범위 | 확률 |
|---|---|
| ±1σ | 68% |
| ±2σ | 95% |
| ±3σ | 99% |
| 개념 | 의미 |
|---|---|
| 귀무가설 (H0) | 차이 없음 |
| 대립가설 (H1) | 차이 있음 |
p < 0.05 → 귀무가설 기각
상관계수 r
범위
-1 ~ +1
| 값 | 의미 |
|---|---|
| +1 | 완전 양의 상관 |
| 0 | 상관 없음 |
| -1 | 완전 음의 상관 |
독립변수 → 종속변수 영향 분석
Y = a + bX
대표 알고리즘
비지도 학습
대표 알고리즘
대표 알고리즘
주요 지표
| 지표 | 의미 |
|---|---|
| Support | 발생 빈도 |
| Confidence | 조건 확률 |
| Lift | 연관 강도 |
시험에서 자주 출제되는 핵심 개념