본 포스팅은 <데이터 애널리틱스>를 참고하여 작성되었습니다.
1. 서론
1-1. 인공지능, 머신러닝, 딥러닝
- 인공지능(Artificial Intelligence : AI) : 컴퓨터가 인간의 지능적 행동을 모사하여 복잡한 일을 할 수 있도록 하는 연구
- 인간에 대한 연구와 관련되어있음
- ex) 경영학, 경제학, 인문학, 정치학, 언어학, 사회학, 심리학, 철학 등
- 인공지능-현대적 접근에서는 인간처럼 생각하는 관점, 인간처럼 행동하는 관점, 이성적으로 생각하는 관점, 이성적으로 행동하는 관점으로 총 네 가지 관점으로 인공지능을 정의
- 머신러닝(Machine Learning) : 컴퓨터가 실제 세계의 관찰과 상호작용을 통해 데이터나 정보를 수집해 자신의 지식수준을 향상시킴으로써 인간처럼 학습하고 행동하도록 하는 AI의 연구분야
- 딥러닝(Deep Learning) : 머신러닝의 한 분야로서 은닉층이 세 개 이상인 신경망 구조
1-2. 데이터 사이언스와 데이터 애널리틱스
- 데이터 사이언스 (Data Science) : 과학적 방법, 프로세스, 아록리즘, 시스템을 사용해 다양한 형식의 데이터로부터 지식과 통찰력을 추출하는 융합 분야
- 데이터 애널리틱스
- 프로그래밍과 데이터베이스
- 해당 영역의 지식과 정서적 지능
- 의사소통 능력
- 데이터 애널리틱스 (Data Analysis) : 데이터로부터 유용한 정보와 지식을 도출해내는 기법과 프로세스
- data analysis : 데이터를 분석하는 과정 자체
- data analytics : 데이터로부터 유용한 정보와 지식을 도출하기 위한 모델링 기법들, 그 기법들로 데이터를 분석하는 과정, 그리고 신뢰할 수 있는 방법과 원칙에 입각하여 모델을 구축하는 과정 전반을 일컫는 용어
- data analysis ∈data analytics
1-3. 데이터 마이닝과 데이터 애널리틱스
- 데이터 마이닝 (Data Mining) : 대량의 데이터로부터 의미 있는 패턴과 규칙을 발견하기 위해 탐색과 분석을 하는 비즈니스 프로세스
2. 데이터 마이닝
2-1. 데이터, 정보, 지식
- 데이터 (Data) : 독립적으로 존재하는 가공되지 않는 사실
- 정보 (Information) : 데이터를 그 수신자에게 의미 있는 형식으로 처리한 것, 현재 또는 미래의 행위나 의사결정에 실제적인 혹은 지각된 가치를 가짐
- 지식 (Knowledge) : 상황에 따라 필요한 결정과 행동을 끌어내는 법칙, 절차 등의 집합체
2-2. 데이터의 속성
2-2-1. 범주형 (Categorical)
- 속성이 가질 수 있는 값이 유한개로 정해져 있음
-
명목형 속성 (Nominal)
: 속성이 가질 수 있는 값 간에 순서가 없음
ex) 바닐라 아이스크림, 초코 아이스크림, 딸기 아이스크림
-
순서형 속성 (Ordinal)
: 속성이 가질 수 있는 값 간에 순서가 있음
- 순서대로 정렬하는 작업은 할 수 있지만 수학적 연산은 수행 불가
ex) 금메달, 은메달, 동메달
2-2-2. 수치형 속성 (Numerical)
-
구간 속성 (Interval)
: 의미 있는 0이 없는 수치형 속성 (-는 할 수 있지만 /는 불가한 속성)
ex) 서울 기온 30도, 대구 기온 33도 → 대구가 서울보다 3도 더 더움 but 대구가 서울보다 1.1배 덥다고 말할 수 없음 (온도계의 0도는 온도가 존재하지 않는 것이 아니라 물이 어는 온도)
-
비율 속성 (Ratio)
: 의미 있는 0이 있는 수치형 속성 (-,/ 모두 의미 있음)
ex) 검은 가방 10kg, 흰 가방 5kg → 검은 가방의 무게가 흰 가방보다 5kg 무거움, 검은 가방이 흰 가방보다 2배 무거움
2-2-3. 기타 속성
범주형 속성, 수치형 속성 외에도 다양한 유형의 속성으로 구성될 수 있음
2-3. 데이터 마이닝의 탄생
- 진정한 의미의 지식의 시대. 나아가서 지능의 시대로 인도하는 기술
- 데이터분석과 관련된 여러 기법을 통틀어서 이르는 학제적(Multidisciplinary) 융합 분야
2-4. 데이터 마이닝의 정의
: 대량의 데이터로부터 의미 있는 패턴과 규칙을 발견하기 위해 탐석과 분석을 하는 비즈니스 프로세스
2-4-1. 비즈니스 프로세스
: 주어진 입력을 받아서 고객 또는 시장에게 가치 있는 결과를 산출하는, 구조적이고 측정 가능한 활동의 집합
- 시작과 끝이 존재 → 명백한 투입과 산출이 있음, 목표 지향적
2-4-2. 대량의 데이터
: 컴퓨팅 능력의 향상으로 인해 대량의 데이터가 부담이 아니라 오히려 이득
2-4-3. 의미 있는 패턴과 규칙
- 패턴과 규칙 = 지식
- 그냥 데이터를 설명하는 패턴과 규칙 x, 목표에 유용한 패턴과 규칙
2-5. 데이터 마이닝의 유형
2-5-1. 가설 검정 (Hypothesis Testing)
: 데이터를 수집하고 분석해 가설을 설정하고 이 가설의 합당성 여부를 판정하는 과정
- 통계적 기법을 사용해 가설 검정을 수행하는데, 데이터를 분석한 결과와 가설이 일치하는 경우에는 가설 채택, 그렇지 않은 경우에는 가설 기각
2-5-2. 방향성 데이터 마이닝
- 하향식(top-down) 접근 방법으로서, 원하는 것이 무엇인지가 명확할 때 수행하는 데이터 마이닝
- 목표 속성 (Target Attribute)을 정하고 그 속성의 값을 찾기 위해 수행하는 데이터 마이닝
2-5-3. 무방향성 데이터 마이닝
- 상향식(Bottom-up) 접근 방법으로서, 목표속성을 정하지 않고 데이터 레코드 간 또는 속성 간의 관계를 찾고자 할 때 수행하는 데이터 마이
- 예측 모델을 구축하고자 하는 것이 아니고 데이터에 대한 이해력과 통찰력을 얻고자함
2-6. 데이터 마이닝의 단계
2-6-1. KDD 2.0
-
대상 문제 파악(Problem Identification)
-
데이터 선정(Data Selection)
-
데이터 전처리(Data Preprocessing)
- 정제 (Cleaning), 보강 (Enrichment), 정리 (sort-out) 작업 등
- 동일한 개체가 상이한 개체로 입력된 경우 통일하여 중복 제거 (De-duplication)
- 도메인에 합치하지 않는 데이터의 속성값을 올바르게 고치는 작업 (Domain Consistency)
- 보강 (Enrichment) : 분석에 필요한 새로운 속성을 추가해 데이터의 품질을 높이는 작업
- 정리 (Sort-out) : 분석에 무관한 속성을 제거하고 가치 있는 충분한 정보를 가진 레코드만 선택한 후 나머지 레코드는 버리는 작업
-
데이터 변환(Data Transformation)
- 상세한 속성값을 패턴을 나타낼 수 있는 값으로 변환
-
모델 구축(Model Building)
- 다양한 모델링 기법을 사용해 모델을 구축하고 유용한 지식 도출
- 데이터에 대한 통계적 분석을 통해 데이터에 대한 전반적인 이해 필요
- 다양한 모델링 기법으로 모델을 구축
- 연관 분석 (Association Analysis)
- 의사결정 트리 (Decision Tree)
- 인공 신경망 (Artificial Neural Network)
-
모델 결과 평가(Model Result Evaluation)
: 모델의 결과를 해석하고 분석 목표에 적합한지 평가
-
모델 결과와 시스템의 통합(Consolidation of Result and System)
데이터 마이닝의 결과는 다양한 형태로 사용 가능
- 통찰력 제공
- 데이터의 수정
- 1회 사용
- 결과의 저장
- 정기적 예측
- 실시간 사용
2-6-2. CRISP-DM
: Eurpoean Industry Consortium에서 제안해 가장 많은 데이터 마이너가 사용하는 방법론
- 비즈니스 이해 (Business Understanding)
- 비즈니스 목표 결정
- 상황 파악
- 데이터 마이닝 목표 결정
- 프로젝트 계획 수립
- 데이터 이해 (Data Understanding)
- 데이터 수집
- 데이터 기술
- 데이터 탐색
- 데이터 품질 검사
- 데이터 준비 (Data Preparation)
- 데이터 선정
- 데이터 정제
- 데이터 구축
- 데이터 통합
- 데이터 포맷
- 모델링 (Modeling)
- 모델링 기법 선정
- 테스트 방법 수립
- 모델 구축
- 모델 평가
- 평가 (Evaluation)
- 결과 평가
- 과정 리뷰
- 다음 단계 결정
- 전개 (Deployment)
- 전개 계획
- 전개 계획감시와 유지 계획
- 최종 보고서 작성
- 프로젝트 리뷰
2-6-3. 두 방법론의 비교
Reference
[1] 데이터 애널리틱스 (이재식, 2020)