분석기획란❓
실제 분석을 수행하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 하는 방안을 사전에 계획하는 일련의 사전작업
어떠한 목표를 달성하기 위해, 어떤 데이터를 가지고, 어떤 방식으로 수행할지에 대한 계획 수립
데이터의 핵심은 데이터 자체가 아닌 분석을 통한 의사결정 최적화
업무담당자가 의사결정을 내리기 위해 이벤트 발생부터 액션까지 지연시간 (데이터지연, 분석지연, 의사결정의 지연)이 운영의 장애요인으로 발생한다
➡️ 데이터 기반의 분석업무 활용 체계 도입을 통해 지연시간을 줄일 수 있다.
데이터 지연 시간 ,분석 지연 시간 ,의사결정 지연 시간
위의 지연 시간들은 운영 최적화의 장애요인으로 작용한다.
데이터 분석 도입의 성공요소
Question First 방식으로 접근 : 업무에 필요한 분석이 무언지를 찾기 위해 분석질문을 먼저 정의하고 분석하기 위해 필요한 데이터가 무엇인지 정의한다.
선택과 집중 : 핵심 분석 몇 가지만 잘해도 차별화된 복제할 수 없는 핵심 경쟁력 가진다.
자동화된 분석을 업무 프로세스에 내재화 : 분석은 업무 의사결정 프로세스의 일부이다.
가용 데이터 고려 | 적절한 활용방안, 유스케이스 탐색 | 장애요소에 대한 사전계획 수립 |
- 데이터 확보 가능 여부 - 데이터 유형에 대한 분석 |
- 기존의 유사시나리오 및 솔루션 활용 - 과거의 유사한 분석사례를 참조 |
- 발생 가능한 장애요소에 대한 사전계획 수립이 필요하다. |
데이터의 확보 필요
유형에 대한 분석 필요
데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 달라지기 때문이다.
잘 구현되어서 활용되고 있는 유사 시나리오를 통해 사용자의 공감대를 얻고 원활한 분석 수행에 도움이 될 수 있다.
성공 요소 |
설명 |
Question First 방식 |
업무에 필요한 분석이 무언지를 찾기 위해 분석질문을 먼저 정의하고 분석하기 위해 필요한 데이터가 무엇인지 정의. |
선택과 집중 |
핵심 분석을 발굴해 내고 이를 기준으로 확장하는 방식으로 접근한다. |
자동화된 분석을 업무 프로세스에 내재화 |
- 분석 결과에 따른 대응액션을 즉각적으로 실행할 수 있게 한다. ➡️ 업무 담당자 마다의 의사결정 및 실행 품질의 갭을 최소화 - 분석은 업무 의사결정 프로세스의 일부 |
분석의방법(how)/분석의 대상(what) | Known | Un-Known |
Known | 최적화(Optimization) | 통찰(Insigt) |
Un-Known | 솔루션(Solution) | 발견(Discovery) |
최적화(Optimization)
문제와 분석 방법을 알고 있는 경우
개선을 통한 최적화의 형태로 분석 수행
문제는 알지만 방법을 모르는 경우
분석 주제에 대한 솔루션을 찾아내는 방식
통찰(Insight)
분석의 대상을 명확하게 모르는 경우
기존 분석 방식을 활용하여 새로운 통찰을 도출
발견(Discovery)
분석의 대상과 방법을 모르는 경우
발견 접근법으로 분석의 대상 자체를 새롭게 도출
분석 과제를 언제 해결해야 하는가에 따라 과제 중심, 마스터플랜 방식 으로 나뉜다.
과제 중심적인 접근 방식 (과제 단위) | 장기적, 지속적 분석 내재화 (마스터플랜 단위) |
- 빠르게 해결하는 것이 목적 | - 지속적인 분석 내재화가 목적 |
- 빠른 수행, 문제 해결이 목적 (Speed & Test) | - 정확도, 문제 정의가 목적 (Accuracy & Deploy) |
- 분석 과제 유형은 Quick & Win | - 분석 과제 유형은 Long term view |
- 과제 접근 방식은 Problem Solving | - 과제 접근 방식은 Problem Definition |
Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스
1️⃣ 데이터셋 선택(Selection) | 2️⃣ 데이터 전처리(Preprocessing) | 3️⃣ 데이터 변환(Transformation) | 4️⃣ 데이터 마이닝(Data Mining) | 5️⃣ 데이터 마이닝 결과 및 해석 평가(Interpretation/Evaluation) |
- 비즈니스 도메인 이해 - 프로젝트 목표 설정 - 타겟 데이터 생성 |
- 전처리: 잡음, 이상치, 결측치 파악 및 제거 - 의미있는 데이터 재가공 |
- 변수 생성, 선택 - 데이터 차원 축소 - 학습용, 검증용 분리 |
- 학습 데이터를 이용 - 데이터마이닝 기법 선택 - 적절한 알고리즘 적용 |
- 목적과의 일치성 확인 - 분석 결과 평가 - 업무 활용 방안 마련 |
데이터셋 선택(Selection)
선택에 앞서 비즈니스 도메인에 대한 이해와 프로젝트 목표를 명확히 설정한다.
목표 데이터를 구성하며, 이후 단계에서 데이터가 추가로 요구되는 경우 이 프로세스를 반복수행한다.
데이터 전처리(Preprocessing)
데이터셋에 포함되어 있는 잡음과 이상값, 결측치를 식별한다.
필요시 데이터를 제거하거나 의미있는 데이터로 처리(정제)한다.
데이터 변환(Transformation)
데이터 마이닝(Data Mining)
데이터 마이닝 기법 및 알고리즘을 선택하고 마이닝 작업을 시행
필요에 따라 데이터 전처리, 데이터 변환 등의 프로세스를 병행
데이터 마이닝 결과 평가(Interpretation/Evaluation)
결과에 대한 해석과 평가, 분석 목적과의 일치성 확인한다.
업무에 활용하기 위한 방안 탐색한다.
필요에 따라 전체 프로세스 반복 수행한다.
- 유럽연합의 프로젝트에서 시작했다.
- 계층적 프로세스 모델로써 4개 레벨로 구성된다.
- 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic tasks)를 포함한다.
일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행 하는 단위이며, 일반화 태스크는 구체적으로 수행하는 레벨인 세분화 태스크(Specialized tasks)로 구성된다.
비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계로써 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획 을 수립하는 단계이다.
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계이다.
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터로 편성하는 단계로써 많은 시간이 소요될 수 있다.
데이터셋 선택, 데이터 정제, 데이터셋 편성, 데이터 통합
다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는파라미터를 최적화 해 나가는 단계이다.
데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며, 모델링 결과를 테스트용 데이터셋으로 평가하여 모델 과적합 문제를 확인한다.
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단한다.
분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
모델링과 평가 단계를 통해 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하고 모니터링 과 모델의 유지보수 계획을 마련한다.
모델은 적용되는 비즈니스 도메인의 특성, 입력되는 데이터 품질 편차, 운영모델의 평가 기준에 따라 생명주기가 다양하므로 상세한 전개 계획이 필요하다.
프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 마무리한다.
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
Phase | Task | Step |
데이터 준비단계 |
필요 데이터 정의 | 데이터 정의 : 메타데이터 정의서 , ERD 포함 |
데이터 스토어 설계 | 정형 데이터 스토어 설계 : 데이터 매핑 정의서 |
|
데이터 수집 및 정합성 점검 | 데이터 수집 및 저장 : 크롤링 , API , 스크립트 프로그램 |
|
데이터 정합성(무결성) 점검 |
메타 데이터❓
조직에서 관심을 갖는 데이터의 특성을 요약한 데이터
데이터 맵핑시 표현방식이 다르면 통합시 데이터 맵핑 정의서를 만들어야한다.
Phase | Task | Step |
데이터 분석 단계 | 분석용 데이터 준비 | 비즈니스 룰 확인 , 분석용 데이터셋 준비 |
텍스트 분석 | 웹페이지 데이터 , 비정형/반정형 데이터를 가지고 분석 | |
탐색적 분석 | 데이터분포와 관계를 알아보는 단계 모델링은 위한 기초자료 데이터 시각화와 연계됨 |
|
모델링 | 분류/예측 모딜을 만들고 적용을 위한 알고리즘 작성 | |
모델 평가 및 검증 |
크게 2가지인 하향식 접근 방법(Top Down Approach)과 상향식 접근 방법(Bottom Up Approach)으로 발굴을 할 수 있다.
향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하며 상호 보완하는 것이 바람직하다.
과제 발굴 후 분석과제 정의서의 형태로 산출물을 생성하며, 향후 프로젝트 수행계획의 입력물로 사용한다.
상향식 접근법❓ | 지도 학습 | 비지도 학습 | 프로토타이핑 접근법 |
- 분석 대상 을 모른다. - 원천 데이터로부터 통찰과 지식을 얻는 방법 - 분석부터 하고, 그 결과로부터 가치있는 문제를 도출함 |
- Supervised Learning - 정답/라벨이 있는 데이터 - 범주형 - 분류 - 연속형 - 회귀 - 의사결정트리, 인공신경망 등 |
- Unsupervised Learning - 정답/라벨이 없는 데이터 - 비슷한 특징을 가진 데이터끼리 군집화 - 군집분석, 주성분분석 등 |
- 시행착오 해결법 - 분석 먼저 ➡️ 결과 확인 - 조금씩 개선해나간다. - 문제 정의가 불명확하고, 새로운 문제인 경우 |
문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 개선하는 방식이다.
최근 기업 환경에서 상향식 접근 방식의 유용성이 점차 증가하고 있는 추세이며,
경험적인 과거 데이터를 무작정 결합하여 정보 혹은 지식을 얻고자 하는 새로운 분석 패러다임
하향식 접근 방식은 문제의 구조가 분명하고 문제를 해결하고 해결책을 도출하기 위한 솔루션 도출에는 유효하지만 새로운 문제의 탐색에는 한계가 있다.
통상적인 관점에서는 분석적으로 사물을 인식하려는 "Why"를 강조하지만, 이는 우리가 알고 있다고 가정하는 것이기 때문에 문제와 맞지 않는 솔루션인 경우 오류가 발생할 소지가 있다. 그렇기 때문에, 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식 하는 "What" 관점에서 보아야 한다는 것이다.
객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 좀 더 잘 이해하는 방식으로의 접근을 수행하는 것이다.
데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.
분류·추측·예측·최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적
문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식이다.
최근 복잡하고 다양한 환경에서 발생하는 새로운 문제의 탐색에 한계 존재
전통적 분석, 'Why' 강조, 지도학습(분류, 추측, 예측, 최적화)
기준 모델을 이용하여 문제 도출, 식별 : 비즈니스 모델과 외부 참조모델
문제 해결 ➡️ 발생하는 가치에 중점
비즈니스 모델 탐색 기법 | 분석기회 발굴범위의 확장 | 외부참조 모델기반 문제탐색 | 분석 유스케이스 |
- 비즈니스 모델 캔버스 9개 영역을 5개로 단순화 - 업무, 제품, 고객, 규제와 감사, 지원 인프라 |
- 거시적 관점: 기업에 주는 영향 - 경쟁자 확대 관점 - 시장의 니즈 탐색 관점 - 역량의 재해석 관점 |
- 유사 동종 업계 벤치마킹 - 가장 빠르고 쉬운 방식이다. - 브레인스토밍 활용 |
- 현재 유사, 동종 사례 탐색 - 분석 유스케이스: 분석을 적용했을 때 업무 흐름을 개념적 으로 설명한 것 |
업무, 제품, 고객 단위로 문제 발굴
관려 영역인 규제와 감사, 자원 인프라 영역에 대한 기회 추가 도출
1. 업무 (Operation) : 내부 프로세스 및 주요 자원
2. 제품 (Product) : 제품, 서비스를 개선
3. 고객 (Customer) : 사용자 및 고객, 제공하는 채널
4. 규제와 감사 (Regulation and Audit) : 제품 생산 및 전달 과정 프로세스 중에 발생하는 규제 및 보안
5. 지원 인프라 (IT and Human Resource) : 분석 수행하는 시스템 영역 및 운영 관리하는 인력
✅ 혁신의 관점에서 분석 기회 발굴의 범위 확장
1) 거시적 관점 : 사회, 경제적 요인 STEEF
사회 (Social) 영역 : 전체 시장 대상으로 사회적, 문화적, 구조적 트렌드 변화 기반
기술 (Technological) 영역 : 최신 기술의 등장 및 변화에 따른 역량 내재화, 개발
경제 (Economic) 영역 : 산업과 금융 전반의 변동성 및 경제 구조 변화 동향 ➡️ 시장의 흐름 파악
환경 (Environment) 영역 : 환경 관련 정부, 사회단체, 시민사회의 관심과 규제 동향 파악
정치 (Political) 영역 : 정책방향, 정세, 저정학적 동향 등 거시적인 흐름
2) 경쟁자 확대 관점
대체재 (Substitute) 영역 : 대체재 파악
경쟁자 (Competitor) 영역 : 주요경쟁자 동향 파악
신규 진입자 (New Entrant) 영역 : 향후 신규 진입자 동향 파악
3) 시장의 니즈 탐색 관점
고객 (Customer) 영역 : 고객의 구매 동향 및 고객의 컨텍스트 이해 ➡️ 개선 필요 분석
채널 (Channel) 영역 : 자체적 운영 채널 + 최종 고객에게 전달하는 경로의 채널별 분석
영향자들 (Influencer) 영역 : 주주, 투자자, 협회 및 기타 이해관계자의 주요 관심사항 파악
4) 역량의 재해석 관점
내부 역량 (Competency) 영역 : 기본 + 노하우, 인프라적인 유형 자산에 대한 재해석
파트너와 네트워크 (Partners and Network) 영역 : 밀접한 관계 유지하고 있는 관계사와 공급사 등의 역량 분석
비즈니스 문제 ➡️ 데이터 분석 문제
문제 탐색 단계: 무엇을 어떤 목적으로 수행❓
문제 정의 단계: 달성 위해 필요한 데이터 및 기법 정리
문제 정의: 식별된 비즈니스 문제를 데이터 문제로 변환하여 정의한다.
필요한 데이터, 기법을 정의
최종 사용자 관점에서 이루어져야 한다.
기존 시스템, 인력으로 수행 | 역량 확보 (교육&채용) | 시스템 고도화 | 전문업체 아웃소싱 |
- 기존시스템으로 가능 O - 분석역량 있음 O |
- 기존시스템으로 가능 O - 분석역량 없음 X |
- 기존시스템으로 불가능 X - 분석역량 있음 O |
- 기존시스템으로 불가능 X - 분석역량 없음 X |
다각도 고려 필요
분석 역량 (Who) 와 분석 기법 및 시스템 (How)에 따라
확보, 기존 시스템 : 기존 시스템 개선 활용
확보, 신규 도입 : 시스템 고도화
미확보, 기존 시스템 : 교육 및 채용을 통한 역량 확보
미확보, 신규 도입 : 전문 업체 Sourcing
경제적타당성 | 데이터 및 기술적타당성 |
- 분석을 위한 지출항목 - 분석 수행 시 경제적 이득을 고려 |
- 분석 수행 가능 여부 - 데이터 존재 여부, 분석 시스템 환경, 분석 역량 고려 |
1) 경제적 타당성 : 비용 대비 편익 분석 관점
2) 데이터 및 기술적 타당성 : 데이터 존재 여부, 분석 시스템 환경, 분석 역량 필요
분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재한다.
분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 이에 대한 기준점을 사전에 정의해 두어야 한다.
해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델을 찾는 방안을 사전에 모색해야한다.
Accuracy 는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고, Precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미한다.
분석의 활용적인 측면에서는 Accuracy가 중요하며,
안정성 측면 에서는 Precision이 중요하다.
그러나 Accuracy와 Precision은 트레이드 오프(Trade off) 가 되는 경우가 많기 때문에 모델의 해석 및 적용 시 사전에 고려 해야 한다.
트레이드 오프(Trade off) 관계 ❓
➡️어느 것을 얻으려면 반드시 다른 것을 희생해야 하는 경제 관계
분석가에게는 개별적인 분석 업무 수행뿐만 아니라 전반적인 프로젝트 관리 또한 중요하다.
분석 프로젝트에서는 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가의 역할이 중요하다.
조정자로서의 분석가가 해당 프로젝트의 관리자까지 겸임하게 되는 경우가 대부분이므로 프로젝트 관리방안에 대한 이해와 주요 관리 포인트를 사전에 숙지하는 것이 필수적이다.
분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 프로젝트 관리방식에 대한 고려도 필요하다.
데이터 분석의 지속적인 반복 및 개선을 통해 의도했던 결과에 더욱 가까워지는 형태로 프로젝트가 진행될 수 있도록 적절한 관리 방안 수립이 사전에 필요하다.
본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한]
[데이터 분석 전문가 가이드, 2019년 2월 8일 개정]에 근거한 것임을 밝힙니다.