
| 분석의 방법 \ 분석의 대상 | Known | Un-Known |
|---|---|---|
| Known | Optimization | Insight |
| Un-Known | Solution | Discovery |
과제 중심적인 접근 방식 : 당면한 과제를 빠르게 해결
장기적인 마스터 프랜 방식 : 지속적인 분석 내재화가 중점
분석 기획에서는 문제해결을 위한 단기적인 접근방식과 분석과제 정의를 위한 중장기적인 마스터 플랜 접근방식을 융합하여 적용하는 것이 중요
| 과제 | 당면한 분석 주제의 해결 | 지속적 분석 문화 내재화 |
|---|---|---|
| 1차 목표 | Speed & Test | Accuaracy & Deploy |
| 과제의 유형 | Quick & Win | Long Term & View |
| 접근 방식 | Problem Solving | Problem & Definition |
데이터 셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이며 데이터 베이스 또는 윈시 데이터에서 분석에 필요한 데이터를 선택하는 단계
데이터 마이닝에 필요한 Target Data를 구성하여 분석에 활용한다
추출된 분석 대상용 데이터 셋에 포함되어 있는 Noise, Outlier, Missing Value를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계
추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행한다
정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터 마이닝을 할 수 있도록 데이터를 변경하는 단계
Training Data와 Test Data로 데이터를 분리하는 단계
학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터 마이닝을 작업을 실행하는 단계
필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출
데이터 마이닝에 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성을 확인
데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계
필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행
최상위 레벨은 여러 개의 단계로 구성되고 각 단계는 일반화 태스크를 포함한다
일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적인 수행 레벨인 세분화 태스크로 구성된다
마지막 레벨인 프로세스 실행은 데이터 마이닝을 위한 구체적인 실행을 포함한다
6단계로 구성되어 있으며, 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 됨
비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
데이터 품질에 대한 문제점을 식별하고 숨ㅁ겨져 있는 인사이트를 발견하는 단계
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 학인
분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계
분석용 데이터 셋 선택, 데이터 정재, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있음
모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인
모델링 기법 선택, 모델 테스트 게획 설계, 모델 작성, 모델 평가
모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터 마이닝 결과를 최종적으로 수용 할 것인지 판단
분석 결과 평가, 모델링 과정, 모델 적용성 평가
모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계
모니터링과 모델의 유지 보수 계획 마련
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
비즈니스 이해 및 범위 설정
비즈니스 이해
프로젝트 범위 설정
프로젝트 정의 및 계획 수립
데이터 분석 프로젝트 정의
프로젝트 계획 수립
프로젝트 위험 계획 수립
데이터 분석 위험 식별
위험 대응 계획 수립
필요 데이터 정의
데이터 정의
데이터 획득 방안 수립
데이터 스토어 설계
정형 데이터 스토어 설계
비정형 데이터 스토어 설계
데이터 수집 및 정합성 정검
데이터 수집 및 저장
데이터 정합성 정검
분석용 데이터 준비
비즈니스를 확인
분석용 데이터 셋 준비
텍스트 분석
텍스트 데이터 확인 및 추출
텍스트 데이터 분석
탐색적 분석
탐색적 데이터 분석
데이터 시각화
모델링
데이터 분할
데이터 모델링
모델 적용 및 운영 방안
모델 평가 및 검증
모델 평가
모델 검증
설계 및 구현
시스템 분석 및 설계
시스템 구현
시스템 테스트 및 운영
시스템 테스트
시스템 운영 계획
모델 발전 계획 수립
모델 발견 계획
프로젝트 평가 및 보고
프로젝트 성과 평가
프로젝트 종료
분석 과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 관계자들이 이해하고 프로젝트를 수행할 수 있는 과제 정의서 형태로 도출
크게 하향식 접근 방법과 상향식 접근 방법이 있음
최정의 의사결정은 두 접근 장식이 상호 보완 고나계이 있을 때 가능
상향식 접근 방식의 발산 단계와 하향식 접근 방식의 수렴 단계를 반복적으로 수행
상호 보완적인 동적 환경을 통해 분석의 가치를 높일 수 있는 최적의 의사결정 방식
기업 내외부 환경을 포괄하고 있는 비즈니스 모델이라는 Frame을 활용하여 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객, 단위로 문제를 발굴
업무 : 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출
제품 : 생산 및 제공하는 제품 및 서비스를 개선하기 위한 관련 주제 도출
고객 : 제품 및 서비스를 제공받는 사용자 및 고객에게 제공하는 채널의 관점에서 주제 도출
이를 관리하는 두 가지 영익인 규제와 감사 영역과 지원 인프라 영역에 대한 기회를 추가로 도출하는 작업을 수행
규제와 감사 : 제품 생산 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출
지원 인프라 : 분석을 수행하는 시스템 영역 및 및 이를 운영 / 관리하는 인력의 관점에서 주제 도출
새로운 관점의 접근을 통해 새로운 유형의 분석 기획 및 주제 발굴을 수행해야 함
거시적 관점의 메가 트렌드
사회 : 사회적, 문화적 구조적 트랜드 변화에 기반한 분석 기회를 도출
기술 : 변화에 따른 역량 내 재화와 상품 및 서비스 개발에 대한 분석 기회 도출
경제 : 산업과 금융 전반의 변동성 및 경제 구조 변화 동향에 대한 분석 기회 도출
환경 : 환경과 관련된 정부, 사회 단체, 시민 사회의 관심과 규제 동향에 대한 분석 기회 도출
정치 : 주요 정책 방향, 정세, 지정학적 동향에 대한 분석 기회 도출
경쟁자 확대 관점
대체재 : 용합적인 경쟁 환경에서 제품 및 서비스에 대한 탐색 및 잠재적 위험을 파악
경쟁자 : 주요 경쟁자에 대한 동향을 고려한 분석 기회를 도출
신규 진입자 : 신규 진입자에 대한 동향을 파악하여 이를 고려한 분석 기회를 도출
시장의 니즈 탐색 관점
고객 : 고객의 구매 동향 및 컨텍스트를 이해하여 제품 및 서비스의 개선에 필요한 분석 기회 도출
채널 : 경로에 존재한는 채널별로 분석 기회를 확대하여 탐색
영향자 : 이해 관계자의 주요 관심사항에 대하여 파악하여 분석 기회 도출
역량의 재해석 관점
내부 역량 : 노하우와 인프라적인 유형 자산에 대해서 재해석하여 분석 기회 도출
파트너와 네트워크 : 관계사 및 공급사의 역량을 파악하여 분석 기회 도출
유사 / 동종 / 사례 벤치마킹을 통한 분석 기회 발굴은 제공되는 산업별, 업무 서비스 별 분석 테마 후보 그룹을 통해 Quick & Easy 방식으로 필요한 분석 기회가 무엇인지에 대한 아이디어를 얻음
기업에 적용할 분석 테마 후보 목록을 워크숍 형태의 브레인 스토밍을 통해 빠르게 도출하는 방법
식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
분석을 수행하는 당사자뿐만 아니라 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종 사용자 관점에서 이루어져야 함
정확한 분석의 관점으로 문제를 재정의할 필요가 있음
정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색
| 분석 기법 및 시스템 / 분석 역량 | 확보 | 미확보 |
|---|---|---|
| 기존 시스템 | 기존 시스템 개선 활용 | 교육 및 채용을 통한 역량 확보 |
| 신규 도입 | 시스템 고도화 | 전문 업체 |
답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 What 관점에서 봐야 한다
객관저긍로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 좀 더 잘 이해하는 방식으로의 접근을 수행하는 것
일반적으로 상향식 접근 방식의 데이터 분석은 비지도 학습 방법에 의해 수행
데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것
명확한 목적 하에 데이터 분석을 실시하는 것
분류 / 추측 / 예측 / 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출한는 것
프로토타이핑 접근법은 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법
프로토타이핑 방법론은 비록 완전하지 못하다 해도 신속하게 해결책이나 모형을 제시함으로써, 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 상향식 접근 방식이다
문제에 대한 인식 수준
필요 데이터 존재 여부의 불확실성
데이터 사용 목적의 가변성
분석 과제 정의서를 통해 분석별로 필요한 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행 주기, 분셕 결과에 대한 검증 오너십, 상세 분석 과정 등을 정의
분석 데이터 소스는 내외부의 비구조적인 데이터와 소셜 미디어 및 오픈 데이터까지 범위를 확장하여 고려하고 분석 방법 또한 상세히 정의
분석 결과가 도출되었을 때 이를 활용하는 시나리오 측면에서의 속도를 고려해야 한다
프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 한다
Accuracy : 모델과 실제 값 사이의 차이가 적다는 정확도
Precision : 모델을 지속적으로 반복했을 떄의 편차 수준으로써의 일관적으로 동일한 결과를 제시
분석 기회 단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨
분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위 또한 크게 변경되므로 사전에 충분한 고려가 필요
초기에 의도했던 결과가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음
분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정 관리를 진행하는 것이 필요
외부 데이터를 활용한 데이터 분석의 경우 고가의 비용이 소요될 수 있으므로 사전에 충분한 조사가 필요
오픈 소스 도구 외에 프로젝트 수행 시 의도했던 결과를 달성하기 위하여 상용 버전의 도구가 필요할 수 있음
분석 프로젝트를 수행한 결과에 대한 품질 목표를 사전에 수립하여 확정해야 함
프로젝트 품질은 품질 통제와 품질 보증으로 나누어 수행되어야 함
프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있음
PoC 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있음
분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있으므로 관련 위험을 식별하고 대응 방안을 사전에 수립해야 함
데이터 및 분석 알고리즘의 한계로 품질 목표를 달성하기 어려울 수 있어 그에 따른 대응 방안을 수립할 필요
전문성이 요구되는 데이터 분석의 결과를 모든 프로젝트 이해관계자가 공유할 수 있도록 해결해야 함
프로젝트의 원할한 진행을 위한 다양한 의사소통 체계 마련이 필요