구분 | 내용 |
---|---|
거시적 관점 | 사회, 기술, 경제, 환경, 정치 |
경쟁자 확대 | 경쟁사의 동향 : 대체제, 경쟁자, 신규 진입자 |
시장 니즈 탐색 | 고객, 채널, 영향자들 |
역량의 변화 | 내부역량, 파트너 네트워크 |
단계 | 내용 | 수행업무(Task) |
---|---|---|
업무 이해 | 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계 | 업무 목적 파악 상황 파악 데이터 마이닝 목표 설정 프로젝트 계획 수립 |
데이터 이해 | 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계 | 초기 데이터 수집 데이터 기술 분석 데이터 탐색 데이터 품질 확인 |
데이터 준비 | * 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계(많은 시간이 소요될 수 있음) | 분석용 데이터 셋 선택 데이터 정제 분석용 데이터 셋 편성 데이터 통합 * 데이터 포맷팅 |
모델링 | 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며, 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합(Over-fitting) 문제를 확인 | 모델링 기법 선택 모델 테스트 계획 설계 모델 작성 모델 평가 |
평가 | * 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단 | 분석결과 평가 모델링 과정 평가 * 모델 적용성 평가 |
전개 | 모델링과 평가 단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하는 단계 모니터링과 모델의 유지보수 계획 마련 → 모델에 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영모델의 평가 기준에 따라 생명 주기(Life cycle)가 다양하므로 상세한 전개 계획이 필요 * CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리 | 전개 계획 수립 모니터링과 유지보수 계획 수립 프로젝트 종료보고서 작성 프로젝트 리뷰 |
과제 발굴 방법 | 내용 | 예시 |
---|---|---|
업무 (Operation) | 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원(Resource) 관련 주제 도출 | - 생산 공적 최적화 - 재고량 최소화 |
제품 (Product) | 생산 및 제공하는 제품, 서비스를 개선하기 위한 관련 주체 도출 | - 제품의 주요 기능 개선 - 서비스 모니터링 지표 도출 |
고객 (Customer) | 제품, 서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주체 도출 | - 고객 Call 대기 시간 최소화 - 영업점 위치 최적화 |
규제와 감사 (Regulation & Audit) | 제품 생산 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출 | - 제공 서비스 품질의 이상 징후 관리 - 새로운 환경 규제 시 예상되는 제품 추출 등 |
지원 인프라 (IT & Human Resource) | 분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출 | - EDW(Enterprise Data Warehouse) 최적화 - 적정 운영 인력 도출 등 |
다양한 데이터 유형 중 정형 - 반정형 - 비정형 데이터 순서로 가장 적절한 것은?
① Demand Forecasts - Competitor pricing - Email records
② Facebook status - Werther data - Web logs
③ RFID - Internet of thing sensing - Loyalty program
④ CRM Transaction data - Twittwe density - Mobile location
정답 ①
해설
정형 데이터의 유형은 ERP, CRM, SCM 등 정보시스템이며 반정형 데이터의 유형은 로그 데이터, 모바일 데이터, 센싱 데이터이다. 비정형 데이터의 유형은 영상, 음성, 문자, 메일 등이다.
다음 중 CRISP-DM 방법론의 모델링 단계에서 수행하는 태스트(task)로 적절하지 않은 것은?
① 모델 테스트 계획 설계
② 모델 평가
③ 모델링 기법 선택
④ 모델 적용성 평가
정답 ④
해설
CRISP-DM 방법론의 각 단계별 수행하는 태스크
- 업무 이해
- 업무 목적 파악
- 상황 파악
- 데이터 마이닝 목표 설정
- 프로젝트 계획 수립
- 데이터 이해
- 초기 데이터 수집
- 데이터 기술 분석
- 데이터 탐색
- 데이터 품질 확인
- 데이터 준비
- 분석용 데이터 셋 선택
- 데이터 정제
- 분석용 데이터 셋 편셩
- 데이터 통합
- 데이터 포맷팅
- 모델링
- 모델링 기법 선택
- 모델 테스트 계획 설계
- 모델 작성
- 모델 평가
- 평가
- 분석결과 평가
- 모델링 과정 평가
- 모델 적용성 평가
- 전개
- 전개 계쇡 수립
- 모니터링과 유지보수 계획 수립
- 프로젝트 종료보고서 작성
- 프로젝트 리뷰
빅데이터 분석 방법론의 분석기획 단계 순서가 바르게 연결된 것은?
① 프로젝트 범위 설정 - 데이터 분석 프로젝트 정의 - 프로젝트 수행계획 수립 - 데이터 분석 위험 식별
② 프로젝트 범위 설정 - 데이터 분석 프로젝트 정의 - 데이터 분석 위험 식별 - 프로젝트 수행계획 수립
③ 데이터 분석 위험 식별 - 프로젝트 범위 설정 - 프로젝트 수행계획 수립 - 데이터 분석 프로젝트 정의
④ 데이터 분석 위험 식별 - 프로젝트 범위 설정 - 데이터 분석 프로젝트 정의 - 프로젝트 수행계획 수립
정답 ①
해설
프로젝트 범위를 설정해야 프로젝트를 정의할 수 있고, 프로젝트를 정의해야 수행계쇡을 수립할 수 있으며, 수행계획이 수립되어야 분석 위험을 식별할 수 있다.
다음 중 빅데이터 분석 방법론에서 단계 간 피드백이 반복적으로 많이 발생할 수 있는 단계는?
① 분석 기획 단계 ➡️ 데이터 준비 단계
② 데이터 준비 단계 ➡️ 데이터 분석 단계
③ 데이터 분석 단계 ➡️ 시스템 구현 단계
④ 시스템 구현 단계 ➡️ 평가와 전개 단계
정답 ②
해설
데이터 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 단계를 반복하여 진행한다.
비즈니스 모델 캔버스의 채널(Channel)에 대한 기능으로 가장 부적절한 것은?
① 해당고객에게 접근하는 유통 채널을 공급한다.
② 고객에게 밸류 프로포지션을 전달한다.
③ 구매 고객에 대한 A/S를 제공한다.
④ 기업이 제공하는 상품이나 서비스에 대한 고객의 이해를 높여준다.
정답 ①
해설
유통은 채널에 해당하지 않는다.
데이터 분석에서는 하향식 접근 방식과 상향식 접근 방식으로 분석과제를 발굴하게 되는데, 다음 중 하향식 접근 방식의 단계에서 타당성 평가에 대한 설명으로 가장 부적절한 것은?
① 도출된 분석 문제에 대한 대안을 과제화 하기 위해서는 다각정 타당성 검토가 필요하다.
② 경제적 타당성은 비용 대비 효익의 관점에서 평가한다.
③ 데이터 타당성 확보를 위하여 문제발생 포인트에 대한 데이터 확보가 중요하다.
④ 기술적 타당성 분석 시 적용 가능한 요소기술 확보 방안에 대한 사전 고려가 필요하다.
정답 ③
해설
데이터 타당성에 대해서는 데이터 준재 여부, 분석 시스템 환경, 분석 역량에 대한 검토가 필요하다.
문제발생 포인트에 대한 확보는 중요하지 않다.
다음 중 분석과제 정의서에 대한 설명으로 가장 적절한 것은?
① 분석과제 정의서는 소스 데이터, 데이터 입수 및 분석의 난이도, 분석 방법 등에 대한 항목이 포함되어야 한다.
② 분석과제 정의서는 프로젝트를 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공 여부를 판별할 수 없는 자료이다.
③ 분석과제 정의서에는 분석 모델에 적용될 알고리즘과 분석 모델의 기반이 되는 Feature가 포함되어야 한다.
④ 분석과제 정의서는 프로젝트 계획서를 작성하기 위한 중간 결과로써 구성 항목으로 도출할 필요는 없다.
정답 ①
해설
② 분석과제 정의서는 프로젝트를 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공 여부를 판별할 수없는있는 자료이다.
③ 분석과제 정의서에는 분석 모델에 적용될 알고리즘과 분석 모델의 기반이 되는 Feature가포함되어야 한다.포함되지 않아도 된다. (Feature는 보통 분석과제 정의서 작성 이후 단계에서 도출된다.)
④ 분석과제 정의서는 프로젝트 계획서를 작성하기 위한 중간 결과로써 구성 항목으로 도출할 필요는없다.있다.
다음 중 데이터 분석을 위한 수준 진단에서 분석 준비도의 분석 데이터 진단 항목으로 가장 부적절한 것은?
① 분석 업무를 위한 데이터 충실성, 신뢰성, 적시성
② 내부 데이터 집중 활용 체계
③ 기준 데이터 관리(MDM)
④ 비구조적 데이터 관리
정답 ②
해설
내부 데이터 집중 활용 체계가 아닌 외부 데이터 활용 체계를 진단한다.
지속적인 분석 내재화를 위한 장기적인 마스터 플랜 방식에 비하여 과제 중심적인 접근 방식의 특징으로 가장 부적절한 것은?
① Quick - Win
② Accuracy & Deploy
③ Problem Solving
④ Speed & Test
정답 ②
해설
①, ③, ④는 과제 중심적인 접근 방식의 특징이고. ②는 장기적인 마스터 플랜 방식의 특징이다.
분석 마스터 프랜 수립에서 과제 우선순위 결정과 관련한 내용으로 부적절한 것은?
① 가치는 투자비용 요소이다.
② 전략적 중요도, ROI, 실행 용이성은 분석과제 우선순위 결정에 고려할 사항이다.
③ 시급성과 전략적 필요성은 전략적 중요도의 평가 요소이다.
④ 적용 기술의 안전성 검증은 기술 용이성의 평가 요소이다.
정답 ①
해설
가치(Value)는 비즈니스 효과에 해당하며, 투자비용 요소는 속도(Velocity), 크기(Volume), 다양성(Veriety)으로 구성되어 있다.
빅데이터를 활용한 비즈니스는 기업에 많은 변화를 가져오고 있다. 다음 중 기업에서 이러한 변화를 수용하기 위한 중장기적 대응 방안으로 가장 거리가 먼 것은?
① 분석 조직 및 인력에 대한 교육과 훈련
② 데이터 기반의 의사결정문화 정착
③ 데이터 분석 도구 기반의 교육
④ 분석역량 강화를 위한 체계적인 계획 및 시행
정답 ③
해설
중장기적 대응 방안으로는 데이터 분석 도구, 즉 단순한 툴 사용법을 교육하는 것이 아닌 분석역량을 기를 수 있는 교육이 필요하다.
다음 중 분석과제 관리 프로세스에 대한 설명으로 가장 부적절한 것은?
① 과제발굴단계에서는 분석 아이디어 발굴, 분석과제 후보제안, 분석과제 확정 프로세스가 있다.
② 분석과제로 확정된 분석과제를 풀(Pool)로 관리한다.
③ 분석과제 중에 발생된 시사점과 분석 결과물은 풀(Pool)로 관리하고 공유한다.
④ 과제수행단계에서는 팀 구성, 분석과제 실행, 분석과제 진행 관리, 결과 공유 프로세스가있다.
정답 ②
해설
- 분석과제로 확정된 분석과제는 확정되었으므로 풀(Pool)로 관리하지 않는다.
- 분석과제 중에 발생된 시사점과 분석 결과물은 풀(Pool)로 관리하고 공유한다.
다음 중 기존에 행해졌던 데이터 분석과 비교한 빅테이터 분석의 특징으로 적절한 것은?
ㄱ. 분석데상 데이터를 모든 형태 및 내외부 데이터로 확대한다.
ㄴ. 데이터의 생산 시점에서부터 실시간에 가까운 분석이 가능하다.
ㄷ. 데이터 마트에 정형 데이터를 적재하고 데이터 분석을 통하여 모델을 만들 수 있다.
ㄹ. 고급 분석기법을 활용할 수 있다.
① ㄱ, ㄴ, ㄷ
② ㄱ, ㄴ, ㄹ
③ ㄴ, ㄷ, ㄹ
④ ㄱ, ㄴ, ㄷ, ㄹ
정답 ①
해설
고급 분석기법을 활용하는 것은 기존 데이터 분석에도 활용되었다.(고 한다.)
다음 중 빅데이터 분석에서 Self Service Analytics에 대한 설명으로 가장 부적절한 것은?
① Self Service Analytics에 포함되어야 하는 주요 기능은 BI 도구, Ad hoc Report, OLAP, Visual Discovery, MachineLearning 등이다.
② Self Service Analytics의 성공적인 적용을 위해서는 Reference Method의 작성 및 공유, 표준 데이터의 활용, 데이터 거버넌스, 도구 사용에 대한 지속적인 교육이 필요하다.
③ Self Service Analytics를 수행하기 위해서는 R, Python 등의 데이터 분석 언어와 많은 통계적 지식을 필요로 한다.
④ Self Service Analytics는 상업용 뿐만 아니라 OSS(Open Service Software)로도 구현되고, 분석의 성능 향상을 위하여 분산처리도 지원하고 있다.
정답 ④
해설
Self Service Analytics는 분산처리를 지원하지는 않는다.