ADP 3과목 - 데이터 분석 기획

DMIS·2023년 2월 16일
0

ADP 필기

목록 보기
3/13
post-thumbnail

✐ 요약

✔︎ 분석 과제 발굴 → 하향식 접근법 → 분석 기회 발굴의 범위 확장

구분내용
거시적 관점사회, 기술, 경제, 환경, 정치
경쟁자 확대경쟁사의 동향 : 대체제, 경쟁자, 신규 진입자
시장 니즈 탐색고객, 채널, 영향자들
역량의 변화내부역량, 파트너 네트워크

✔︎ 분석 거버넌스 체계 수립 → 분석 과제 관리 프로세스 수립 → 과제 관리 프로세스

  1. 과제 발굴
  • 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀(Pool)로 관리하면서 분석 프로젝트를 선정하는 작업을 수행한다.
  1. 과제 수행
  • 분석을 수행할 팀을 구성하고 분석 과제 실행 시 지속적인 모니터링과 과제 결과를 공유하고 개선하는 절차를 수행한다.
  • 분석 조직이 지속적이고 체계적인 분석 관리 프로세스를 수행함으로써 조직 내 분석 문화 내재화 및 경쟁력을 확보할 수 있다.
  • 해당 과제를 진행하면서 만들어진 시사점(Lesson Learned)을 포함한 결과물을 풀(Pool)에 잘 축적하고 관리함으로써 향후 유사한 분석과제 수행 시 시행착오를 최소화하고 프로젝트를 효율적으로 진행할 수 있다.

✔︎ 분석 방법론 → CRISP-DM의 프로세스

  • CRISP-DM 프로세스는 6단계로 구성되어 있으며, 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다.
    • 특히, 데이터 준비 ↔ 모델링에서 가장 많은 시간이 소요된다.
단계내용수행업무(Task)
업무 이해 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계 업무 목적 파악
상황 파악
데이터 마이닝 목표 설정
프로젝트 계획 수립
데이터 이해 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
초기 데이터 수집
데이터 기술 분석
데이터 탐색
데이터 품질 확인
데이터 준비* 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계(많은 시간이 소요될 수 있음) 분석용 데이터 셋 선택
데이터 정제
분석용 데이터 셋 편성
데이터 통합
* 데이터 포맷팅
모델링 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며, 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합(Over-fitting) 문제를 확인
모델링 기법 선택
모델 테스트 계획 설계
모델 작성
모델 평가
평가* 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단 분석결과 평가
모델링 과정 평가
* 모델 적용성 평가
전개 모델링과 평가 단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하는 단계
모니터링과 모델의 유지보수 계획 마련
→ 모델에 적용되는 비즈니스 도메인 특성,
입력되는 데이터의 품질 편차,
운영모델의 평가 기준에 따라 생명 주기(Life cycle)가 다양하므로 상세한 전개 계획이 필요
* CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리
전개 계획 수립
모니터링과 유지보수 계획 수립
프로젝트 종료보고서 작성
프로젝트 리뷰

✔︎ 분석 과제 발굴 → 하향식 접근법 → 비즈니스 모델 기반 문제 탐색

과제 발굴 방법내용예시
업무
(Operation)
제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원(Resource) 관련 주제 도출- 생산 공적 최적화
- 재고량 최소화
제품
(Product)
생산 및 제공하는 제품, 서비스를 개선하기 위한 관련 주체 도출- 제품의 주요 기능 개선
- 서비스 모니터링 지표 도출
고객
(Customer)
제품, 서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주체 도출- 고객 Call 대기 시간 최소화
- 영업점 위치 최적화
규제와 감사
(Regulation & Audit)
제품 생산 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출- 제공 서비스 품질의 이상 징후 관리
- 새로운 환경 규제 시 예상되는 제품 추출 등
지원 인프라
(IT & Human Resource)
분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출- EDW(Enterprise Data Warehouse) 최적화
- 적정 운영 인력 도출 등

✔︎ 분석 과제 발굴 → 상향식 접근법 → 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론

  • 통상적인 관점에서는 분석적으로 사물을 인식하려는 'Why'를 강조하지만, 이는 우리가 알고 있다고 가정하는 것이기 때문에 문제와 맞지 않는 솔루션인 경우 오류가 발생할 소지가 있다.
    • 그렇기 때문에 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 'What' 관점에서 보아야 한다.
  • 객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 조금 더 잘 이해하는 방식으로의 접근을 수행하는 것이다.


✐ 오답노트

⚑ 문제1

다양한 데이터 유형 중 정형 - 반정형 - 비정형 데이터 순서로 가장 적절한 것은?
① Demand Forecasts - Competitor pricing - Email records
② Facebook status - Werther data - Web logs
③ RFID - Internet of thing sensing - Loyalty program
④ CRM Transaction data - Twittwe density - Mobile location

정답
해설
정형 데이터의 유형은 ERP, CRM, SCM 등 정보시스템이며 반정형 데이터의 유형은 로그 데이터, 모바일 데이터, 센싱 데이터이다. 비정형 데이터의 유형은 영상, 음성, 문자, 메일 등이다.

⚑ 문제2

다음 중 CRISP-DM 방법론의 모델링 단계에서 수행하는 태스트(task)로 적절하지 않은 것은?
① 모델 테스트 계획 설계
② 모델 평가
③ 모델링 기법 선택
④ 모델 적용성 평가

정답
해설
CRISP-DM 방법론의 각 단계별 수행하는 태스크

  • 업무 이해
    • 업무 목적 파악
    • 상황 파악
    • 데이터 마이닝 목표 설정
    • 프로젝트 계획 수립
  • 데이터 이해
    • 초기 데이터 수집
    • 데이터 기술 분석
    • 데이터 탐색
    • 데이터 품질 확인
  • 데이터 준비
    • 분석용 데이터 셋 선택
    • 데이터 정제
    • 분석용 데이터 셋 편셩
    • 데이터 통합
    • 데이터 포맷팅
  • 모델링
    • 모델링 기법 선택
    • 모델 테스트 계획 설계
    • 모델 작성
    • 모델 평가
  • 평가
    • 분석결과 평가
    • 모델링 과정 평가
    • 모델 적용성 평가
  • 전개
    • 전개 계쇡 수립
    • 모니터링과 유지보수 계획 수립
    • 프로젝트 종료보고서 작성
    • 프로젝트 리뷰

⚑ 문제3

빅데이터 분석 방법론의 분석기획 단계 순서가 바르게 연결된 것은?
① 프로젝트 범위 설정 - 데이터 분석 프로젝트 정의 - 프로젝트 수행계획 수립 - 데이터 분석 위험 식별
② 프로젝트 범위 설정 - 데이터 분석 프로젝트 정의 - 데이터 분석 위험 식별 - 프로젝트 수행계획 수립
③ 데이터 분석 위험 식별 - 프로젝트 범위 설정 - 프로젝트 수행계획 수립 - 데이터 분석 프로젝트 정의
④ 데이터 분석 위험 식별 - 프로젝트 범위 설정 - 데이터 분석 프로젝트 정의 - 프로젝트 수행계획 수립

정답
해설
프로젝트 범위를 설정해야 프로젝트를 정의할 수 있고, 프로젝트를 정의해야 수행계쇡을 수립할 수 있으며, 수행계획이 수립되어야 분석 위험을 식별할 수 있다.

⚑ 문제4

다음 중 빅데이터 분석 방법론에서 단계 간 피드백이 반복적으로 많이 발생할 수 있는 단계는?
① 분석 기획 단계 ➡️ 데이터 준비 단계
② 데이터 준비 단계 ➡️ 데이터 분석 단계
③ 데이터 분석 단계 ➡️ 시스템 구현 단계
④ 시스템 구현 단계 ➡️ 평가와 전개 단계

정답
해설
데이터 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 단계를 반복하여 진행한다.

⚑ 문제5

비즈니스 모델 캔버스의 채널(Channel)에 대한 기능으로 가장 부적절한 것은?
① 해당고객에게 접근하는 유통 채널을 공급한다.
② 고객에게 밸류 프로포지션을 전달한다.
③ 구매 고객에 대한 A/S를 제공한다.
④ 기업이 제공하는 상품이나 서비스에 대한 고객의 이해를 높여준다.

정답
해설
유통은 채널에 해당하지 않는다.

⚑ 문제6

데이터 분석에서는 하향식 접근 방식과 상향식 접근 방식으로 분석과제를 발굴하게 되는데, 다음 중 하향식 접근 방식의 단계에서 타당성 평가에 대한 설명으로 가장 부적절한 것은?
① 도출된 분석 문제에 대한 대안을 과제화 하기 위해서는 다각정 타당성 검토가 필요하다.
② 경제적 타당성은 비용 대비 효익의 관점에서 평가한다.
③ 데이터 타당성 확보를 위하여 문제발생 포인트에 대한 데이터 확보가 중요하다.
④ 기술적 타당성 분석 시 적용 가능한 요소기술 확보 방안에 대한 사전 고려가 필요하다.

정답
해설
데이터 타당성에 대해서는 데이터 준재 여부, 분석 시스템 환경, 분석 역량에 대한 검토가 필요하다.
문제발생 포인트에 대한 확보는 중요하지 않다.

⚑ 문제7

다음 중 분석과제 정의서에 대한 설명으로 가장 적절한 것은?
① 분석과제 정의서는 소스 데이터, 데이터 입수 및 분석의 난이도, 분석 방법 등에 대한 항목이 포함되어야 한다.
② 분석과제 정의서는 프로젝트를 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공 여부를 판별할 수 없는 자료이다.
③ 분석과제 정의서에는 분석 모델에 적용될 알고리즘과 분석 모델의 기반이 되는 Feature가 포함되어야 한다.
④ 분석과제 정의서는 프로젝트 계획서를 작성하기 위한 중간 결과로써 구성 항목으로 도출할 필요는 없다.

정답
해설
② 분석과제 정의서는 프로젝트를 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공 여부를 판별할 수 없는 있는 자료이다.
③ 분석과제 정의서에는 분석 모델에 적용될 알고리즘과 분석 모델의 기반이 되는 Feature가 포함되어야 한다. 포함되지 않아도 된다. (Feature는 보통 분석과제 정의서 작성 이후 단계에서 도출된다.)
④ 분석과제 정의서는 프로젝트 계획서를 작성하기 위한 중간 결과로써 구성 항목으로 도출할 필요는 없다. 있다.

⚑ 문제8

다음 중 데이터 분석을 위한 수준 진단에서 분석 준비도의 분석 데이터 진단 항목으로 가장 부적절한 것은?
① 분석 업무를 위한 데이터 충실성, 신뢰성, 적시성
② 내부 데이터 집중 활용 체계
③ 기준 데이터 관리(MDM)
④ 비구조적 데이터 관리

정답
해설
내부 데이터 집중 활용 체계가 아닌 외부 데이터 활용 체계를 진단한다.

⚑ 문제9

지속적인 분석 내재화를 위한 장기적인 마스터 플랜 방식에 비하여 과제 중심적인 접근 방식의 특징으로 가장 부적절한 것은?
① Quick - Win
② Accuracy & Deploy
③ Problem Solving
④ Speed & Test

정답
해설
①, ③, ④는 과제 중심적인 접근 방식의 특징이고. ②는 장기적인 마스터 플랜 방식의 특징이다.

⚑ 문제10

분석 마스터 프랜 수립에서 과제 우선순위 결정과 관련한 내용으로 부적절한 것은?
① 가치는 투자비용 요소이다.
② 전략적 중요도, ROI, 실행 용이성은 분석과제 우선순위 결정에 고려할 사항이다.
③ 시급성과 전략적 필요성은 전략적 중요도의 평가 요소이다.
④ 적용 기술의 안전성 검증은 기술 용이성의 평가 요소이다.

정답
해설
가치(Value)는 비즈니스 효과에 해당하며, 투자비용 요소는 속도(Velocity), 크기(Volume), 다양성(Veriety)으로 구성되어 있다.

⚑ 문제11

빅데이터를 활용한 비즈니스는 기업에 많은 변화를 가져오고 있다. 다음 중 기업에서 이러한 변화를 수용하기 위한 중장기적 대응 방안으로 가장 거리가 먼 것은?
① 분석 조직 및 인력에 대한 교육과 훈련
② 데이터 기반의 의사결정문화 정착
③ 데이터 분석 도구 기반의 교육
④ 분석역량 강화를 위한 체계적인 계획 및 시행

정답
해설
중장기적 대응 방안으로는 데이터 분석 도구, 즉 단순한 툴 사용법을 교육하는 것이 아닌 분석역량을 기를 수 있는 교육이 필요하다.

⚑ 문제12

다음 중 분석과제 관리 프로세스에 대한 설명으로 가장 부적절한 것은?
① 과제발굴단계에서는 분석 아이디어 발굴, 분석과제 후보제안, 분석과제 확정 프로세스가 있다.
② 분석과제로 확정된 분석과제를 풀(Pool)로 관리한다.
③ 분석과제 중에 발생된 시사점과 분석 결과물은 풀(Pool)로 관리하고 공유한다.
④ 과제수행단계에서는 팀 구성, 분석과제 실행, 분석과제 진행 관리, 결과 공유 프로세스가있다.

정답
해설

  • 분석과제로 확정된 분석과제는 확정되었으므로 풀(Pool)로 관리하지 않는다.
  • 분석과제 중에 발생된 시사점과 분석 결과물은 풀(Pool)로 관리하고 공유한다.

⚑ 문제13

다음 중 기존에 행해졌던 데이터 분석과 비교한 빅테이터 분석의 특징으로 적절한 것은?
ㄱ. 분석데상 데이터를 모든 형태 및 내외부 데이터로 확대한다.
ㄴ. 데이터의 생산 시점에서부터 실시간에 가까운 분석이 가능하다.
ㄷ. 데이터 마트에 정형 데이터를 적재하고 데이터 분석을 통하여 모델을 만들 수 있다.
ㄹ. 고급 분석기법을 활용할 수 있다.
① ㄱ, ㄴ, ㄷ
② ㄱ, ㄴ, ㄹ
③ ㄴ, ㄷ, ㄹ
④ ㄱ, ㄴ, ㄷ, ㄹ

정답
해설
고급 분석기법을 활용하는 것은 기존 데이터 분석에도 활용되었다.(고 한다.)

⚑ 문제14

다음 중 빅데이터 분석에서 Self Service Analytics에 대한 설명으로 가장 부적절한 것은?
① Self Service Analytics에 포함되어야 하는 주요 기능은 BI 도구, Ad hoc Report, OLAP, Visual Discovery, MachineLearning 등이다.
② Self Service Analytics의 성공적인 적용을 위해서는 Reference Method의 작성 및 공유, 표준 데이터의 활용, 데이터 거버넌스, 도구 사용에 대한 지속적인 교육이 필요하다.
③ Self Service Analytics를 수행하기 위해서는 R, Python 등의 데이터 분석 언어와 많은 통계적 지식을 필요로 한다.
④ Self Service Analytics는 상업용 뿐만 아니라 OSS(Open Service Software)로도 구현되고, 분석의 성능 향상을 위하여 분산처리도 지원하고 있다.

정답
해설
Self Service Analytics는 분산처리를 지원하지는 않는다.

profile
Data + Math

0개의 댓글