250212 TIL

수이·2025년 2월 12일

🟡 TIL

목록 보기
9/60

팀스터디

북스터디

선정 책
빅데이터 시대, 성과를 이끌어 내는 데이터 문해력
CHAPTER 3-4

[주제]

데이터 활용 프로세스 中 현상 파악과 평가, 원인 분석 방법 배우기

[아티클 요약]

  • 현상 파악 시 중요한 점

    • 결과와 평가 구별
      → 단순 결과만을 고지하는 게 아니라 ‘시사점’을 전해야함
  • 다른 것과의 비교(평가)

    • 비교 시 확인해야 할 포인트
      1) 결론으로 이어지는 결과를 얻을 수 있는지 확인
      • 결론은 결과와는 차이가 있음
        ex) 결과 : X는 Y와 차이가 있다
        결론 : X와 Y의 차이가 존재한다는 것은, Z라는 의미이다.
      • 구체적인 결론을 먼저 문장으로 써보기
      2) 비교를 통해 차이를 찾을 수 있는 지 확인
      • 절대적인 정답은 없으며 비교 대상을 하나로 정할 필요X
      • 가설 → 검증 반복
    • 목적에 따라 평가기준(평균, 추이, 편차, 비율)을 이용해 비교
  • 원인 분석 시 중요한 점

    • 원인과 결과의 ‘연결성’ 중시
    • 효과적일 것이라 예상되는 방법을 객관적으로 검토
      → 비용대비 효과 극대화하는 것이 목표
  • 원인 후보를 이끌어내는 방법

    • 원인 후보 열거 → 지표 결정 → 관련성 확인

    • 관련성 확인법

    • 시각적으로 관련성 확인(시각화)

    • 통계 지표 확인(상관분석)

      +) 데이터 수집이 어려운 경우

      • 유사한 데이터에는 어떤 것이 있을지 생각
      • 바로 수집 시작
      • 정량적이 아닌, 정성적인 정보로 대응
      • 본인의 가정을 통해 보완(포기)
    • 주의사항

      • 직접적인 관계인지, 간접적인 관계인지 확인
      • 원인은 한 가지가 아닐 수 있다
      • 선형이 아닌 관계성도 존재한다
      • 상관관계는 인과관계를 나타내는 것이 아니다

[인사이트]

내용이 1-2장에 비해 상대적으로 길고 어려워서 완전히 이해했는지는 잘 모르겠지만, 데이터 분석 은 ‘한 걸음 더 나아가 생각하는 것’이 중요한 것 같아요.

단순 비교로 그치는 게 아니라 그래서 말하고자 하는 것이 무엇인지? 말하고자 하는 근거에 충분한 뒷받침(사용하는 지표나 평가 기준에서도)이 되는지?를 늘 생각하면서 작업을 진행해야겠습니다.

지금 우리는 파이썬이나 SQL 등 툴을 배우는 식으로 학습하고 있지만, 역시 결국은 도구를 어떻게 사용하느냐가 중요하네요!

[팀원 공통 인사이트]

데이터 분석에 앞서 선행되어야 하는 목표설정, 그리고 문제를 정의 후 현상파악&평가 및 원인 분석과 올바른 해결 방안을 모색하는 데이터 분석가가 되고싶다.


개인스터디

ADsP 자격증 챌린지 3주차✅

중요부분 ✅표시!

데이터 분석 기획

1)분석 기획의 정의와 특징

  • 정의
    실제 분석을 수행하기 전, 분석을 수행할 과제의 정의 및 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업

  • 특징
    데이터 사이언티스트의 요구 역량인 수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 고른 역량과 시각 등이 요구됨

  • 분석 대상과 방법에 따른 4가지 분석 주제✅

    • 최적화 : 분석 대상 알고 O 분석 방법 알기 O
    • 솔루션 : 분석 대상 알고 O 분석 방법 알기 X
    • 발견 : 분석 대상 알기 X 분석 방법 알기 X
    • 통찰력 : 분석 대상 알기 X 분석 방법 알기 O
  • 목표 시점별 분석 기획

    • 과제 중심적인 접근 방식 : 과제를 빠르게 해결해야 하는 경우
    • 장기적인 마스터플랜 방식 : 지속적인 분석 내재화를 위한 경우

2)분석 기획 시 고려사항✅

  • 가용 데이터 고려 (Available Data)
    • 분석의 기본이 되는 데이터가 확보될 수 있는지에 대한 고려가 필요
    • 분석을 위한 데이터 확보가 우선 / 데이터 유형에 따라 분석 방법이 다르기 때문에 데이터 유형에 대한 분석이 선행적으로 이루어져야 함
  • 적절한 활용방안과 유스케이스의 탐색 (Proper Business Use Case)
    • “바퀴를 재발명하지 마라”는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용
  • 장애요소에 대한 사전 계획 수립 (Low Barrier Of Execution)
    • 분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립 필요
    • 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리(Change Management)가 고려되어야 함

분석 방법론

범위 넓음

1) 분석 방법론 개요

  • 구성

    • 상세한 절차(Procedure)
    • 방법(Methods)
    • 도구와 기법(Tools & Techniques)
    • 템플릿과 산출물(Templates & Outputs)
  • 방해요소

    • 고정 관념 (Stereotype)
    • 편향된 생각 (Bias)
    • 프레이밍 효과 (Framing Effect) : 동일한 사건이나 상황을 두고 개인의 판단이나 선택이 달라질 수 있는 현상
  • 생성 과정

  • 업무 특성에 따른 모델

    • 폭포수 모델(Waterfall Model)
      단계를 거쳐 순차적으로 진행
      하향식 방향
    • 프로토타입 모델(Prototype Model)
      점진적으로 시스템을 개발해 나가는 접근 방식
      프로토타입 모델 적용
      일부분 개발 → 사용자 요구분석 → 개선 작업 시행
    • 나선형 모델
      반복을 통해 점진적으로 개발
      위험요소를 사전에 제거한다는 것에 초점
    • 계층적 프로세스 모델
      일반적으로 사용
      스텝 → 태스크 → 단계 구성
      WBS(Work Breakdown Structure)

2) 전통적인 분석 방법론

  • KDD 분석 방법론
    순서와 단계별 구성 중점

    프로세스

    • 1단계/데이터셋 선택
      비즈니스 도메인에 대한 이해와 프로젝트 목표 설정
      필요한 데이터를 선택

    • 2단계/데이터 전처리
      의미 있는 데이터로 재가공

    • 3단계/데이터 변환
      정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소

    • 4단계/데이터 마이닝
      분석 목적에 맞는 데이터 마이닝 기법을 선택, 알고리즘 적용

    • 5단계/해석과 평가
      결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성 확인

  • CRISP-DM 분석 방법론
    KDD 분석 방법론과 비슷하나 조금 더 세분화
    단계 간 피드백을 통해 완성도 UP

    프로세스

    • 1단계/업무이해
      업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
    • 2단계/데이터 이해
      초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
    • 3단계/데이터 준비
      분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
    • 4단계/모델링
      모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
    • 5단계/평가
      분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
    • 6단계/전개
    • 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

3) 빅데이터 분석 방법론

  • 5단계 플로우
    • 분석 기획
      비즈니스 도메인과 문제점 인식
      분석 계획 및 프로젝트 수행계획 수립

    • 데이터 준비
      원천 데이터 수집 및 정합성 체크

      - 데이터 분석
      다양한 분석 기법과 알고리즘 이용해 분석
      모델링 및 모델 평가

    • 시스템 구현
      설계 및 구현
      분석 기획에 맞는 모델 도출

    • 평가 및 전개
      프로젝트 종료 단계
      성과 평가 및 정리, 모델 발전 계획 수립

분석 과제 발굴

1) 하향식 접근법

문제가 정해져 있는 상황에서 답을 구하는 것
문제 탐색 → 문제 정의 → 해결 방안 탐색 → 타당성 평가

  • 비즈니스 모델 기반 문제 탐색
    업무, 제품, 고객 단위로 문제 발굴

  • 분석 기회 발굴의 범위 확장
    각 관점을 고려해 비즈니스 문제 발굴

2) 상향식 접근법

원천 데이터로부터 통찰과 지식을 얻는 방법
(+) 지도학습
정답이 있는 데이터를 활용하여 분석 모델 학습

  • 비지도학습
    일반적인 상향식 접근방식 수행방식
    정답을 알려주지 않고 학습

  • 프로토타이핑 접근
    분석 후 결과를 확인해가며 반복적으로 개선

분석 프로젝트 관리

1) 분석 과제의 5가지 주요 속성을 고려한 관리

  • 데이터의 양
    엄청난 데이터의 양을 고려한 관리 방안 수립 필요
  • 데이터 복잡도
    비정형 데이터 분석 시 초기 데이터 확보 및 통합 + 데이터에 잘 적용될 수 있는 모델 고려
  • 속도
    분석 결과를 활용하는 시나리오 측면에서의 속도 고려
  • 분석 복잡도
    트레이드 오프 관계가 존재
    모델이 복잡할수록 정확도는 올라가지만 해석이 어려워짐
    기준점 정의 필요
  • 정확도 & 정밀도
    정확도: 모델과 실제 값 차이가 적다
    정밀도: 반복적으로 모델을 사용했을때 모델 값들의 편차 수준
    활용성 측면에서는 정확도, 안정성 측면에서는 정밀도가 중요

2) 관리 방안

Time Boxing 기법
현재 할당된 작업이 주어진 시간 동안 완수되지 못하였더라도 다음 작업으로 넘어가는 방법

데일리퀘스트

SQL 실전! 실제 DB에서 연습해요 LV.1 - 데이터 속 김서방 찾기

SQL 실전! 실제 DB에서 연습해요 LV.2 - 날짜별 획득포인트 조회하기

SQL 실전! 실제 DB에서 연습해요 LV.3 - 이용자의 포인트 조회하기


일기

  • ADSP 9주차✅ 3주차 복습✅
    한 장 요약.
    3강 복습할 것도 많고, 9강 내용도 많아서 상당히 오래 걸린다. 엉엉 나 억덕계.. 이번주는 주말에도 공부 시간을 오래 가져야 할 것 같다.

  • 데이터 문해력 CHAPTER 5-6✅
    이 선생님도 내용이 조금씩 복잡해지기 시작.
    대신 ADSP 강의에서 배운 용어들이 조금씩 나와서 반갑다!
    하루에 두 장씩 읽는 게 조금 힘들긴 하다

    완전히 이해하는 게 중요한데 그냥 정보를 우겨넣고만 있는 건 아닐쥐 걱정
    그래도 본캠프 일정은 이것보다 더 힘들테니 견뎌라..! 나..!

  • SQL 달리기반 퀘스트 1-3✅
    걷기반 문제는 실제 DB에서 바로바로 뽑으면서 확인하는 게 아니여서 불편했는데, DB 활용하니까 훨 재밌다. 기억나지 않는 게 등장해도 알음알음 찾아내고 있음

    아직까지는 역시 SQL이 제일 재밌다

NO SHIBAL KEEP GOING.......🍀

0개의 댓글