[EDA & DataViz] 데이터 분석과 데이터 문해력

beaver.zip·2024년 8월 26일
0

데이터 분석

데이터 분석의 결과물

(과거) 통계적 데이터 분석 결과물의 핵심은 추론,
즉 현재 가지고 있는 표본 데이터를 통해 모집단의 특징을 파악하는게 핵심이었음.

(현재) 통계 외에도 기업/기관들은 데이터에 집중을 하고 있는데, 그 이유는 크게 3가지임.

  • 과거/현재 데이터를 기반으로 현상태를 해석
  • 특정 목적 하에 구성된 데이터를 바탕으로 의사 결정
  • 과거 데이터 패턴을 바탕으로 예측

데이터 업계의 장애물

  1. 목적이 명확하지 않거나 잘못된 경우 (e.g. "지구의 미래를 예측하기")
  2. 데이터와 리소스가 부재하는 경우 (e.g. 3D 생성 AI 모델을 만들고자 하는데, 데이터가 불충분)
  3. 데이터에 대해 잘못 인식하는 경우 (e.g. 데이터가 정리되어 있지 않거나, 잘못 수집한 데이터)

데이터 문해력 (Data Literacy)

정의

  • 데이터를 건전한 목적과 윤리적인 방법으로 사용한다는 전제 하에, 현실 세상의 문제에 대한 끊임없는 탐구를 통해 질문하고 답하는 능력
  1. 좋은 질문을 할 수 있는 역량
  2. 필요한 데이터를 선별 및 검증할 수 있는 역량
  3. 데이터 해석 능력을 기반으로 유의미한 결론을 만들어내는 역량
  4. 가설 기반 A/B 테스트를 수행해 결과를 판별할 수 있는 역량
  5. 의사결정자들도 이해하기 쉽게 분석 결과를 표현할 수 있는 역량
  6. 데이터 스토리텔링을 통해 의사결정자들이 전체 그림을 이해하고 분석 결과에 따라 실행하게 하는 역량
    => 조직과 개인의 데이터 문해력을 함께 키워나가야 함.

좋은 질문과 EDA

  • EDA의 목표는 데이터를 이해하는 것으로, 좋은 질문을 통해 문제를 설정해야 함.
  • 좋은 질문 = 6하원칙 (Why, How, What, ...)
    - (What) 해결하고자 하는 문제?
    - (Why) 데이터 분석의 목적과 예상 결과물?
    - (How) 분석에 드는 소모 시간과 비용?
  • 이미 문제가 정해졌다면, 디테일한 질문을 통해 문제를 파고들 수 있음.
    - Input Data는 무엇인가?
    - 전처리 방법론에는 무엇이 있는가?
    - 어떤 모델을 사용해야 하는가?
    - 결과물은 어떻게 만들어내야 하는가?
    - 이 결과물에 대한 Metric은 어떤 것인가?

데이터 선별

  • 데이터 선별을 위해선 다음의 질문을 할 수 있음.
    1. 데이터 수집이 올바르게 진행되었는가?
    2. outlier는 어떻게 선별할 것인가?
    3. 예외된 데이터는 어떻게 이후의 분석에 사용할 것인가?
    4. 결측치는 어떻게 생겼는가?
    5. 결측치가 있는 데이터를 사용할 것인가?
    6. 외부 데이터를 가져온다면 어떤 것이 가장 큰 차이로 존재할 것인가?
    7. 새로 생길 데이터에 있어 고려하지 못한 사례는 어떤 것이 있을까?

모델과 분석 방법 결정

모델링 과정에서는 최상의 성능(결과)을 도출하는 모델을 선택하는 것이 중요하겠지만,
프로덕트 배포 과정에서는 다음의 항목을 고려해 모델을 선택해야 함.

  • 학습 시간
  • 예측 시간
  • 비용
  • 안정도, 보안성
    (e.g. ChatGPT 4o가 가장 성능이 좋으나, 비용 측면에서 GPT 3.5를 사용할 수도 있다.)

결과물 배포와 설득

  • 모델을 만들고 나면 의사결정자 또는 유저에게 결과물을 보여줘야 함.
  • (엔지니어에게 보여줄 경우) EDA 스타일의 통계 시각화(시간적 효율성 고려)
  • (의사결정자에게 보여줄 경우) 미적 요소가 반영된 설득에 초점을 둔 시각화
  • => 두 시각화를 적절하게 결합하여야 함.
profile
NLP 일짱이 되겠다.

0개의 댓글