✏️ 24.12.04 TIL

Dada·2024년 12월 4일

기초 데이터 분석 팀 과제


▶ 링크 : 아마존 책 리뷰 데이터

[ 데이터셋 구조 ]

  • Books Details, Reviews 두 테이블로 구성
  • Book Data Table의 경우 null 데이터 비율이 높음
  • Books Rating Table 중 review 관련 수치 데이터 100% 사용 가능
    ⇒ Books Rating Table 기준으로 공통 컬럼 Book Data Table을 LEFT JOIN 하여 테이블을 합치는 것이 적절할 것으로 판단

1. Book Details Table

  • 데이터 총 개수: 212,404개
  • 전체 데이터 중 범주화 기준으로 삼을만한 컬럼을 우선으로 데이터 분석 진행

1.1 categories

  • 도서 장르 데이터가 담긴 컬럼
  • 데이터 총 개수 ⇒ 10,802개
  • NULL 데이터 ⇒ 41,199개 (19%)
    • 빈 문자열로 입력되어 있음
    • WHERE categories <> '' 로 필터링 진행

▶ 컬럼 분석 결과

  • 장르 구분이 세세하게 되어 있어 범주화의 기준으로 사용하기 어려울 것으로 판단
  • Null 데이터의 비율이 19%로 해당 컬럼을 범주의 기준으로 잡을 경우 사용할 수 없는 데이터가 다수 발생하게 됨

1.2 publishedDate

  • 출간일자 데이터가 담긴 컬럼
  • 이상치 체크: 101-01-01, 1016-10-11, 2025 등
  • Format이 일정하지 않음
    → YYYY-MM-DD의 형식과 YYYY처럼 연도만 기재된 형식이 혼재되어 사용됨

아티클 스터디


📌 핵심 용어 정리

  • 모집단(Population)
    • 연구의 관심의 대상이 되는 전체 집단
  • 표본(Sample)
    • 특정 연구를 위해 추출된 모집단의 부분 집합
  • 표집(Sampling)
    • 모집단에서 표본을 뽑는 것
  • 모수(Population Parameter)
    • 모집단의 특성을 수치로 나타낸 것
    • 예시: 모집단의 평균(모평균), 모집단의 분산(모분산)
  • 통계량 또는 통계치(Statistic)
    • 표본의 특성을 수치로 나타낸 것
    • 예시 : 표본에서 구한 평균(표본평균), 표본에서 구한 분산(표본분산)
  • 추정(Estimation)
    • 점 추정(point estimation) : 점으로 하나의 값을 찍는 것 → 예시: 만족도를 1점에서 5점으로 조사, 고객 만족도의 평균은 3.4일 것이다
    • 구간 추정(interval estimation): 구간으로 추정하는 것
      → 예시 : 모집단에서 고객 만족도 평균은 3~4점 정도 될 것이다.
  • 표집 오차(Sampling Error)
    • 표본을 사용하는데서 발생하는 오차
  • 신뢰 구간(confidence interval)
    • 구간 추정의 한 가지 방법
    • 통계량 ± 오차범위 와 같은 식으로 모수 추정
  • 신뢰 수준(confidence level)
    • 우리가 추정한 구간에 모수가 들어가느냐 마느냐를 묻는 것
    • 오차 범위를 넓게 잡으면, 그 안에 모수가 들어갈 가능성이 커짐 → 신뢰 수준 ↑
    • 동일한 방법으로 신뢰 구간을 추정했을 때, 이론적으로 가능한 표본들 중에 신뢰구간이 모수를 포합하는 표본들의 비율
  • P-value(Probability - value)
    • 어떤 사건(관찰된 값)이 우연히 발생할 확률
  • 귀무가설(Null hypothesis)
    • 처음부터 맞지 않을 것으로 예상하고 세우는 가설
    • 어떠한 가설을 주장하고자하는 사람이 본래의 가설이 옳다는 것을 통계적으로 증명하기 위한 역할
  • 대립가설
    • 귀무가설과 반대되는 의미
    • 가설을 만든 사람이 실제로 주장하거나 증명하고 싶은 내용을 담고 있음
  • 단측 검정(one-sided test)
    • 가설에 관계의 방향이 포함되면, 모수에 대한 단측검정 적용
    • 즉, “~보다 크다”, “~보다 작다”와 같이 모수에 대한 추정이 특정한 방향을 지니면 단측검정 적용
  • 양측 검정(two-sided test)
    • “~와 다르다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 갖지 않으면 양측 검정 적용

0개의 댓글