✏️ 24.12.04 TIL

Dada·2024년 12월 4일

TIL

기초 데이터 분석 팀 과제

▶ 링크 : 아마존 책 리뷰 데이터

[ 데이터셋 구조 ]

Books Details, Reviews 두 테이블로 구성
Book Data Table의 경우 null 데이터 비율이 높음
Books Rating Table 중 review 관련 수치 데이터 100% 사용 가능
⇒ Books Rating Table 기준으로 공통 컬럼 Book Data Table을 LEFT JOIN 하여 테이블을 합치는 것이 적절할 것으로 판단

1. Book Details Table

데이터 총 개수: 212,404개
전체 데이터 중 범주화 기준으로 삼을만한 컬럼을 우선으로 데이터 분석 진행

1.1 categories

도서 장르 데이터가 담긴 컬럼
데이터 총 개수 ⇒ 10,802개
NULL 데이터 ⇒ 41,199개 (19%)
- 빈 문자열로 입력되어 있음
- WHERE categories <> '' 로 필터링 진행

▶ 컬럼 분석 결과

장르 구분이 세세하게 되어 있어 범주화의 기준으로 사용하기 어려울 것으로 판단
Null 데이터의 비율이 19%로 해당 컬럼을 범주의 기준으로 잡을 경우 사용할 수 없는 데이터가 다수 발생하게 됨

1.2 publishedDate

출간일자 데이터가 담긴 컬럼
이상치 체크: 101-01-01, 1016-10-11, 2025 등
Format이 일정하지 않음
→ YYYY-MM-DD의 형식과 YYYY처럼 연도만 기재된 형식이 혼재되어 사용됨

아티클 스터디

📌 핵심 용어 정리

모집단(Population)
- 연구의 관심의 대상이 되는 전체 집단
표본(Sample)
- 특정 연구를 위해 추출된 모집단의 부분 집합
표집(Sampling)
- 모집단에서 표본을 뽑는 것
모수(Population Parameter)
- 모집단의 특성을 수치로 나타낸 것
- 예시: 모집단의 평균(모평균), 모집단의 분산(모분산)
통계량 또는 통계치(Statistic)
- 표본의 특성을 수치로 나타낸 것
- 예시 : 표본에서 구한 평균(표본평균), 표본에서 구한 분산(표본분산)
추정(Estimation)
- 점 추정(point estimation) : 점으로 하나의 값을 찍는 것 → 예시: 만족도를 1점에서 5점으로 조사, 고객 만족도의 평균은 3.4일 것이다
- 구간 추정(interval estimation): 구간으로 추정하는 것
  → 예시 : 모집단에서 고객 만족도 평균은 3~4점 정도 될 것이다.
표집 오차(Sampling Error)
- 표본을 사용하는데서 발생하는 오차
신뢰 구간(confidence interval)
- 구간 추정의 한 가지 방법
- 통계량 ± 오차범위 와 같은 식으로 모수 추정
신뢰 수준(confidence level)
- 우리가 추정한 구간에 모수가 들어가느냐 마느냐를 묻는 것
- 오차 범위를 넓게 잡으면, 그 안에 모수가 들어갈 가능성이 커짐 → 신뢰 수준 ↑
- 동일한 방법으로 신뢰 구간을 추정했을 때, 이론적으로 가능한 표본들 중에 신뢰구간이 모수를 포합하는 표본들의 비율
P-value(Probability - value)
- 어떤 사건(관찰된 값)이 우연히 발생할 확률
귀무가설(Null hypothesis)
- 처음부터 맞지 않을 것으로 예상하고 세우는 가설
- 어떠한 가설을 주장하고자하는 사람이 본래의 가설이 옳다는 것을 통계적으로 증명하기 위한 역할
대립가설
- 귀무가설과 반대되는 의미
- 가설을 만든 사람이 실제로 주장하거나 증명하고 싶은 내용을 담고 있음
단측 검정(one-sided test)
- 가설에 관계의 방향이 포함되면, 모수에 대한 단측검정 적용
- 즉, “~보다 크다”, “~보다 작다”와 같이 모수에 대한 추정이 특정한 방향을 지니면 단측검정 적용
양측 검정(two-sided test)
- “~와 다르다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 갖지 않으면 양측 검정 적용

Dada

이전 포스트

✏️ 24.12.02 TIL

다음 포스트

✏️ 24.12.04 TIL

기초 데이터 분석 팀 과제

아티클 스터디

✏️ 24.12.02 TIL

✏️ 24.12.06 TIL

0개의 댓글