기초 데이터 분석 팀 과제
▶ 링크 : 아마존 책 리뷰 데이터
[ 데이터셋 구조 ]

- Books Details, Reviews 두 테이블로 구성
- Book Data Table의 경우 null 데이터 비율이 높음
- Books Rating Table 중 review 관련 수치 데이터 100% 사용 가능
⇒ Books Rating Table 기준으로 공통 컬럼 Book Data Table을 LEFT JOIN 하여 테이블을 합치는 것이 적절할 것으로 판단
1. Book Details Table
- 데이터 총 개수: 212,404개
- 전체 데이터 중 범주화 기준으로 삼을만한 컬럼을 우선으로 데이터 분석 진행
1.1 categories
- 도서 장르 데이터가 담긴 컬럼
- 데이터 총 개수 ⇒ 10,802개
- NULL 데이터 ⇒ 41,199개 (19%)
- 빈 문자열로 입력되어 있음
WHERE categories <> '' 로 필터링 진행
▶ 컬럼 분석 결과
- 장르 구분이 세세하게 되어 있어 범주화의 기준으로 사용하기 어려울 것으로 판단
- Null 데이터의 비율이 19%로 해당 컬럼을 범주의 기준으로 잡을 경우 사용할 수 없는 데이터가 다수 발생하게 됨
1.2 publishedDate
- 출간일자 데이터가 담긴 컬럼
- 이상치 체크: 101-01-01, 1016-10-11, 2025 등
- Format이 일정하지 않음
→ YYYY-MM-DD의 형식과 YYYY처럼 연도만 기재된 형식이 혼재되어 사용됨
아티클 스터디
📌 핵심 용어 정리
- 모집단(Population)
- 표본(Sample)
- 표집(Sampling)
- 모수(Population Parameter)
- 모집단의 특성을 수치로 나타낸 것
- 예시: 모집단의 평균(모평균), 모집단의 분산(모분산)
- 통계량 또는 통계치(Statistic)
- 표본의 특성을 수치로 나타낸 것
- 예시 : 표본에서 구한 평균(표본평균), 표본에서 구한 분산(표본분산)
- 추정(Estimation)
- 점 추정(point estimation) : 점으로 하나의 값을 찍는 것 → 예시: 만족도를 1점에서 5점으로 조사, 고객 만족도의 평균은 3.4일 것이다
- 구간 추정(interval estimation): 구간으로 추정하는 것
→ 예시 : 모집단에서 고객 만족도 평균은 3~4점 정도 될 것이다.
- 표집 오차(Sampling Error)
- 신뢰 구간(confidence interval)
- 구간 추정의 한 가지 방법
- 통계량 ± 오차범위 와 같은 식으로 모수 추정
- 신뢰 수준(confidence level)
- 우리가 추정한 구간에 모수가 들어가느냐 마느냐를 묻는 것
- 오차 범위를 넓게 잡으면, 그 안에 모수가 들어갈 가능성이 커짐 → 신뢰 수준 ↑
- 동일한 방법으로 신뢰 구간을 추정했을 때, 이론적으로 가능한 표본들 중에 신뢰구간이 모수를 포합하는 표본들의 비율
- P-value(Probability - value)
- 귀무가설(Null hypothesis)
- 처음부터 맞지 않을 것으로 예상하고 세우는 가설
- 어떠한 가설을 주장하고자하는 사람이 본래의 가설이 옳다는 것을 통계적으로 증명하기 위한 역할
- 대립가설
- 귀무가설과 반대되는 의미
- 가설을 만든 사람이 실제로 주장하거나 증명하고 싶은 내용을 담고 있음
- 단측 검정(one-sided test)
- 가설에 관계의 방향이 포함되면, 모수에 대한 단측검정 적용
- 즉, “~보다 크다”, “~보다 작다”와 같이 모수에 대한 추정이 특정한 방향을 지니면 단측검정 적용
- 양측 검정(two-sided test)
- “~와 다르다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 갖지 않으면 양측 검정 적용