
kGV영화 집단의 평점을 매기기전에 특정 장르를 좋아하는 사람들을 표본으로 뽑으면 모집단의 대표성을 잃게 된다.“특정 장르를 좋아하는 사람들만 표본으로 뽑는 것 = 표본추출의 편향(sampling bias)”→ 그래서 모집단의 특성을 제대로 반영하지 못하고, 결과를 일
전체를 보았을 대 비율을 쪼개서 보는 것 원그래프는 막대그래프보다 항목이 작을 때 효과적으로 볼 수 있다. 보통 4~5개 정도 보일 수 잇다.평균만 보면 착시?발생ㄴ 이상치 때문에 /극단값-> 불안할수도아니면 이상치가 필요할 수도 있다.변수를 파악한 다음 가설을 세울

확률 맞지도 않고 틀리지도 않는 모호함을 다루는 언어가 바로 확률 불확실성의 언어 좀 더 나은 선택을 할 수 있게 도움이 되는 언어 데이터 분석가와 확률 버튼 색을 바꾸면 클릭률 올라갈 확률 - a/b테스트 추천시스템(머신러닝) 도입시 성공할 확률 이번 달 목표매출을

대푯값: 숫자 더미를 한줄로 요약같은 데이터를 보고 평균으로 요약?같은 데이터를 보고 중앙값으로 요약같은 데이터를 보고 최빈값으로 요약값의 균형점을 찾는 것 : 평균값즉 데이터의 중심위치를 알려줌(데이터를 간단 요약)하지만 극단값/이상치에 민감하다. 데이터들의 크기 순

표준정규부• 표준화: ○ z = (X - μ) / (σ / √n)• 표준정규분포에서 ○ 95% → -1.96 ≤ z ≤ 1.96• 부등식을 μ에 대해 풀면 → 신뢰구간알 수 있음예시)• 측정값 X = 20• 표준편차 σ = 5계산:\-1.96 ≤ (20 - μ)
표준편차(σ): 데이터 자체의 흩어짐표준오차(SE): 표본평균의 불확실성 (σ / √n)p가 작다 ≠ 효과가 크다p가 크다 ≠ 효과가 없다 (표본이 작거나 변동이 크면 그럴 수 있음)“효과가 얼마나 큰가”는 효과크기(d, r, OR 등)와 신뢰구간 폭으로 판단!즉 귀무
이번 실험/분석의 핵심 질문을 한 문장으로 썼다 예: “TS%가 +3%p 이상이면 전술 변경한다” / “CTR이 +0.5%p 오르면 새 문구 채택” 주지표 1개만 판정에 사용 (보조지표는 설명용 1~2개) 주지표: (예: TS%, CTR, 전환율) 보조지표: (예:

산점도 관계를 눈으로 보기!! 상관계수(r)로 숫자 요약하기1\. 단일 변수 수준에서 할 수 있는 것어떤 데이터가 있으면, 우리는 그 변수 하나의 특성을 평균, 분산, 표준편차 같은 요약값으로 볼 수 있음.예: 학생들의 키 평균 = 170cm, 분산 = 25 (흩어짐

잘못된 해석을 방지하기 위한 사고 방식데이터에서 "관계가 있다"는 건 쉽게 알 수 있음광고비와 매출이 같이 움직인다공부시간이 늘면 점수도 늘어난다하지만 "원인이다"라고 말하는 건 전혀 다른 문제한 변수가 다른 변수에 실제 영향을 주었는지 입증하는 것즉, 단순 상관을 넘
카이제곱 검정예를 들어 행 중에 한 개를 뺀 나머지가 다 정해지면 나머지 한 개는 무조건 값이 고정된 값이어야 되겠죠. 열도 마찬가지구요. 그래서 행에서 일 한 값이랑 열에서 일 한 값을 곱해야지 자유도가 나오게 됩니다.사실 여러분들이 아까 t 테스트도 봤고 카이 제국

“히스토그램으로 TS%를 그리는 이유 = 정규성 확인 (normality check)”시각적 확인 (exploratory check)히스토그램, Q-Q plot목적: “분포 모양이 정규에 가까운지 감 잡기”특징: 주관적 해석, 오류 누적 문제 없음통계적 검정 (form

z_scores = np.abs(stats.zscore(num_df))z_df = pd.DataFrame(z_scores, columns=num_df.columns) z_df.head()z_scores = np.abs(stats.zscore(num_df))👉 의미:각
“두 범주형 변수 간의 실제 분포(관찰값)”가“두 변수가 독립이라면 예상되는 분포(기대값)”와얼마나 다른가(차이의 크기) 를 검정하는 통계적 방법이다.✅ 핵심 개념 정리기대값 분포: “두 변수에 아무 관계가 없다면 이런 분포일 거야.”관찰값 분포: “하지만 실제 데이터