퍼포먼스 마케터 부트캠프 7주 1일차 (참여 25일차)
커널 밀도 추정(KDE) 시각화 정리
개념 이해
- 정의: 데이터의 확률 밀도 함수를 부드럽게 추정하는 방법
히스토그램보다 더 매끄러운 분포 곡선을 제공
- 기본 아이디어: 각 데이터 포인트 위에 ‘커널 함수(보통 가우시안)’를 얹고, 이들을 합산해 전체 분포를 그리는 방식
주요 요소
- 커널 함수: 일반적으로 Gaussian(가우시안-종 모양의 곡선을 가진 확률 분포)를 사용
- 밴드위스(bandwidth): 곡선의 매끄러움을 조절하는 하이퍼파라미터 (너무 크면 과도한 평활화, 너무 작으면 노이즈 많음)
시각화 함수
| 라이브러리 | 함수 | 특징 |
|---|
| Seaborn | sns.kdeplot | 간편하고 시각화 예쁘게 됨 |
| Seaborn | sns.histplot(kde=True) | 히스토그램과 KDE 동시에 |
| Scipy | gaussian_kde | 밀도값 수동 계산 가능 |
| Matplotlib | plt.plot() 등 | 커스터마이징 자유 |