🧐 시각화의 중요성
- 그래프는 단순 그림 ❌ → 가설을 뒷받침하고 주장을 설득하는 도구
- 잘못된 그래프 선정 → 떨어지는 가독성 → 설득 실패
- 분석가의 센스 = 문서 작성 능력 + 적절한 시각화 선택 능력
📌 주요 그래프
📊 막대그래프
정의
- 범주형 데이터의 빈도·비율을 막대로 표현
특징
- 범주를 가지고 평균을 구할 수 없기에 카테고리별로 비교하는 막대 그래프 사용
- 카테고리별 차이를 직관적으로 비교(상대적 순위 파악)
- 카테고리별로 연속성이 없기에 막대 간 공백이 있음
- 항목이 많으면 가독성이 떨어짐(필요한 항목 또는 상위 n개의 항목만 출력)
예시
- 결제 수단별 결제 비율 확인(카드 vs 현금)
- 혈액형 분포 확인(A형, B형, O형, AB형)
⭕️ 원그래프
정의
- 하나의 변수(일변량)에 대한 값의 분포를 비율 표현
특징
- 각 항목을 파이 조각으로 표시
- 각 항목이 차지하는 비율을 직관적으로 보여줌
- 항목이 적을 때(4~5개 이하) 효과적
- 파이의 각도와 비율을 정확히 반영해야 함
예시
- 스마트폰 시장 점유율 파악(애플 vs 삼성 vs 화웨이)
- 고객 성비 확인(남 vs 여 vs 기타)
📦 박스플롯
정의
- 연속형 데이터를 5가지 요약값 + 이상치 + IQR로 나타낸 그래프

특징
- 중심(중앙값), 퍼짐(IQR), 대칭성, 이상치까지 한 번에 파악 가능
- 집단 간 분포 차이를 확인할 때 유용
- 표본 수가 적을 경우 왜곡이 발생될 가능성이 있음
- 데이터의 안정성을 직관적으로 보여줌
- 수염(fence)이 짧음: 데이터가 중앙값 근처에 몰림(안정적)
- 수염(fence)이 긺: 데이터가 중앙값에서 멀리 떨어짐(변동성이 큼)
수염 계산식
IQR = Q3 - Q1
Upper Fence = Q3 + (1.5 x IQR)
Lower Fence = Q1 - (1.5 x IQR)
1.5 대신 이상치를 엄격하게 검출할 때는 3, 느슨하게 할 때는 1을 설정하기도 함 (머신러닝의 미세 조정에서 사용)
예시
- 반별 성적 분포(1학년 1반 vs 2반)
두 반의 평균 점수가 75점으로 같다고 하더라도 값의 분포 차이에 따라 안정성이 달라짐
- 1반: 점수 대부분 70~80점에 몰림(안정적)
- 2반: 점수가 상위(80~100점)와 하위(50~70점)로 치우침(변동성 큼)
⚪ 산점도
정의
- 두 변수의 관계를 점으로 표시하여 시각화한 그래프
- x축: 공부시간, y축: 성적, 점 1개: 학생 1명
특징
- 숫자만으로 변수 간의 관계를 파악하기 어렵기에 사용
- 두변수의 관계만 보여줄 뿐 원인과 결과를 확인 할 수 없음
- 광고비를 늘렸을 때 매출이 늘어날 경우 반드시 광고 떄문이라고 단정할 수 없음(우연 가능성 존재)
- 상관관계 파악 가능
- 양의 상관관계:두 변수가 함께 오름(공부시간이 오를수록 성적이 오름)
- 음의 상관관계: 하나가 오르면 하나가 떨어짐(가격이 오르면 판매량이 떨어짐)
- 선형: 두 변수 간의 관계가 직선 형태로 나타남
- 비선형: 두 변수 간의 관계가 직선이 아닌 곡선이나 다른 형태로 나타남
- 이상치 파악 가능
- 일반적인 패턴과 예외적인 패턴을 함께 확인할 수 있음
예시
- 광고비와 매출의 상관관계
- 광고비를 많이 쓸수록 매출이 대체로 증가하지만, 특정 이벤트(예: 월드컵)로 광고비 없이도 매출이 오를 수 있음
📈 선그래프
정의
특징
- 특정 시점의 이상치 파악 가능
- 주기에 따른 트랜드 및 계절성을 파악할 수 있음
- 시간의 간격을 일정하게 유지하여 누락, 중복 방지
- 단기 변동에 과도한 해석 주의(특정 이벤트나 외부 요인일 가능성 있음)
- 이동평균선을 추가하여 추세를 안정적으로 파악할 수 있음
추세: 시간에 따른 변화를 연속적으로 보여줌(시계열)
예시
- 월별 매출 변화 확인
- 일별 기온 변화 확인
- DAU 변화 확인
🟩 히트맵
정의
특징
- 세가지 이상의 변수를 표현할 수 있음(행, 열, 색상)
- 크고 작은 값을 색상 차이로 쉽게 파악 가능
예시
- 월별·지역별 매출 패턴 확인
- 요일/시간 데이터의 패턴(피크타임) 분석에 자주 사용
- 김밥천국의 피크타임을 파악해 브레이크 타임 정하기
- 금융사기 모니터링 및 이상 패턴 탐지
- 특정 시간대, 지역의 이상 발견 시 집중 모니터링
📌 그래프 선정 기준
1️⃣ 변수 개수
일변량(변수 1개)
데이터의 분포와 비율 확인
- 범주형 → 막대그래프, 원그래프
- 연속형 → 히스토그램, 박스 플롯
이변량(변수 2개)
두 변수간의 관계 확인
- 범주형 vs 범주형 → 집단별 막대 그래프
- 범주형 vs 연속형 → 박스플롯
- 연속형 vs 연속형 → 산점도 그래프, 선그래프
다변량(변수 3개 이상)
여러 변수가 동시에 어떤 패턴이나 상호작용을 보이는지 확인
- 버블차트 (산점도+색+크기)
- 히트맵 (행·열·색상)
2️⃣ 데이터 유형
- 범주형 → 막대, 원
- 연속형 → 히스토, 박스, 선
3️⃣ 분석 목적
- 분포 확인 → 히스토그램, 박스 플롯
- 집단 비교 → 막대그래프, 박스 플롯
- 관계 파악 → 산점도 그래프
- 시간 추세 → 선 그래프
- 패턴 탐지 → 히트맵
🚨 번외: 이상치 처리
이상치는 무조건 제거해야 할까? ❌
분석 목적이나 세운 가설에 따라 이상치 유지 또는 제거 결정
[이상치 제거]
목적
- 데이터의 전반적인 분포를 안정적으로 파악하거나, 노이즈로 인해 분석 결과가 왜곡되는 것을 방지할 때
예시
- 통계 분석: 시험 성적 데이터를 분석 시, 이상치가 평균을 왜곡하기에 제거하여 전체적인 성적 분포를 확인
효과
- 데이터의 노이즈를 줄여 안정적인 분포를 파악하고, 분석 결과의 신뢰도를 높임
[이상치 유지]
목적
- 이상치 자체가 분석의 핵심이거나, 비정상적인 현상을 탐지하는 데 중요한 정보를 제공할 때
예시
- 금융 사기 탐지: 신용카드 거래 데이터에서 비정상적으로 큰 금액의 거래는 사기일 가능성이 있으므로, 제거하지 않고 패턴 분석의 핵심 대상으로 유지
- 의료 데이터 분석: 환자의 혈압 데이터에서 극단적인 값은 고혈압 위기 등 건강 이상을 나타낼 수 있으므로 유지
효과
- 이상치를 통해 비정상적인 사건이나 중요한 패턴을 발견하고, 도메인별 문제 해결에 기여
👉 이상치는 상황에 따라 문제 데이터일 수도, 핵심 신호일 수도 있음