전체를 보았을 대 비율을 쪼개서 보는 것 원그래프는 막대그래프보다 항목이 작을 때 효과적으로 볼 수 있다. 보통 4~5개 정도 보일 수 잇다.
평균만 보면 착시?발생
ㄴ 이상치 때문에 /극단값-> 불안할수도
아니면 이상치가 필요할 수도 있다.
변수를 파악한 다음 가설을 세울 것ㅇ
왜냐? 이상치가 필요할 수도 있다.
가설을 세우지 않고 전처리 이상치를 하면 내가 필요한 데이터를 날려버릴 수도 있다.
목적이 있고 가설1, 가설 2가 있다. 그리고 마지막에는 설득과 전략제안으로 한다 이 가운데 나머지 과정이 분석
만약, 목적과 가설, 그리고 설득 전략 제안이 없다면 분석을 할 가치가 없다
가설에따라 이상치가 필요할수도 안 필요할 수도 있다.
표본이 커질수록 20->100명 왜곡이 작아진다.
중앙값들이 있는 범위 박스 범위:Q2를 볼 수 잇따.
산점도 왜 필요하고 내가 하는 가설의 상관관계를 보여준다.
두 변수의 좌표 평면 관계를 보는 그래프 즉 두 변수간의 관계를 보는 그래프
공부하면 점수가 오를까에 대한 관계성
상관관계가 어디서 깨지는지 보는 게 중요할 수 있다.
뱐수 2개 여도 관계파악이 어려우니까 산점도 쓴거다
광고비 올라갈 수록 매출이 올라건더러눈 상관관계를 알수 있다.
변수 2개 일 때 사점도 양의 상관 음의 상관이 있다
양의 상관: 우상향 음의 상관: 우하향 or 점점 멀어질 수도 있다
아니면 이상치가 있어야 할수도 있다 나한테 필요할 수 있다.
점들이 직선에 모여있음: 선형 그래프 선하나에 무언가 값들이 몰려져있다 비선형 선 하나에 멀리 떨어져 있는 것
선형-> 비선형
비선형-> 선형 바뀌는 구간을 체크하고 분석하면 분석할 때 요긴
산점도는 상관만 보여진다. 상관 != 인과
어떨 때 위험한가? 도메인 지식이 부족할 때
따라서 내 분석을 의심하고 의심해봐야한다.
선그래프 시간에 따른 변화를 볼 때 쓰는 것 시간을 가로축으로 씀 값을 그리고 선으로 연결
: 시간에 따른 변화를 연속적으로 보여줌 (시계열)
즉 추세를 볼수있다
시간은 선그래프 증가/감소 추세선
단기변동은 집착하지마라 내가 생각하지 못한 외부요인에 영향이 있을 수 있다
평균선이 있다 평균선보다 높다/낮다
히트맨 색깔별로 다르게 표현 색깔별로 인사이트를 얻을 수 있다.
직관적으로 보여줘야할 때 쓴다.
시계열+ 요일 .시간 패턴 변수가 여러개 여러변수간의 상관계수 행렬 히트맵은 3개의 변수 일때 스인다. 보통 어느 지역이 몇월달에 매출을 많이 하냐? 숫자, 공간 패턴을 볼 수 있다.
TIL: 데이터 시각화 - 박스 플롯(Box Plot)의 이해와 활용
1. 박스 플롯이란 무엇인가?
박스 플롯은 연속형 데이터의 분포를 시각화하고 요약하는 데 사용되는 강력한 도구입니다. 숫자 데이터 더미가 있을 때, 단순히 평균만으로는 데이터의 특성을 파악하기 어렵습니다. 박스 플롯은 이러한 연속형 데이터의 중심, 퍼짐(변동성), 대칭성, 그리고 이상치(극단값)의 존재 여부를 한눈에 파악할 수 있도록 돕습니다.
2. 박스 플롯의 주요 구성 요소
박스 플롯은 데이터를 다음의 다섯 가지 요약 통계량(Five-number summary)과 이상치로 표현합니다:
• 최소값 (Minimum Value): 데이터의 가장 작은 값 (이상치를 제외한 수염의 끝).
• Q1 (제1사분위수): 전체 데이터 중 하위 25% 지점의 값. 박스의 아랫변을 나타냅니다.
• 중앙값 (Median, Q2): 데이터를 크기 순으로 정렬했을 때 가장 중앙에 위치하는 값. 즉, 50% 지점의 값으로, 데이터의 중심을 나타냅니다. 박스 안의 선으로 표시됩니다.
• Q3 (제3사분위수): 전체 데이터 중 상위 25% 지점의 값 (하위 75% 지점의 값). 박스의 윗변을 나타냅니다.
• 최대값 (Maximum Value): 데이터의 가장 큰 값 (이상치를 제외한 수염의 끝).
• 박스 (Box): Q1부터 Q3까지의 범위를 나타내는 직사각형입니다. 이 박스 구간에는 데이터의 '가운데 50%'가 들어있습니다. 박스의 높이(또는 폭)가 클수록 가운데 절반의 데이터가 더 넓게 퍼져 있다는 뜻이며, 작을수록 데이터가 조밀하게 모여 있음을 의미합니다.
• IQR (Interquartile Range, 사분위 범위): Q3에서 Q1을 뺀 값입니다 (IQR = Q3 - Q1). 이는 박스의 높이와 같으며, 데이터의 중앙 50%가 얼마나 흩어져 있는지(변동성)를 보여줍니다.
• 수염 (Whiskers): 박스에서 뻗어 나온 선들을 "수염"이라고 부릅니다. 이 수염은 일반적으로 Q1 - 1.5 × IQR부터 Q3 + 1.5 × IQR 범위 내의 실제 최소/최대값까지 뻗어 나갑니다. 수염의 길이가 짧으면 데이터가 중앙값 주변에 밀집되어 안정적인 분포를 보이고, 수염이 길면 데이터의 변동성이 크다는 것을 의미합니다.
• 이상치 (Outliers): 수염의 범위를 벗어나는 개별 데이터 포인트들은 점으로 표시되며, 이상치 또는 극단값으로 간주됩니다.
3. "중앙 50%"의 의미와 IQR
"중앙 50%"는 Q1부터 Q3까지의 구간에 정확히 데이터의 절반이 포함되어 있다는 의미입니다. 예를 들어, 100명의 점수를 정렬했을 때 25번째 값이 Q1, 75번째 값이 Q3라면, 그 사이에 50명의 점수가 들어있다는 뜻이죠.
IQR은 '각 그룹 내부'의 중앙 50% 데이터가 얼마나 흩어져 있는지를 보여주는 지표입니다. 이는 '중앙값들이 퍼져있는 정도'와는 다릅니다. 여러 집단의 박스 플롯을 비교할 때, 각 박스 플롯의 중앙값 위치가 얼마나 다른지를 보려면, 해당 중앙값들만 따로 모아 표준편차나 범위를 계산하여 비교해야 합니다.
4. "수염"과 이상치(Outlier)에 대한 심층 이해
수염은 데이터의 분포 범위를 나타내는 중요한 시각적 요소이며, 그 길이를 통해 데이터의 변동성을 파악할 수 있습니다. 수염 밖의 점들은 이상치로, 특정 데이터 포인트가 일반적인 분포에서 크게 벗어남을 시사합니다.
이상치 탐지 기준 (1.5 × IQR) 조정
이상치를 판단하는 데 사용되는 1.5 × IQR이라는 기준은 통계학자들이 여러 테스트를 통해 정한 일반적인 가이드라인입니다. 하지만 이 값은 고정된 것이 아니며, 분석의 목적과 이상치에 대한 민감도에 따라 조정될 수 있습니다.
• 이상치를 덜 민감하게 고려하여 더 적은 값을 이상치로 보고 싶다면: 1.5보다 큰 값을 곱할 수 있습니다 (예: 3). 이 경우, 펜스의 범위가 넓어져 더욱 극단적인 값들만 이상치로 간주됩니다. 이는 데이터가 넓게 퍼져 있더라도 그 안의 값들은 이상치로 보지 않겠다는 의미가 됩니다.
• 이상치를 더 민감하게 고려하여 작은 변동도 이상치로 보고 싶다면: 1.5보다 작은 값을 곱할 수 있습니다 (예: 1). 이 경우, 펜스의 범위가 좁아져 비교적 덜 극단적인 값들도 이상치로 간주될 수 있습니다.
이상치 처리의 중요성: 도메인 지식과 가설
이상치를 어떻게 처리할지는 매우 신중하게 결정해야 합니다. 단순히 이상치가 존재한다고 해서 제거하는 것은 위험할 수 있습니다. 때로는 이상치가 분석의 핵심 정보가 될 수 있기 때문입니다.
• 이상치가 중요한 정보인 경우: 부동산 투기, 금융 사기(이상 거래), 기계 고장 예측(비정상적인 진동수) 등에서는 이상치가 오히려 중요한 패턴이나 현상을 나타낼 수 있습니다. 이러한 경우, 이상치를 제거하면 학습 데이터에서 중요한 정보를 잃게 되어 잘못된 예측이나 분석으로 이어질 수 있습니다.
• 이상치 처리 결정 기준: 데이터 분석 시에는 먼저 가설을 세우고, 이 가설에 따라 이상치 제거가 필요한지, 아니면 유지해야 할지를 결정해야 합니다. 변수가 동일하더라도 어떤 가설을 검증하느냐에 따라 이상치의 의미와 처리 방법이 달라질 수 있다는 점을 항상 염두에 두어야 합니다.
5. 박스 플롯을 사용하는 이유 (평균의 착시 방지)
평균은 데이터의 중심을 나타내는 좋은 대표값이지만, 이상치에 매우 취약합니다. 예를 들어, 마이클 조던과 같은 고소득자가 포함된 대학교 졸업생 연봉 데이터를 평균으로만 보면, 실제 대다수 졸업생의 연봉보다 훨씬 높은 평균값이 나와 오해를 불러일으킬 수 있습니다. 이럴 때 박스 플롯을 사용하면 중앙값, IQR, 그리고 이상치를 함께 보면서 데이터의 실제 분포와 편향 여부를 정확하게 파악할 수 있습니다.
• 예시: 백화점 고객의 평균 결제액이 88만원으로 나왔다고 해서 모든 고객이 그 정도를 쓴다고 볼 수 없습니다. 박스 플롯을 보면 소수의 VIP 고객이 매우 높은 금액을 지불하고, 대다수 고객은 적은 금액을 지불하는 비대칭적인 분포를 파악하여, VIP 고객에게 더 집중적인 서비스를 제공하는 등의 인사이트를 얻을 수 있습니다.
6. 여러 박스 플롯 해석 팁
여러 집단 간의 데이터 분포를 비교할 때는 다음과 같은 점들을 함께 고려합니다:
• 중앙값 위치 비교: 각 박스 플롯 내부의 선(중앙값) 위치를 비교하여 집단 간 대표값의 차이를 파악합니다.
• IQR (박스 높이/폭) 비교: 박스의 높이를 비교하여 각 집단 내부 데이터의 변동성(흩어진 정도)을 파악합니다. 박스가 높을수록 데이터가 넓게 퍼져있고, 낮을수록 조밀합니다. 예를 들어, 같은 시험 점수 평균을 가진 두 반이더라도, 박스 플롯의 박스가 짧은 반은 점수가 안정적이고, 긴 반은 점수 편차가 크다고 볼 수 있습니다.
• 수염 길이/비대칭성: 수염의 길이와 좌우 비대칭성을 통해 데이터 꼬리의 두께, 왜도(비대칭성), 그리고 극단값의 영향을 파악할 수 있습니다.
• 이상치 점: 수염 밖의 점들은 특이 사례의 존재 여부를 나타냅니다.
7. 주의사항
• 박스 플롯은 연속형 데이터에만 사용해야 합니다.
• 표본의 수가 적을 경우 데이터의 분포가 왜곡될 수 있으므로 주의해야 합니다.
• 1.5 × IQR은 일반적인 기준이지만, 분석의 목적에 따라 유연하게 조정할 수 있습니다.
박스 플롯은 데이터의 전반적인 특성을 빠르게 이해하고, 숨겨진 패턴과 문제점을 발견하는 데 매우 유용한 시각화 도구입니다. 특히 평균만으로는 알 수 없는 데이터의 '진짜 모습'을 파악하는 데 필수적입니다.
데이터 시각화:차트 유형 및 활용 데이터 시각화 분석의 핵심기법 박스플롯 , 중앙 50% IQR 이해 다 합쳐서 하나의 자료로 만들어줘
다음은 데이터 시각화의 차트 유형 및 활용, 데이터 분석의 핵심 기법인 박스 플롯, 그리고 중앙 50%와 IQR에 대한 이해를 종합하여 정리한 TIL(Today I Learned) 노트입니다.
TIL: 데이터 시각화, 차트 유형 및 활용, 그리고 박스 플롯의 심층 이해
1. 데이터 시각화의 중요성
차트나 시각화를 통해 수치를 요약하면, 단순히 숫자로는 잘 보이지 않던 특성, 패턴, 정보를 한눈에 파악할 수 있습니다. 이는 데이터를 빠르게 이해하고, 결정하며, 가설의 옳고 그름을 판단하고, 인사이트를 얻는 데 도움을 줍니다. 데이터 분석가의 업무는 요약, 설명, 예측으로 나뉘는데, 시각화는 이 중 데이터 요약의 핵심적인 방법 중 하나입니다.
2. 그래프 선택의 기준: 데이터 유형 이해
어떤 그래프를 선택할지 판단하는 기준은 데이터 유형(Data Type)을 아는 것입니다. 데이터는 크게 세 가지 유형으로 나눌 수 있습니다:
• 범주형 데이터 (Categorical Data):
◦ 설명: 문자로 쓰여진 것으로 생각할 수 있으며, 종류로 구분되는 데이터입니다. 숫자가 아니므로 계산이 불가능하며, 비율과 빈도로만 요약이 가능합니다.
◦ 예시: 성별(남/여), 혈액형(A/B/O/AB), 영화 장르(드라마, 액션, 코미디).
◦ 변수(Variable)와 속성 값: 예를 들어 '장르'가 변수라면 'Drama, Action, Comedy'는 변수의 속성 값입니다.
• 이산형 데이터 (Discrete Data):
◦ 설명: 딱딱 떨어지는 값, 즉 정수 단위의 숫자 데이터입니다. 소수점을 포함하지 않습니다.
◦ 예시: 본 영화 수, 배우별 영화 출연 수, 하루 매장 방문 횟수, 주사위 눈.
• 연속형 데이터 (Continuous Data):
◦ 설명: 중간값이 무한히 나올 수 있는 값으로, 소수점을 포함하는 경우가 많습니다.
◦ 예시: 영화 평점, 시청 시간, 키, 몸무게, 체류 시간.
3. 주요 차트 유형 및 활용
알고 싶은 대상의 특징(변수)과 데이터 유형, 그리고 변수의 개수에 따라 가장 적합한 차트 유형을 선택해야 합니다.
3.1. 변수가 한 개일 때 (분포 및 비율 파악)
• 막대그래프 (Bar Chart)
◦ 사용 데이터 유형: 범주형.
◦ 활용 목적: 범주별(카테고리별) 차이, 많고 적음을 비교하여 순위를 파악할 때 사용합니다.
◦ 특징: 막대와 막대 사이에 공백이 있어야 합니다. 항목이 너무 많으면 가독성이 떨어집니다.
◦ 인사이트 예시: 드라마 장르 선호도가 압도적으로 높다는 등 사용자 취향 패턴 확인.
• 원 그래프 (Pie Chart)
◦ 사용 데이터 유형: 범주형.
◦ 활용 목적: 전체(100%)에서 각 항목이 차지하는 비율을 직관적으로 보여줄 때 사용합니다.
◦ 특징: 항목의 수가 적을 때(보통 4~5개) 가장 효과적입니다. 각도가 너무 세밀하거나 잘못 그려지면 오해를 줄 수 있습니다.
• 히스토그램 (Histogram)
◦ 사용 데이터 유형: 연속형.
◦ 활용 목적: 숫자 더미 데이터의 분포, 패턴, 모양을 파악할 때 사용합니다. 특정 구간에 데이터가 얼마나 많이 몰려 있는지 확인할 수 있습니다. 도수분포표와 짝꿍입니다.
◦ 특징: 연속형 데이터이므로 막대 사이에 공백이 없습니다. 구간(계급 또는 빈)의 크기를 적절하게 설정하는 것이 중요합니다 (너무 크면 디테일 손실, 너무 작으면 노이즈 발생).
◦ 인사이트 예시: 데이터의 집중 구간, 퍼짐 정도(분산, 표준편차), 분포의 대칭성/비대칭성(왜도, 첨도), 봉우리의 개수(여러 집단의 존재 여부), 이상치(특이값) 등을 파악할 수 있습니다. (예: 시험 난이도 파악, VIP 고객 식별).
• 박스 플롯 (Box Plot)
◦ 사용 데이터 유형: 연속형.
◦ 활용 목적: 연속형 데이터의 분포를 다섯 가지 항목(최소값, Q1, 중앙값, Q3, 최대값)으로 요약하고, 이상치(극단값)를 시각적으로 확인하는 데 효과적입니다. 특히 여러 집단 간의 분포를 비교할 때 유용합니다.
◦ (자세한 내용은 아래 '박스 플롯 심층 이해' 섹션에서 다룹니다.)
3.2. 변수가 두 개일 때 (관계 파악)
• 산점도 (Scatter Plot)
◦ 사용 데이터 유형: 수치형(연속형) 두 개.
◦ 활용 목적: 두 변수 간의 관계(상관관계)를 좌표 평면에 점으로 찍어 보여줍니다. 변수 간의 영향 여부, 선형/비선형 관계를 시각적으로 파악할 때 사용합니다.
◦ 인사이트 예시: 공부 시간과 성적의 관계, 광고비와 매출의 상관관계, 러닝 커브처럼 관계가 깨지는 지점 파악. 양의 상관(우상향) 또는 음의 상관(우하향) 확인.
◦ 주의사항: 상관관계가 인과관계를 의미하지는 않습니다. 분석 결과가 우연일 수 있으므로 항상 분석을 의심하고 검증해야 합니다. 도메인 지식이 부족할 때 특히 위험합니다.
• 선 그래프 (Line Chart)
◦ 사용 데이터 유형: 시간(날짜) 변수와 수치형(연속형) 변수.
◦ 활용 목적: 시간의 흐름에 따른 데이터의 변화(추세)를 연속적으로 보여줄 때 사용합니다.
◦ 인사이트 예시: 데이터의 추세(증가/감소), 계절성, 주기성 패턴, 특정 시점의 급등락(이벤트, 이상치, 외부 요인) 등을 파악할 수 있습니다. (예: 주식 가격 변화, 월별 매출 추이, 기온 변화).
◦ 주의사항: 시간 간격을 일정하게 유지해야 합니다. 단기 변동에 과도하게 집착하지 않아야 합니다 (외부 요인이나 노이즈일 수 있음).
3.3. 변수가 세 개 이상일 때 (복합적인 관계 파악)
• 히트맵 (Heatmap)
◦ 사용 데이터 유형: 두 개의 범주형/시계열 변수와 하나의 수치형 변수 (색상으로 표현).
◦ 활용 목적: 표 안에 숫자를 색상으로 채워 넣어 데이터의 크거나 작음, 높거나 낮음을 직관적으로 보여줍니다. 세 개 이상의 변수를 한 차트에 담아 복합적인 패턴을 탐지할 때 강력합니다.
◦ 인사이트 예시: 지역별, 월별 매출, 과목별 학년별 KPI 등 복합적인 패턴 탐지. 변수 간의 상관계수를 행렬 형태로 시각화하거나 금융 사기, 비정상 패턴 모니터링에 활용.