KPMG Future Academy AI 활용 데이터 분석가 3기 35일차 수업을 2025년 1월 7일에 참석했다.
데이터의 시각화 : 비즈니스의 인사이트를 파악
그래프의 통계량에는 요약된 정보가 표현된다는 한계가 있음.
요약을 하는 관점에 따라 해석의 결과가 달라질 수 있음.
요약시 정보의 손실이 발생함.
https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html
xticks(rotation=)으로 기울이기
legend(), grid()
축 범위 조정
xlim, ylim으로 최소 최대 범위 설정
axis로 최소 최대 범위 설정
라인 스타일 조정하기
marker | description |
---|---|
"." | point |
"," | pixel |
"o" | circle |
"v" | triangle_down |
"^" | triangle_up |
"<" | triangle_left |
">" | triangle_right |
plt.subplot(low, column, index)
3행 1열
1행 3열
for문으로 여러 차트 그리기
연습
추가 기능
데이터프레임.plot()
연습 문제
수평 수직선 추가, 텍스트 추가
연습문제
그래프 저장하기
기본 차트
1) histogram : sns.histplot
histplot( ) 함수의 매개변수
히스토그램
커널 밀도 추정 그래프
커널 밀도 추정 그래프 포함 히스토그램
2) densityplot : sns.kdeplot
정규화 : 그룹별 밀도곡선의 정규화 적용 (False시 각 그룹별 밀도가 1)
3) boxplot
sns.boxplot(data=titanic, x='sex', y='age', showfliers=False) #이상치 감추기
가로
2.2.2. jointplot : scatter + histogram(혹은 density plot)
두 숫자형 변수의 분포를 산점도와 히스토그램으로 함께 시각화하여 데이터 간의 관계를 확인 할 수 있다.
Seaborn 그래프의 가장 큰 특징은 hue 옵션으로 범주 차원을 추가해서 볼 수 있다.
jointplot( ) 함수의 매개변수
2.2.3. regplot : scatter + regression
두 숫자형 변수의 산점도와 회귀선을 한꺼번에 비교하여 보여준다.
두 변수 간의 선형 관계를 시각화하는데 사용
regplot() 함수의 매개변수
2.2.4. pairplot : scatter + histogram(혹은 density plot) 확장
모든 숫자형 변수들에 대해서 서로 비교하는 산점도 표시
각 변수에 대해서는 히스토그램(혹은 density plot) 표시
단점 : 시간이 오래 걸린다!
pairplot( ) 함수 매개변수
2.2.5. heatmap : 두 범주 집계 시각화
두 범주를 집계한 결과를 색의 농도로 표현해주는 그래프
집계(groupby)와 피봇(pivot)을 먼저 만들어 줘야 한다.
여러 범주를 갖는 변수 비교 시 유용하다.
heatmap( ) 함수 매개변수
상관관계
피벗테이블로 히트맵 그리기
스타일 설정하기
컬러맵 적용
html 저장
3.4.1. 선그래프
산점도
3.4.2. 산점도
히스토그램
3.4.3.히스토그램
3.4.4.상자그림
3.4.5. 막대 그래프
3.4.6. 히트맵
3.4.7. 파이차트
4.2. 마커 추가하기
folium.Marker([위도, 경도]
, tooltip=마우스 오버시 나타남
, popup=클릭시 나타남
, icon=folium.Icon(color=색, icon=모양)).add_to(지도)
folium.CircleMarker([위도, 경도]
, radius=범위
, color=색).add_to(지도)
아이콘 변경
popup 속성으로 이미지 띄우기
원그리기
실습
소상공인시장진흥공단_상가(상권)정보 : 서울시 분석해보기
전처리로 불필요한 열 제거한 데이터프레임
시각화에 한글폰트 적용
음식, 소매, 과학기술 업체가 많음.
2. 상권업종대분류명 중에서 상권업종중분류명과 상권업종소분류명가 차지하는 하위 비중 (피벗테이블 사용)(Treemap)