KPMG Future Academy AI 활용 데이터 분석가 3기 36일차 수업을 2025년 1월 8일에 참석했다.
통계량에서 평균을 참조할 때 중앙값(median)과 최빈값(mode)을 함께 고려해야함.
평균의 함정에 대한 경각심을 위해 동영상을 시청했다. 통계를 참조할 때 이상치로 인해 평균값이 신뢰하기 어려워지는 수리적인 상식에 대한 내용이었다.
서도호, High School Uni-face: Boy, 1997
서도호, High School Uni-face: Girl, 1997
흑백 고등학생 사진을 합성한 작품.
위 작품의 합성 원리가 궁금하여 Claude 3.0에게 기술적인 부분을 물어보았다.
부족한 데이터에 대한 답변
dlib :
landmark points :
warp :
삼각형 메쉬 :
마스킹 및 블렌딩 :
알파 블렌딩 :
edge-aware 블렌딩 :
KNN 기반 imputation :
격자 기반 보간법 :
cubic interpolation :
가중 평균과 표준편차를 사용한 이상치 검출 :
z-score 기반 비정상적인 데이터 필터링 :
GAN :
다중 해상도 분석 :
텍스처 합성 알고리즘 적용 :
1) 평균(산술평균)
2) 중앙값(중위수, median)
3) 최빈값
4) 4분위수
describe()
전치 행렬
include= 속성
히스토그램
seaborn 히스토그램
밀도함수 그래프 kde
히스토그램의 단점
밀도함수 그래프
밀도 추정
박스 플롯
NaN이 있으면 그려지지 않음
seaborn은 그려줌
박스 플롯의 값 구하기
연습
50%가 20-40대
$500 극단적인 이상치
시계열 데이터 시각화
기초 통계량
seaborn countplot
비교
파이 차트
종합 연습
함수로 통계량 확인 및 시각화 만들기
극단적으로 높은 범죄율 등 분포상 이상치를 확인
많은 지역에서 저소득층의 비율이 높음. 일부 지역에서 저소득층 비율이 높은 이상치.
특정 값에 몰려있고, 분포가 넓고 중위값이 낮음.
실습
고객사는 카시트 전문 판매 회사입니다.
최근, 매출 그래프가 조금씩 아래로 향하기 시작했습니다. 회사의 여러 부서에서는 다양한 원인을 제시했지만, 그 원인들이 정말 데이터에 기반한 것인지는 여전히 의문입니다.
부서별 문제 진단:
이 문제를 해결하기 위해 DX 프로젝트 팀이 빌딩되었습니다.
카시트 판매 데이터 분석
1. 매장이 미국에 있는지 여부와 판매량의 유관도
1-1. 미국/비미국 매장의 평균 판매량 비교
2. 매장이 도심 지역에 있는지 여부와 판매량의 유관도
2-1. ShelveLoc(진열 위치)와 함께 크로스 분석
3. 가격에 따른 판매량 유관도
3-1.CompPrice(경쟁사 가격)와 함께 분석하여 가격 경쟁력 파악
3-2.Price/CompPrice 비율을 만들어 분석
4. 인구수별 판매지수
6. 소득수준과 판매지수 유관도
소득수준 대비 판매량
7. 여러 변수의 상관관계를 한번에 보는 상관계수 행렬 분석
8. ROI와 가격의 상관관계
9. Advertising(광고)과 판매량의 관계
10. ROI와 연령의 유관도
10-1. 판매량과 연령 유관도
매장이 미국에 있는지 여부와 판매량의 유관도
1-1. 미국/비미국 매장의 평균 판매량 비교
매장이 도심 지역에 있는지 여부와 판매량의 유관도
2-1. ShelveLoc(진열 위치)와 함께 크로스 분석
상관관계 높은 순
Price > Advertising > Age
단변량 분석
1. Sales
Sales의 중앙값은 7,490건으로 평균 판매량인 7,496건과 유사하다. 50% 판매량은 5,000 ~ 10,000건 사이에 분포한다. 판매량의 분포가 넓은지(변동적), 좁은지(덜 변동적)에 대해 타 경쟁사의 사례를 분석해서 비교해보면 어떨까?
2. Price
단변량 분석에서 평균값 115.795는 중앙값 117.0보다 낮다. 이는 가격을 추가적으로 높일 수 있는 가능성을 시사한다.
다만 앞서 살핀대로 다변량 분석에서 ROI와 Price의 상관관계는 다른 변수 대비 -0.44로 강하게 나타나며, 따라서 가격을 낮추는 것이 판매수익을 높일 가능성이 있다.
추가 분석할 내용
1. 경쟁사들의 판매량 분포 범위를 조사
2. 경쟁사 가격 분포와 비교
3. 특별히 판매량이 높은 지점에 대한 변인 분석
*가격의 과대평가, 과소평가 알아보기
1. 벤치마크 또는 비교 :
이 가격을 경쟁사 가격, 과거 평균 또는 특정 기준과 비교
벤치마크(예: 경쟁사 가격 또는 고객의 지불 의향)가 있는 경우, 이러한 가격이 기대치에 비해 높은지 낮은지 추가로 분석할 수 있다.