HR 대시보드

Attrition 대시보드

Compensation 대시보드

데이터 분석
DB
SQL, Python
BI
DBeaver
Power BI
< HR 신입 BA가 되었다 ! >
데이터 훑어보기
데이터 재구조화
Cols Relation 파악
<Python 공부>
인사이트 도출 및 시각화 결과물 그리기
pandas 설치 및 구글 드라이브 마운트
마운트 클릭으로 안될 경우 코드
from google.colab import drive
drive.mount('/content/drive')
data 훑어보기
.T column이 너무 많을 때 Tranpose
data 재구조화
pd.pivot_table(index=[], columns='', values='', agg='')
fill_values='' - Null 값인 경우 공백으로 채우기
stack, unstack 알아두기
시각화
Library : Matplotlib, Seaborn
import matplotlib.pyplot as plt
import seaborn as sns
plt.bar(x축, y축)sns.heatmap(data
, annot = True # Heatmap에 숫자 표기
, fmt = '.1f' # 소수점 표기
, linewidth = 0.5 # line두께
, cmap = 'Blues | YlGnBu | RdYlBu_r' # 색
# 삼각형 반절 mask 씌우기
import numpy as np
mask = np.zeros_like(heatmap, dtype=bool)
mask[np.triu_indices_from(mask)] = True
이후 sns.heatmap 파라미터에 `mask = mask` 삽입 sns.FacetGrid() - bar graph 드릴다운 -전체적인 그래프 레이아웃 -그래프 내용 (x축, y축) -그래프 꾸미기 sns.histplot() - bargraph 여러 개 한번에 sns.jointplot() - graph 2가지 이상 한 데 보여주기df.corr() - 컬럼 간의 상관관계 숫자로
df.select_dtypes( include='int').corr() - 숫자로 된 컬럼만 되므로 체크
SELECT * FROM schema명.table명;Numeric Data - Int
| Type | Storage(Bytes) | Minimum Value Signed | Maximum Value Signed |
|---|---|---|---|
| TINYINT | 1 | -128 | 127 |
| SMALLINT | 2 | -32768 | 32767 |
| MEDIUMINT | 3 | -8388608 | 8388607 |
| INT | 4 | -2147483648 | 2147483647 |
| BIGINT | 8 | -2^63 | 2^63-1 |
Numeric Data - Float - 소수부분 포함 숫자
| Type | Storage(Bytes) | 연산속도 | 소수점 타입 |
|---|---|---|---|
| FLOAT | 4 | 하 | 부동소수점 |
| DOUBLE | 8 | 중 | 부동소수점 |
| DECIMAL | 16 | 상 | 고정소수점 |
DECIMAL - 정교한 작업이 필요할 경우 사용
String
| Value | CHAR(4) | Storage Required | VARCHAR(4) | Storage Required |
|---|---|---|---|---|
| ‘’ | ‘ ‘ | 4 bytes | '’ | 1 byte |
| 'ab’ | 'ab ‘ | 4 bytes | 'ab’ | 3 bytes |
| 'abcd’ | 'abcd’ | 4 bytes | 'abcd’ | 5 bytes |
| 'abcdefgh’ | 'abcd’ | 4 bytes | 'abcd’ | 5 bytes |
Windows - 구분 X
Linux - 구분 O
MySQL 설정값 확인
SHOW variables LIKE 'lower%' - 0:구분O / 1:구분X
OS 상관없이 대문자 ≠소문자 구분 위해 VARBINARY로 Dtype
집계된 결과값을 기존 데이터에 추가하여 보여줌
결과를 보여주되 결과 건수가 줄어들지 않음
합계, 평균, 순위, 순서 등
SELECT
WINDOW_FUNTION()
OVER (PARTITION BY <Column> -- 집계 기준
ORDER BY <Column>) -- 정렬 기준
FROM Table
LEAD : 다음 것을 가져옴
LAG : 먼저 것을 가져옴
SELECT
LEAD|LAG (<Column>, N) -- 순서 조작 대상 (N번째 뒤|앞의 값)
OVER (PARTITION BY <Column> -- 그룹핑 대상
ORDER BY <Column>) -- 정렬 기준
FROM Table
csv 파일
MySQL DB
변환 - 숫자
통계 : 많이 쓰지는 않음
Bar Graph
Pie
범례 2개 이상 - 드릴다운 형성
Table
피봇 테이블과 비슷
행렬
Line Graph
Calculation = {blank()}CACULATE (
<expression -- 집계값>
, <filter 1>
, <filter 2> [, ...]
)