🫐 빅분기 실기 준비

m_ngyeong·2025년 6월 15일

빅데이터분석기사

목록 보기

8/8

빅데이터 분서 기사 실기

실기 체험 환경: https://dataq.goorm.io/exam/3/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/1

help(), dir() 적극 활용 !!!!!!!

help(): 도움말(docstring)을 출력
dir(): 객체가 가지고 있는 속성과 메서드(함수) 목록 출력

import pandas as pd

#dir을 통해 사용 가능한 함수 확인
print(dir(pd))
print(dir(pd.DataFrame))

import sklearn
print(sklearn.__all__)

# 전처리 무엇을 할 수 있지?
import sklearn.preprocessing
print(sklearn.preprocessing.__all__)

🦋 제 1유형(10점, 문제 3개): 수행 순서와 답 계산

IQR(이상치)

데이터 중에서 너무 크거나 작은 값(이상치) 들을 걸러내기 위해 사용한다.

Q1 = df[col].quantile(0.25)   # 1사분위수 (하위 25%)
Q3 = df[col].quantile(0.75)   # 3사분위수 (상위 25%)
IQR = Q3 - Q1                 # IQR: 중간 50% 범위

# 이상치 기준 범위
하한 = Q1 - 1.5 * IQR
상한 = Q3 + 1.5 * IQR

quantile(): 데이터의 분위수를 계산할 때 사용하는 함수
0.25 분위수(=1사분위수), 0.5 분위수(=중앙값), 0.75 분위수(=3사분위수)

🦋 제 2유형(40점, 문제 1개):

1. 데이터 유형 파악

▪️ .info() / .info

print(train.info())

▪️ .shape : 튜플 형태로 배열 정보 확인

print(X_train.shape)

2. 데이터 전처리

(1) 독립변수/종속변수 분리, train/test set 분리

axis = 0: 아래로 내려가면서 계산 → 열(세로)을 따라 계산
axis = 1: 옆으로 가면서 계산 → 행(가로)을 따라 계산
⚠️ 행은 가로 = 행거는 가로

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})
print(df)
'''
   A  B
0  1  4
1  2  5
2  3  6
'''

print(df.sum(axis=0)) # → 각 열의 합
print(df.sum(axis=1)) # → 각 행의 합
'''
A     6
B    15

0     5
1     7
2     9
'''

(2) 결측치 처리: `fillna()`

# 환불금액에 결측치가 있다는 건 환불을 하지 않았다는 의미로 볼 수 있음
X_trian['환불금액'] = X_trian['환불금액'].fillna(0)
X_test['환불금액'] = X_test['환불금액'].fillna(0)

print(X_trian.isna().sum())
print(X_test.isna().sum())

(3) 수치형 변수 스케일링

Why? 강수량 값이 크다고 해서 중요하다는 뜻이 아니기 때문에 같은 스케일로 바꿔야한다.

Min-Max Scaling(최소-최대 정규화) : 0~1 사이로 정규화

X_{\text{scaled}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}

# 🔧 scikit-learn
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
num_columns = X_trian.select_dtypes(exclude='object').columns # 범주형 변수를 제외하고 수치형 변수만 가져옴
X_trian[num_columns] = scaler.fit_transform(X_trian[num_columns]) # fit_transform(): 학습 → 적용
X_test[num_columns] = scaler.transform(X_test[num_columns])       # transform(): 적용

범위: 0 ~ 1 / -1 ~ 1
민감도: 이상치에 민감
사용처: 이미지, 딥러닝 등

Standard Scaling(표준화, Z-score 정규화): 정규분포 기반

$X_{\text{scaled}} = \frac{X - \mu}{\sigma}$

(평균: μ, 표준편차: σ)
```
# 🔧 scikit-lear
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
```
- 범위: 평균 0, 표준편차 1
- 민감도: 상대적으로 안정적이며, 데이터가 정규분포에 가까울수록 효과적
- 사용처: 회귀, PCA 등

(4) 범주형 변수(Object) 인코딩

why? "Sunny", "Rainy"가 같은 문자열은 컴퓨터가 이해하지 못하기 때문에 숫자를 부여할 필요가 있음.

Label Encoding(라벨 인코딩):

['피자', '치킨', '콜라'] → [0, 1, 2]

# 🔧 scikit-lear
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
X_trian['encoded'] = le.fit_transform(X_trian['food'])
X_test['encoded'] = le.fit_transform(X_test['food'])

순서 없음
트리 기반 모델(RandomForest, XGBoost 등)에 주로 사용됨
각 범주에 숫자 ID 부여

One-Hot Encoding(원-핫 인코딩):

fit → transform → DataFrame → concat

'피자' → [1, 0, 0]
'치킨' → [0, 1, 0]
'콜라' → [0, 0, 1]

pd.get_dummies(df['food'])
# 🔧 scikit-lear
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse_output=False)
cat_cols = ['C1', 'C2', 'C3', 'C4']

ohe.fit(X_trian[cat_cols])
# DataFrame = get_feature_names_out() : 열 이름 복원
X_train_ohe = pd.DataFrame(ohe.transform(X_trian[cat_cols]), columns=ohe.get_feature_names_out(cat_cols), index=X_trian.index)
X_test_ohe = pd.DataFrame(ohe.transform(X_test[cat_cols]), columns=ohe.get_feature_names_out(cat_cols), index=X_test.index)

# 기존 범주형 변수 제거하고 인코딩된 것 추가
X_trian = pd.concat([X_trian.drop(columns=cat_cols), X_train_ohe], axis=1)
X_test = pd.concat([X_test.drop(columns=cat_cols), X_test_ohe], axis=1)

각 범주를 이진 벡터로 변환
선형 모델(Linear Regression, Logistic 등)에 주로 사용됨
범주마다 새로운 열 생성

3. 데이터 분리: `train_test_split()`

전체 데이터셋을 훈련(train)과 검증(validation)으로 나누어:
- 모델 학습은 X_trian, y_train으로 진행하고,
- 학습한 모델의 성능을 검증용 데이터 X_val, y_val에서 평가

요소	설명
`X_trian`	훈련용 입력 데이터 (독립 변수)
`X_val`	검증용 입력 데이터
`y_train`	훈련용 타깃 값 (종속 변수, 예: 지하철 이용자 수)
`y_val`	검증용 타깃 값

from sklearn.model_selection import train_test_split
X_trian, X_val, y_train, y_val = train_test_split(X_trian, y, test_size=0.2)
print(X_trian.shape, X_val.shape, y_train.shape, y_val.shape)

train_test_split(X_trian, y, test_size=0.2):
- X_trian: 독립 변수 데이터 (특징 변수)
- y: 종속 변수 (목표값, 예: 지하철 이용자 수)
- test_size=0.2: 전체 데이터 중 20%를 검증용(validation)으로 사용하겠다는 의미
➡️ 즉, 80%는 훈련용, 20%는 검증용

4. 모델 학습 및 검증

▪️ 분류(RandomForestClassifier)

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train) # 모델 학습
y_val_pred = model.predict(X_val)

다중 분류: LabelEncoder → A B C D E → 0 1 2 3 4 → inverser_transform → A B C D E

▪️ 회귀(RandomForestRegressor)

from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(X_trian, y_train)
y_val_pred = model.predict(X_val)

로지스틱 / 다중 선형 회귀 모델

import statsmodels.api as sm
X = sm.add_constant(X) # 상수항 추가

model = 
print(f"회귀계수: {model.params[]}")

로지스틱: sm.Logit(y, X).fit()
다중 선형: sm.OLS(y, X).fit()

🆚 차이

기준	회귀 (Regression)	분류 (Classification)
Y 값의 형태	연속형 숫자 (실수, 정수)	범주형 (클래스, 라벨)
예:	집값, 온도, 매출액, 승객 수	스팸/햄, 질병 유무, 숫자 0~9
예측 결과	실수 값 출력	클래스(범주) 출력
평가지표	MAE, MSE, RMSE, R² 등	정확도, F1-score, ROC-AUC 등

5. 평가

▪️ 분류: roc_auc_score, accuracy_score

ROC 곡선 아래 면적(ROC Auc Score):
- ROC 곡선(Receiver Operating Characteristic curve)은 참 양성 비율(TPR)과 거짓 양성 비율(FPR)의 변화를 나타내는 곡선으로, 분류기가 얼마나 잘 구분하는지(클래스 간 분리도)를 수치로 나타냄.
- 최대 1.0으로, 1에 가까울수록 성능이 좋음.
정확도(Accuracy Score):
- 맞게 예측한 샘플의 비율
- 최대 1.0으로, 1에 가까울수록 성능이 좋음.

\text{Accuracy} = \frac{\text{정확히 맞춘 샘플 수}}{\text{전체 샘플 수}}

from sklearn.metrics import roc_auc_score, accuracy_score
auc_score = roc_auc_score(y_val, y_val_pred)
acc = accuracy_score(y_val, y_val_pred)
print(f'auc_score: {auc_score}, acc: {acc}')

▪️ 회귀: rmse, r2_score

RSEM: 예측값과 실제값 사이 오차의 평균적 크기를 나타냄
값이 낮을 수록 안정적
R²(결정계수): 최대 1.0으로, 1에 가까울수록 성능이 좋음

from sklearn.metrics import root_mean_squared_error, r2_score
rmse = root_mean_squared_error(y_val, y_val_pred)
r2 = r2_score(y_val, y_val_pred)
print(rmse, r2)

6. 결과 저장

y_pred = model.predict(X_test)
result = pd.DataFrame(y_pred, columns=['pred'])
result.to_csv('result.csv', index=False)

7. 생성 결과 확인

result = pd.read_csv('result.csv')
print(result)

🦋 제 3유형(15점, 문제 2개(3문항)): 통계적 가설 검정

▪️ 상관계수: df.corr()

correlations = df.corr(numeric_only=True)['Traget'].drop('Traget') # 자기자신 제외

# 가장 높은 상관계수와 변수 이름
max_corr_var = correlations.abs().idxmax()
max_corr_value = correlations[max_corr_var]

print(f"📌 Target과 가장 선형관계가 큰 변수: {max_corr_var}")
print(f"🔢 상관계수: {max_corr_value:.3f}")

▪️ F-검정(F-test): 두 집단의 분산이 같은가

F = \frac{s_1^2}{s_2^2}

$s_1^2$ : 분산이 더 큰 쪽 (분모가 작게 되면 F 값이 커져서 유의성이 높아짐)
$s_2^2$ : 분산이 더 작은 쪽

👉 이 값은 F분포를 따름 (자유도는 각 집단의 표본 수 – 1)

귀무가설(H₀) 두 집단의 분산은 같다: σ₁² = σ₂²
대립가설(H₁) 두 집단의 분산은 다르다: σ₁² ≠ σ₂²

var1 = group1.var()
var2 = group2.var()

# 데이터의 개수 -1 = 자유도
dof_1 = len(group1) -1
dof_2 = len(group2) -1
print(dof_1, dof_2) # 51 63 → group2: 분자, group1: 분모

f_stat = var2/var1
print(round(f_stat,3))

▪️ 분산 추정량(Sample Variance)

s^2 = \frac{1}{n - 1} \sum (x_i - \bar{x})^2

$n$ : 표본의 크기
$x_i$ : i번째 데이터 값
$\bar{x}$ : 표본 평균

▪️ 합동 분산 추정량 (Pooled Variance) : 등분산일 때 가능

s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}

$s_1^2$ , $s_2^2$ : 두 집단의 표본 분산
$n_1$ , $n_2$ : 각 집단의 표본 수

var1 = group1.var()
var2 = group2.var()
n1 = len(group1)
n2 = len(group2)

pooled_var = ((n1-1)*var1 + (n2-1)*var2) / (n1+n2-2)
print(round(pooled_var, 3))

▪️ t-검정(t-test)

t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}

mean1 = group1.mean()
mean2 = group2.mean()

t_stat = (mean1 - mean2) / np.sqrt(pooled_var * (1/n1 + 1/n2))

독립표본 → ttest_ind()
대응표본 → ttest_rel()
원샘플 → ttest_1samp()
한표본 →

▪️ p-value(유의확률)

$p < 0.05$ : 유의수준 5% → Significant(유의함)
$p \geq 0.05$ : Not Significant
model.pvalues.max()

from scipy import stats 

ttest_result = stats.ttest_ind(group1, group2, equal_var=True)

▪️ 오즈비(Odds Ratio):

어떤 사건이 발생할 확률과 발생하지 않을 확률의 비율을 비교하는 값이다.

import numpy as np
coef = model.params['age']
# 오즈비 (odds ratio) = exp(회귀계수)
print(np.exp(coef))

"오즈비가 몇 배로 변화하는가?" → 오즈비는 계수의 지수함수:

\text{오즈비} = e^{\beta}

5단위로 증가하면:

\text{변화한 오즈비} = e^{\beta \times 5}

odds_ratio > 1: 확률이 증가
odds_ratio < 1: 확률이 감소
odds_ratio ≈ 1: 영향 거의 없음

▪️ 잔차 이탈도(residual deviance): .deviance

residual_deviance = -2 * model.llf
				  = model.deviance

▪️ 로짓 우도값(Log-Likelihood of the model: .llf

print(model.llf)

선형 회귀 모델

회귀 계수(Regression Coefficient)

회귀 계수는 각 독립변수가 종속변수에 미치는 영향력의 크기를 나타낸다.

\text{PIQ} = \beta_0 + \beta_1 \cdot \text{Brain} + \beta_2 \cdot \text{Height}

β₀: 상수항 (절편)
β₁: Brain의 회귀 계수
β₂: Height의 회귀 계수

의미:

β₁ = 1.2이면 → Brain 값이 1 단위 증가할 때, PIQ는 평균적으로 1.2 증가.
β₂ = -3.5이면 → Height가 1 증가하면 PIQ는 평균적으로 3.5 감소.

상수항(constant or intercept) 추가

📌 상수항이 없으면:

모델이 (0, 0)을 반드시 지나야 한다는 제약이 생긴다. 즉,

\text{PIQ} = \beta_1 \cdot \text{Brain} + \beta_2 \cdot \text{Height}

→ 독립변수가 모두 0일 때 종속변수도 무조건 0이어야 함.

📌 상수항을 추가하면:

\text{PIQ} = \beta_0 + \beta_1 \cdot \text{Brain} + \beta_2 \cdot \text{Height}

→ 데이터에 더 잘 맞는 유연한 모델을 만들 수 있고, 실제 데이터 분포에도 더 적합함.

statsmodels나 scikit-learn에서 회귀 분석할 때, 반드시 상수항을 포함시키는 게 일반적.
statsmodels는 기본적으로 상수항을 포함하지 않기 때문에, sm.add_constant(X)로 명시적으로 추가해줘야 함.

m_ngyeong

ʚȉɞ

이전 포스트