Week3: 📝 Data Preprocessing(Pandas& Numpy) + MLP 기초

yoon·2025년 9월 14일

HDC LABS

HDC LABS NOVA 1기

목록 보기

2/7

이번 주 학습 정리

이번 주에는 Titanic 데이터셋과 MNIST 데이터셋을 통해
데이터 전처리(Pandas & Numpy)와 MLP(다층 퍼셉트론) 기본기를 익힘

📚 목차

1. Pandas 조건 검색
2. 결측치 처리 & map vs apply
3. 데이터 변환 & 통계 함수
4. NumPy 배열 기초 & 조작
5. 신경망 기초 (Feedforward Neural Network)
6. MLPClassifier 실습 (Iris & MNIST)
7. 로지스틱 회귀 vs 랜덤포레스트 비교
8. 이번 주 학습 포인트 총정리

1. Pandas 조건 검색

방법	예시 코드	특징
Boolean Index	`df[df['Age']>30]`	조건 True/False로 필터링
loc	`df.loc[df['Age']>30, ['Name','Age']]`	조건 + 특정 열만 선택
isin	`df[df['Name'].isin(['John','Mary'])]`	리스트 값 필터링
isin+loc	`df.loc[df['Name'].isin(my_condition), 'Age']`	조건 + 특정 열

2. 결측치 처리 & map vs apply

🟡 결측치 확인

df['Age'].isna()           # True/False
df['Age'].isnull().sum()   # NaN 개수
df['Age'].notnull()        # 결측 아닌 값

🟡 결측치 채우기

df['Cabin'] = df['Cabin'].fillna('U')

🔵 map vs apply 차이

항목	`map()`	`apply()`
대상	iterable 전체	Series/DataFrame
반환	map 객체	Series/DataFrame
입력으로 허용	함수, dict, Series(매핑 가능 객체)	함수만 (dict나 Series 매핑 X)

3. 데이터 변환 & 통계 함수

숫자 변환: pd.to_numeric(errors='coerce') → 변환 불가 시 NaN
- errors = ‘ignore’ : 숫자형으로 변경할 수 없는 데이터라면 원본 데이터 그대로 반환
- errors = ‘coerce’ : 숫자형으로 변경할 수 없는 데이터라면 기존 데이터는 지우고 NaN으로 설정하여 반환
- erros= ‘ raise’ : 숫자형으로 변경할 수 없는 데이터라면 오류가 발생하며 코드가 중단
데이터 타입 변경: astype()
구간별 카테고리화: pd.cut()
통계: df.describe(), df['col'].mean() 등

4. NumPy 배열 기초 & 조작

1. NumPy와 Pandas 비교

구분	NumPy 배열 (ndarray)	Pandas 데이터프레임 (DataFrame)
구조	다차원 배열 (벡터·행렬·텐서)	2차원 테이블 구조
자료형	동일한 자료형(int, float)만	열마다 서로 다른 자료형 가능
인덱싱	정수 기반	레이블 기반(행/열)
특징	빠른 수치 연산, 브로드캐스팅	groupby, merge, join, pivot 등 고급 기능

2. NumPy 배열 생성

① `arange` + `reshape`

import numpy as np

d = np.arange(12).reshape(3,4)
print(d, d.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] (3, 4)

arange(): 특정 수열을 만들어 배열 생성
reshape(): 배열의 차원/형태를 변경

② 배열 속성

dtype : 데이터형
ndim : 배열 차원
T : 행/열 전치 (Transpose)
size : 총 원소 수
nbytes : 총 바이트 수
flat : 모든 요소 일괄 변경 (d.flat = 1)

③ np.array()로 직접 생성

1차원

a = np.arange(0,5,2)
print(a, a.shape)

2차원

m = np.array([np.arange(0,4,3),
              np.arange(1,5,3),
              np.arange(2,6,3)])
print(m, m.shape)

# [[0 3]
#  [1 4]
#  [2 5]] (3,2)

3차원

m = np.array([[[0,1,2],
               [3,4,5]],
              [[0,1,2],
               [3,4,5]]])
print(m.shape)

# (2,2,3)

💡 Python range() vs NumPy arange()
→ arange()는 실수 간격도 가능, NumPy 배열 반환.

3. 배열 다루기 (reshape, flatten, 방향 변경)

① reshape()로 형태 변경

m1 = np.arange(6)
m2 = m1.reshape(6,1)   # 6행 1열
m3 = m1.reshape(2,3)   # 2행 3열
m4 = m1.reshape(2,2,3) # 2면 2행 3열

행 수를 -1로 주면 자동 계산:

m2 = m1.reshape(-1,2)  # 2열, 행은 자동

② flatten() : 다차원 → 1차원

flat = m4.flatten()

③ 배열 방향 뒤집기

arr[::-1]  # 행 방향 뒤집기
arr[:, ::-1]  # 열 방향 뒤집기

4. 배열 통합과 분할

① 합치기

행 방향	열 방향
`vstack()`, `row_stack()`, `concatenate(..., axis=0)`	`hstack()`, `column_stack()`, `concatenate(..., axis=1)`

② 분할하기

행 단위 분할	열 단위 분할
`vsplit(arr, n)`	`hsplit(arr, n)`
`split(arr, n, axis=0)`	`split(arr, n, axis=1)`

5. Numpy 배열의 연산

브로드캐스팅: 차원의 크기가 다른 배열끼리 산술연산이 가능하도록 하는 것.

A = np.array([[1,2,3],
              [4,5,6]])
B = np.array([[2],
              [4]])
print(A+B)

[[ 3  4  5]
 [ 8  9 10]]

5. 신경망 기초 (Neural Network)

📌 순전파 신경망(Feedforward Neural Network) 로직

입력층 (Input Layer)
- 데이터 x가 들어옵니다. 예를 들어, 특징(feature) 벡터 [x1,x2,...,xn][x_1, x_2, ..., x_n][x1,x2,...,xn].
가중치 및 편향 (Weights, Bias)
- 각 층에는 가중치 행렬 W와 편향 벡터 b가 있습니다.
- 수식:z=W⋅x+b
활성화 함수 (Activation Function)
- 비선형성을 추가하기 위해 z를 활성화 함수 f 에 통과시킵니다.
- 예: ReLU, Sigmoid, Tanh a=f(z)
다음 층으로 전달 (Forward Propagation)
- 계산된 a는 다음 층의 입력이 됩니다. [다중 Hidden Layer]
- 이를 반복해서 출력층까지 진행.
출력층 (Output Layer)
- 회귀 문제라면 보통 활성화 없이 그대로 출력.
- 분류 문제라면 Softmax를 써서 확률 분포로 변환.
- 이진 분류 문제라면 Sigmoid 를 사용하여 0~1 확률로 변환

순전파(Forward)로 입력→출력, 역전파(Backpropagation)로 가중치 업데이트

6. MLPClassifier 실습 (Iris & MNIST)

🔹 Iris 데이터

from sklearn.neural_network import MLPClassifier

mlp = MLPClassifier(hidden_layer_sizes=(10,),
                    activation='logistic',
                    solver='lbfgs')
mlp.fit(X_train, y_train) # 학습
# 작은 데이터셋(150개) → 작은 은닉층으로도 높은 정확도

🔹 MNIST 데이터

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier

mnist = fetch_openml('mnist_784', version=1, as_frame=False)
X, y = mnist.data / 255.0, mnist.target.astype(int)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

mlp = MLPClassifier(hidden_layer_sizes=(128,64),
                    activation='relu',
                    solver='adam',
                    max_iter=100)
mlp.fit(X_train, y_train)

fetch_openml('mnist_784') : 28×28 픽셀 → 784 벡터
정규화: /255.0 → 0~1 스케일링(scaling).
- 원래 픽셀 값은 0=검정, 255=흰색.
- 신경망 학습 시 입력 값이 크면 기울기 폭발(gradient explosion) 문제 생김.
- 스케일링을 통해 학습 안정성과 속도를 개선.
라벨 변환: .astype(int)
은닉층: 고차원 데이터 → 큰 네트워크(128→64) 설정
hidden_layer_sizes 에 전달하는 튜플(tuple) 의 각 원소는 각 은닉층의 뉴런(유닛) 개수를 의미.

(100, 50) 은
- 첫 번째 은닉층: 100개의 뉴런
- 두 번째 은닉층: 50개의 뉴런 → 즉 2개의 은닉층을 가진 구조입니다.
(3,) 은 은닉층 1개, 뉴런 3개. (5, 3, 2) 는 은닉층 3개(5→3→2).

7. 로지스틱 회귀 vs 랜덤포레스트 비교

로지스틱 회귀 → "성별이 생존에 미치는 영향이 얼마나 큰가?" (계수 해석, 오즈비 Odds Ratio, AUC/Recall 중점): 선형 분류 모델, 예측 확률을 직접 제공

👉 중요한 평가지표
1. 정확도(Accuracy)
  - 전체 예측 중 맞춘 비율
  - 클래스 불균형(예: 생존자보다 사망자가 많음)이 심할 때는 맹점이 있음
2. 정밀도(Precision) / 재현율(Recall) / F1-score
  - 생존자 예측 문제처럼 "양성 클래스(1=생존)"가 중요한 경우, Accuracy만 보면 안 되고 재현율(Recall) 이 중요해요.
  - 정밀도: 모델이 "생존"이라고 한 사람 중 실제 생존한 비율
  - 재현율: 실제 생존한 사람 중 모델이 맞게 "생존"이라 한 비율
  - F1-score: Precision과 Recall의 조화평균
랜덤 포레스트 → "성별, 요금, 나이, 가족 수 중 어떤 변수가 가장 중요한가?" (Feature Importance, Accuracy 중점): 앙상블 트리 기반 모델, 변수 중요도를 산출

👉 중요한 평가지표
1. 정확도(Accuracy)
  - 랜덤 포레스트는 기본적으로 정확도를 높이기 위한 모델이라 많이 씀

👉 따라서,

설명력 중시 (변수가 생존 확률에 미치는 영향 해석) → 로지스틱 회귀 + Precision/Recall/AUC
예측력 중시 (변수 중요도와 분류 정확도) → 랜덤 포레스트 + Accuracy/AUC/Feature Importance

8. 이번 주 학습 포인트 총정리

✔︎ 데이터 전처리:

[Pandas] 조건 검색, 결측치 처리, 데이터형 변환
[Numpy] 배열 조작, 배열 연산(브로드캐스팅)

✔︎ 신경망 기초: [입력층]입력→ [은닉층] 가중치→활성화 → [출력층] 출력 순서

활성화함수: 시그모이드 함수,ReLU, Tanh

✔︎ 사이킷런을 통한 신경망 구현:

MLPClassifier: 작은 데이터는 작은 네트워크, 큰 데이터는 큰 네트워크 + 정규화 필수

mlp = MLPClassifier(hidden_layer_sizes=(128, 64),  # 은닉층 2개 (128 → 64)
                    activation='relu',
                    solver='adam', #모델 학습 방법
                    max_iter=100,   # 반복 횟수 (20 → 100 실험 가능)
                    random_state=42, #초기 가중치 값 고정
                    verbose=True)

✔︎ 로지스틱 회귀 vs 랜덤포레스트: 해석력 vs 예측력

☁️ 총평: 실습해보면서 계속 자주 쓰이는 함수/패키지들을 익히고 모델들의 특성을 익혀서 어떨 때 사용하면 좋을지 바로 아는 능력을 기르는 게 중요할 듯. 다음주도 화이팅~

yoon

이전 포스트

HDC LABS NOVA 1기 - week1 후기

다음 포스트

Week3: 📝 Data Preprocessing(Pandas& Numpy) + MLP 기초

HDC LABS NOVA 1기

📚 목차

1. Pandas 조건 검색

2. 결측치 처리 & map vs apply

🟡 결측치 확인

🟡 결측치 채우기

🔵 map vs apply 차이

3. 데이터 변환 & 통계 함수

4. NumPy 배열 기초 & 조작

1. NumPy와 Pandas 비교

2. NumPy 배열 생성

① `arange` + `reshape`

② 배열 속성

③ np.array()로 직접 생성

3. 배열 다루기 (reshape, flatten, 방향 변경)

① reshape()로 형태 변경

② flatten() : 다차원 → 1차원

③ 배열 방향 뒤집기

4. 배열 통합과 분할

① 합치기

② 분할하기

5. Numpy 배열의 연산

5. 신경망 기초 (Neural Network)

📌 순전파 신경망(Feedforward Neural Network) 로직

6. MLPClassifier 실습 (Iris & MNIST)

7. 로지스틱 회귀 vs 랜덤포레스트 비교

8. 이번 주 학습 포인트 총정리

HDC LABS NOVA 1기 - week1 후기

Week4: SQL

0개의 댓글

Week3: 📝 Data Preprocessing(Pandas& Numpy) + MLP 기초

HDC LABS NOVA 1기

📚 목차

1. Pandas 조건 검색

2. 결측치 처리 & map vs apply

🟡 결측치 확인

🟡 결측치 채우기

🔵 map vs apply 차이

3. 데이터 변환 & 통계 함수

4. NumPy 배열 기초 & 조작

1. NumPy와 Pandas 비교

2. NumPy 배열 생성

① arange + reshape

② 배열 속성

③ np.array()로 직접 생성

3. 배열 다루기 (reshape, flatten, 방향 변경)

① reshape()로 형태 변경

② flatten() : 다차원 → 1차원

③ 배열 방향 뒤집기

4. 배열 통합과 분할

① 합치기

② 분할하기

5. Numpy 배열의 연산

5. 신경망 기초 (Neural Network)

📌 순전파 신경망(Feedforward Neural Network) 로직

6. MLPClassifier 실습 (Iris & MNIST)

7. 로지스틱 회귀 vs 랜덤포레스트 비교

8. 이번 주 학습 포인트 총정리

HDC LABS NOVA 1기 - week1 후기

Week4: SQL

0개의 댓글

① `arange` + `reshape`