25.6.4TIL

황효정·2025년 6월 4일

데이터 분석

목록 보기

75/88

머신러닝에서의 편향과 분산

원래 내가 알고 있던 의미

하지만 머신러닝에서의 의미

✅ 한 줄 정리
“분산이 크다”는 건 모델이 너무 민감해서 예측이 불안정하다는 뜻,
“편향이 크다”는 건 모델이 정답에서 일관되게 멀리 벗어난다는 뜻.

다운캐스트

이거 오늘 프로젝트하면서 알게된건데, 메모리랑 속도때문에 그 타입 숫자를 낮추는게 있다.
원래는 데이터타입이 int64, float64이렇게 되는데 이거를 이런식으로 바꿔준다.

# 정수형 컬럼 다운캐스트
df_reviews['Unnamed: 0'] = df_reviews['Unnamed: 0'].astype('int32')
df_reviews['rating'] = df_reviews['rating'].astype('int8')
df_reviews['total_feedback_count'] = df_reviews['total_feedback_count'].astype('int16')
df_reviews['total_neg_feedback_count'] = df_reviews['total_neg_feedback_count'].astype('int16')
df_reviews['total_pos_feedback_count'] = df_reviews['total_pos_feedback_count'].astype('int16')