[TIL] 210811

zhenxi·2021년 8월 11일
0

TIL

목록 보기
2/11

오늘 한 일

  • Ridge 회귀
  • 점심 저녁 집밥 먹음 (뿌듯)

keyword :

  • one-hot encoding
  • 더미 코딩(불필요한 피쳐 제거)
  • 범주형 변수 (Categorical variable)
    • 명목형(nominal)
    • 순서형(ordinal)
  • 집합의 크기(Cardinality)
  • 특성선택(Feature selection)
  • 특성공학(feature engineering)
    * 과제에 적합한 특성을 만들어 내는 과정
    • SelectKBest
  • 이상치
  • Ridge Regression 모델 학습
    * 편향을 조금 더하고 분산을 줄이는 방법으로 정규화 수행
    • alpha=0 : OLS와 그래프상으로 같은 모델
    • alpha커짐 : 직선의 기울기가 0에 가까워져 평균 기준모델과 비슷해짐
    • alpha(람다)값이 커질수록 회귀계수(가중치)들을 0으로 수렴시킴 -> 덜필요한 특성 줄임 -> 과적함 내려감
      ? 람다값이 0에 가까워질수록 다중 회귀 모델이 됨
  • OLS(최소자승법 / 단순선형회귀에 쓰임)
  • 회귀계수
  • 교차검증(Cross-validation)
  • RidgeCV, 최적 패널티

참고) alpha, lambda, regularization parameter, penalty term 모두 같은 뜻 입니다.

기타

범주 비율을 살펴볼 때

df['컬럼이름'].value_counts(normalize=True)

각 범주에 대한 여러 통계량 보고 싶을 때

df.groupby('City')['Price'].agg(['min','max','mean','median'])

범주형 데이터에만 원핫 인코딩 수행

## import OneHotEncoder
from category_encoders import OneHotEncoder

## 원핫 인코딩
encoder = OneHotEncoder(use_cat_names = True)
X_train = encoder.fit_transform(X_train)
X_test = encoder.transform(X_test)

내일 할 일

  • 논리회귀(Logistic Regression) 공부
  • 건강을 위해 스트레칭!


🐹
오늘은 정말 쉽지 않았다..! 이해 안되는 것 투성이지만, 키워드를 직접 써보니 조금은 정리되는 느낌이다. 릿지는 이번 sprint 끝나면 제일 복습해야 하는 파트일 것 같다.

profile
인문학도(였던 것)

0개의 댓글