TIL(22.10.11)- 머신러닝 개념 정리(2)

이지영·2022년 10월 11일
0

TIL/WIL

목록 보기
34/110

내일배움캠프 AI

오늘 한 일

실전 머신러닝 적용 강의


논리 회귀 (Logistic regression=Sigmoid function)

대학교 시험 전 날 공부한 시간을 가지고 해당 과목의 이수 여부(Pass or fail)를 예측

  • 선형회귀로 풀수없는 현상 풀 수 있다.
  • 임계치(Threshold) 변경가능
  • 출력값범위 0 ~ 1
  • 손실함수 Crossentropy 함수 이용
  • Keras에서 이진 논리 회귀의 경우 binary_crossentropy 손실 함수를 사용
  • 단항 논리 회귀 -> sigmoid를 사용해 0이냐 1이냐로 나뉜다 -> Crossentropy사용해서 확률 분포 그래프의 차이를 계산해서 최소화

다항 논리 회귀 (Multinomial logistic regression)

대학교 시험 전 날 공부한 시간을 가지고 해당 과목의 성적(A, B, C, D, F)을 예측

  • 원핫 인코딩(One-hot encoding)
    1. 클래스(라벨)의 개수만큼 배열을 0으로 채운다.
    2. 각 클래스의 인덱스 위치를 정한다.
    3. 각 클래스에 해당하는 인덱스에 1을 넣는다.

    성적클래스One-hot encoding
    A0[1, 0, 0, 0, 0]
    B1[0, 1, 0, 0, 0]
    C2[0, 0, 1, 0, 0]
    D3[0, 0, 0, 1, 0]
    F4[0, 0, 0, 0, 1]
  • Keras에서 다항 논리 회귀의 경우 categorical_crossentropy 손실 함수를 사용
  • 다항 논리 회귀 -> softmax를 사용해 모든 결과의 합이 1이 되도록 만든다 -> Crossentropy사용해서 확률 분포 그래프의 차이를 계산해서 최소화

머신러닝 모델 종류

  • Support vector machine (SVM) : 모델의 특징(Feature)에 따라 구별하여 하나의 벡터선(Support vector)을 그리고 그 벡터와의 거리(Margin)가 넓어지도록 학습시켜 만든 모델
  • k-Nearest neighbors (KNN) : 비슷한 특성을 가진 개체끼리 군집화하는 알고리즘
  • Decision tree (의사결정나무) : 스무고개와 같은 방식으로 예, 아니오를 반복하며 추론하는 방식
  • Random forest : 의사결정나무를 여러개 합친 모델

전처리(Preprocessing) : 넓은 범위의 데이터 정제 작업, 데이터를 지우고 필요한 데이터만을 취하는 것

  • 전처리를 하게되면 학습속도가 빠르고 Local minima에 빠질 가능성이 낮아진다.
  • 정규화 (Normalization) : 데이터를 0과 1사이의 범위를 갖는다. 가장 작은 값 0, 가장 큰 값 1
    X=XX최소X최대X최소X' = \frac{X - X_{최소}}{X_{최대} - X_{최소}}
  • 표준화 (Standardization) : 데이터의 분포를 정규분포로 바꿔준다. 데이터의 평균 0 표준편차 1
    X=XX평균X표준편차X' = \frac{X - X_{평균}}{X_{표준편차}}

profile
🐶🦶📏

0개의 댓글