AI 구현 프로세스 - AI 모델링

Jingu_Jeon·2024년 12월 16일

AICE Basic 공부

목록 보기

17/45

AI 모델링

1. 데이터에 적합한 AI 알고리즘 선택요소
- 타겟변수
  - 지도학습
    - 분류를 위한 데이터
    - 수치 예측(회귀)을 위한 데이터
      - Linear Regression
- 목적
  - 설명
    - 결과의 원인 분석
    - 결과에 영향을 주는 변수(컬럼) 분석
    - 예) 월별 커피 매출 원인, 변수 분석
  - 예측
    - 결과 자체가 중요한 경우
    - 미래 상황에 대비하고, 정확히 알아야 하는 경우
    - 예) 다음주에 팔린 커피 수량을 예측
      - 커피가 팔리는 원인, 영향 변수가 목적이 아니라 팔리는 량이 목적이므로 예측

2. 준비된 데이터로 모델 학습
- 손실함수를 최소화하는 과정
- 개념
  - 목적함수
    - 비용함수
    - 손실함수
      - 작을수록 좋음
  - 가중치
- 훈련데이터, 평가 데이터 분리
  - 보통 Train 70%, Test 20%, Valid 10%로 분리
- 과소 적합
  - 학습을 너무 적게 진행한 상태
  - 학습 반복 횟수를 더 많이 늘려주면 해결 가능
- 과대 적합
  - 학습용 훈련 데이터가 대표성을 띄지않는 경우
  - 훈련 데이터로 지나치게 많은 학습을 한 경우
  - 훈련 데이터에 너무 편향된 상태
  - 해결방법
    - 1. Early Stop
      - 과대 적합을 막기 위해 Epoch 횟수 전에 학습을 조기 종료하기 위한 파라미터
    - 1. Drop Out(Deep Learning 적용 가능)
      - 과대적합을 줄이기 위해 임의로 노드를 제거해주는 확률 수준
- 하이퍼 파라미터
  - 1. Epochs
    - 훈련 데이터 전체를 몇번 반복해서 학습을 할지 정하는 파라미터
    - 과소적합시 해당 수치를 늘림
  - 2. Batch Size
    - 데이터를 학습을 위해 미니 배치로 나누는 파라미터
  - 1Epoch에서 모델 가중치 업데이트 횟수?
    - 이터레이션
      - 데이터의 크기를 배치 사이즈로 나눈 횟수
      - 미니배치 사이즈 만큼 모델의 가중치가 업데이트 된다.
  - 3. Early Stop
    - 조건 충족시, 학습을 조기 종료
3. 모델 평가 및 개선
- 평가 지표 선택
  - 회귀 모델
    - 오차를 직접적 표현
      - MAE(Mean Absolute Error)
      - MSE(Mean Squared Error)
      - RMSE(Root Mean Squared Error)
    - 값이 1에 가까울수록 좋은 모델 성능
      - R2 Score(R Squared)
        
        '회귀 모델이 얼마나 설명력이 있냐'의 지표
        
        예측값&실제값의 강한 상관관계 여부로 요약
  - 분류 모델
    - 정확도(Accuracy)
      - 전체 데이터 중에 몇 개나 정확하게 예측을 했는가?
      - 정확도가 너무 높으면 정밀도, 재현율을 통해 추가 성능 평가가 필요
    - 정밀도(Precision)
      - 양성이라고 예측한 개수 중에 실제로 양성인 개수의 비율
      -
      - 스팸 진단에는 정밀도가 중요
      - 양성(진단)이라고 예측한거중에 실제로 양성이여야함, 최대한 높아야 음성(스팸아님)
      이 잘못 예측이 안되기 때문
      - 음성(스팸아님)이 양성(스팸)으로 분류되는게 문제
    - 재현율(Recall)
      - 실제로 양성인 개수 중에 양성이라고 잘 맟춘 개수의 비율
      - 암진단 모델에서는 재현율이 중요
      - 최대한 많은 양성(진단)을 잡아야하기 때문
      - 양성(암)이 음성(암아님)으로 분류되는게 문제
      - 양성(불량)이 음성(불량X)으로 분류되는게 문제
    - F1-Score
      - TRADE-OFF 관계에 있는 정밀도와 재현율을 조화평균하여 포괄적으로 보기 위한 지표
- 평가 기준 세우기
  - 비교대상과 베이스라인 모델을 비교
    - 1. 유사 AI 과제의 모델 성능을 비교 대상으로 잡기
    - 2. 기존 방식의 성능을 지표화해서 비교 대상으로 잡기
      - 예) 수작업으로 진행한 경우 VS 자동화 도구로 진행한 경우
    - 3. 설문조사 등으로 사용자의 만족 기준 설정
- 더 나은 모델 만들기
  - 1. 더 많은 수의 학습 데이터 사용
  - 1. AI 알고리즘 변경
    - 알고리즘을 바꾸며 성능 비교
  - 1. AI 알고리즘이 하이퍼 파라미터 변경
    - 딥러닝
      - 은닉층 개수 변경
      - 노드 개수 변경
  - 1. 피처엔지니어링을 통한 파생 변수 생성
    - 데이터 분석후 파생 변수 찾기
    - 많은 시도가 있어야 성능 향상 가능