22.11.01 - 사이드

LaMelo·2022년 11월 1일

jupyter

목록 보기

27/29

전체 데이터를 다 제공하지는 않는다.
- 분석 모델을 만드는 것이 목표
- 분석 모델 : 공식 or 방정식
  - ex> k-최근접이웃 알고리즘
  - x축은 키 / y축은 체중
  - 예 : 남자 평균 : 174 / 75 // 여자 : 161 / 55
  - 데이터를 많이 수집하는 것 -> 학습
  - 학습데이터 : 그래스에 점을 찍어주는 개념의 데이터
    정답과 문제를 같이 활용
평가데이터 : 문제와 검증용 데이터로 컴퓨터에거 문제(키, 체중)를 주고
답(성별)을 추론하도록 시킨 다음 가지고 있는 정답과, 컴퓨터가 추론한 결과를 비교해서 우수성을 체크합니다.
자료 제공은 정답과 문제의 비율은 7:3 / 6:4로 제공
- 예시 문제 : 172 / 66 의 성별을 추론해보시오.
  - 풀이 예시 : k-최근접이웃 알고리즘이란 문제의 가장 가까운 주변 자료들을 고려하여 답을 도출
평균에서 튀는 데이터 : 아웃라이어(이상치)
과적합 : 특정 상황에서만 적합 / 일반적 상황에서는 오류가 나타나는 추론. 보통 80~90퍼센트 일치하면 좋은 알고리즘으로 판단

다중공선성이란?
- 중복속성(다중공선성)
  - 독립 변수들 간의 성질이 비슷하여 거의 같은 속성을 가진 경우 가중치를 2배로 만드므로 빼주는게 좋다.
  - ex> 승리 경기를 수집하는데 15점 이상 낸 승리 경기의 경우 15점 이상이라는 조건을 제거하는 것이 좋다.
  - 타율과 안타율 혹은 홈런을 같이 반영하는 것 : 타율이 조금만 좋아도 훨씬 과대평가될 확률이 높다.

가즈아~