22.11.01 - 사이드

LaMelo·2022년 11월 1일
0

jupyter

목록 보기
27/29

캐글 컴피티션 데이터

  • 전체 데이터를 다 제공하지는 않는다.

    • 분석 모델을 만드는 것이 목표
    • 분석 모델 : 공식 or 방정식
      • ex> k-최근접이웃 알고리즘
      • x축은 키 / y축은 체중
      • 예 : 남자 평균 : 174 / 75 // 여자 : 161 / 55
      • 데이터를 많이 수집하는 것 -> 학습
      • 학습데이터 : 그래스에 점을 찍어주는 개념의 데이터
        정답과 문제를 같이 활용
  • 평가데이터 : 문제와 검증용 데이터로 컴퓨터에거 문제(키, 체중)를 주고
    답(성별)을 추론하도록 시킨 다음 가지고 있는 정답과, 컴퓨터가 추론한 결과를 비교해서 우수성을 체크합니다.

  • 자료 제공은 정답과 문제의 비율은 7:3 / 6:4로 제공

    • 예시 문제 : 172 / 66 의 성별을 추론해보시오.
      • 풀이 예시 : k-최근접이웃 알고리즘이란 문제의 가장 가까운 주변 자료들을 고려하여 답을 도출
  • 평균에서 튀는 데이터 : 아웃라이어(이상치)

  • 과적합 : 특정 상황에서만 적합 / 일반적 상황에서는 오류가 나타나는 추론. 보통 80~90퍼센트 일치하면 좋은 알고리즘으로 판단

  • 다중공선성이란?
    • 중복속성(다중공선성)
      • 독립 변수들 간의 성질이 비슷하여 거의 같은 속성을 가진 경우 가중치를 2배로 만드므로 빼주는게 좋다.
      • ex> 승리 경기를 수집하는데 15점 이상 낸 승리 경기의 경우 15점 이상이라는 조건을 제거하는 것이 좋다.
      • 타율과 안타율 혹은 홈런을 같이 반영하는 것 : 타율이 조금만 좋아도 훨씬 과대평가될 확률이 높다.

같은 속성의 자료가 두개가 반영된다면 같은 의미를 두번 적용하는 것과 같으므로 상관성을 더 짙게 만드는 경향성의 오류를 배제하기 어려워진다. 그렇기때문에 같은 속성의 자료는 한가지만 반영하는 것이 올바른 분석을 도출하는 길이다.

profile
가즈아~

0개의 댓글