선택편향

정다영·2022년 8월 9일
0

2.2 선택편향


1. 용어 정리

  • 선택편향(selection bias): 관측 데이터를 선택하는 방식 때문에 생기는 평향
  • 데이터 스누핑(data snooping): 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것
  • 방대한 검색 효과(vast search effect): 중복 데이터 모델링이나 너무 많은 예측변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

2. 편향 방지를 위해

  • 성능 검증을 위해 둘 이상의 홀드아웃(holdout)세트 이용
  • 목푯값 섞기(target shuffling)

2.2.1 평균으로의 회귀

1. 평균으로의 회귀란?

  • 주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상
  • 예외적인 경우가 관찰되고, 그것에 의미를 부여하면 선택편향으로 이어짐
    • 즉 이상치를 제거해야 선택편향으로 이어지지 않을 수 있음


[출처: https://m.blog.naver.com/PostList.naver?blogId=businessinsight]

2. 편향을 피하기 위해

  • 가설을 구체적으로 명시
  • 임의표본추출 원칙에 따라 데이터 수집
  • 이상치 제거

피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.

profile
My_Spielraum

0개의 댓글