머신러닝에서 예측 모델용 데이터 셋으로 자주 사용 되어 왔던 "일명 보스턴 집값" 데이터 셋에 대한 사이킷런 페이지를 보면 다음과 같은 설명이 있고 이와 같은 문제 때문에 사이킷런 1.2 버전 부터는 삭제 될 예정이라고 하네요.

짧게 요약 하면 이 데이터셋을 설계할 때 사용 된 racial self-segregation 가정 등이 결과적으로 이 데이터셋을 윤리적으로 문제가 있는 데이터셋으로 만들게 되었다는 내용입니다.


Warning The Boston housing prices dataset has an ethical problem: as investigated in [1], the authors of this dataset engineered a non-invertible variable “B” assuming that racial self-segregation had a positive impact on house prices [2]. Furthermore the goal of the research that led to the creation of this dataset was to study the impact of air quality but it did not give adequate demonstration of the validity of this assumption.
The scikit-learn maintainers therefore strongly discourage the use of this dataset unless the purpose of the code is to study and educate about ethical issues in data science and machine learning.
In this special case, you can fetch the dataset from the original source:

본문을 보면 특별하게 윤리적 문제에 대한 모델을 다루는 상황이 아닌 이상 이 데이터셋을 사용 하지 말라고 강력하게 권고 하고 있네요.

저도 몇 번 사용적있는데 앞으로는 사용하지 않을 예정입니다. 대체 데이터셋으로 California housing dataset을 제공 하네요.

이 글은 저의 페이지 글 내용을 그대로 복붙 하였습니다.

미국에 서식 중인 응용 수학과 대학원생, 아직은 잉여지만 그래도 행복 :)

0개의 댓글