윤리적 문제를 가지고 있는 보스턴 집값 데이터셋(load_boston)과 그에 대한 대체 데이터셋
2023/01/16
머신러닝에서 예측 모델용 데이터 셋으로 자주 사용 되어 왔던 일명 "보스턴 집값" 데이터 셋에 대한 사이킷런 페이지를 보면 다음과 같은 설명이 있고 이와 같은 문제 때문에 사이킷런 1.2 버전 부터는 삭제 될 예정이라고 하네요.
아래 링크의 글을 보면 다음 아래와 같은 내용이 작성 되어 있습니다.
https://scikit-learn.org/1.0/modules/generated/sklearn.datasets.load_boston.html
https://scikit-learn.org/1.0/modules/generated/sklearn.datasets.load_boston.html
Warning The Boston housing prices dataset has an ethical problem: as investigated in [1], the authors of this dataset engineered a non-invertible variable “B” assuming that racial self-segreg...