머신러닝(캘리포니아 집값 -3)

Cloud_ Ghost·2022년 11월 9일
0

AI

목록 보기
6/37
post-thumbnail

머신러닝(캘리포니아 집값 -2)에서 이어집니다

특성

이번에는 "캘리포니아 집값 구하기" 에서 특성끼리 조합을 해보겠습니다.
아, 그전에 특성에 대해 알아야 특성끼리 조합이 가능하겠죠?

특성의 의미


네이버 사전에서 말하는 feature의 뜻은 "특색", "특징", "특성"이 있습니다.
머신러닝에서도 feature는 "특징"이나 "특성"이라고 자주 일컫습니다.

오케이! feature의 영어에서의 뜻은 알겠고, 그렇다면 머신러닝에서의 feature는 어떤 뜻을 가질까요?

특성(feature):

  • "feature"라고 불립니다.
  • "입력 변수"라고 생각하면 편할거 같습니다.
  • "단순 선형 회귀에서의 x값"입니다.

특성에 대해서 알았으니 다시 본론으로 돌아와서 캘리포니아 집값 구하기 문제에서의 특성이 무엇인가 살펴본다면

  • longitude : 경도
  • latitude : 위도
  • housing_median_age : 중간 주택 연도
  • total_rooms : 방의 총 개수
  • total_bedrooms : 침실의 총 개수
  • population : 인구
  • households : 가구
  • median_income : 중간 소득
  • median_house_value : 중간 주택 가격
  • ocean_proximity : 바다와의 거리

위의 것들이 될 것입니다.
왜냐하면 우리의 머신러닝 모델은 이를 입력하여 돌아가기 때문입니다.

특성끼리의 조합

특성이 무엇인지 알았으니 이번에는 특성끼리 어떤 조합이 가능할지 생각해보겠습니다.
가령 예를 들어 아래와 같이 특성끼리 조합이 가능할 겁니다.

  • 한 가구에 방이 몇 개 일까?
  • 전체 방 중에서 침실은 몇 개 일까?
  • 가구당 인구 수는 어떻게 될까?

이를 파이썬으로 옮겨보면

# 한 가구에 방이 몇 개 일까?
housing["rooms_per_household"] = housing["total_rooms"] / housing["households"]

# 전체 방 중에서 침실은 몇 개 일까?
housing["bedrooms_per_room"] = housing["total_bedrooms"] / housing['total_rooms']

# 가구당 인구 수는 어떻게 될까?
housing["population_per_household"] = housing["population"] / housing["households"]
# 특성 추가 후 상관관계 파악
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)
*****결과*****

특성끼리 조합 후 해석

median_house_value가 1이 나온 이유는 median_house_value를 기준으로 해석했기 때문에 median_house_value/median_house_value = 1, 이런 식으로 결과가 나오게 되는 것 입니다.
median_house_value 외에도 결과를 더 살펴보자면

  • rooms_per_household => 0.146255 : 기존의 데이터들보다 상관관계가 더 높다는 것을 알 수 있습니다.
  • bedrooms_per_room => -0.259952 : 기존의 데이터들보다 상관관계가 더 높다는 것을 알 수 있습니다.
    (이는 결과를 볼 때 절대값을 씌워서 보기 때문입니다.)
  • population_per_household => -0.021991 : 머신러닝에 방해가 되는 상관관계가 될 수 있습니다.
    (0에 가까울수록 잘 못된 결과를 가져올 수 있기 때문입니다.)

이를 통해서 해석할 수 있는 부분은

  • 연관성이 있는 데이터들끼리의 비율을 잘 구하는게 좋습니다
  • 절대값을 씌워서 보기 때문에 마이너스이더라도 값이 큰게 더 중요하다고 볼 수 있습니다.





여기까지 살펴보겠습니다.
아직도 배우고 있는 사람으로서 부족한 부분이 너무 많은 글이라는게 느껴집니다. 잘 못 작성된 부분이 존재하여 고쳐야 될 부분이 존재하는 경우, 이에 대해 짧게라도 가르쳐주시면 감사하겠습니다. 항상 배우는 마음으로 감사하게 가르침을 받겠습니다.
profile
도망쳐서 도착한 곳에 낙원이란 있을 수 없는 거야.

0개의 댓글