역시 쉽지않다. 지식이 없는 상태에서의 머신러닝 프로젝트란.
하지만-수많은 어려움속에서도 나는 버텨낸다. 할 수 있는대까지는 해봐야지않겠냐고.
하.. 이거는 진짜 안겪어본사람은 모른다. 서로 이야기하는데 못알아듣고 쳇지피티 켜서 찾아보고 하지만 그래도 모르는게 있고,, 결국은 꿀먹은 벙어리가 되는
암튼- 오늘도 사실 한 게 별로 없는 것 같다. 오늘의 이슈는 갑자기 컴터가 맛탱이가 가버려서 이걸 서비스센터에 연락해봐야하나 싶어서 실제로 예약까지 갔다가- 그 무슨 번호가 뭔지 모르겠어서 후퇴했다.(예약할려면 써야하는 뭔 번호가 있다.) 그래서 이것저것 만져보다가 그냥 컴터를 껐다 다시 켰다.- 다행히 그랬더니 다시 살아났다. (다행이지모야)맛탱이간 이유를 추측하기로는- 팀원분거 코드주시고 돌려보라고 하셔가지고 해봤는데, 그게 시간이 너무너무 오래걸렸다. 중간에 멈췄어야 했는데 거의 26분동안 돌아가가지고 뭔가 싶었다. 그렇게 오래걸리는 이유가 뭔지,, 모르겠음.. 코드가 그렇게 길지는 않았는데, 팀원분 것에서는 잘 돌아간다 하셨다. 뭐지진짜. -> 암튼 너무 오래돌아가면 그냥 멈추기. 그리고 굳이 돌려봐야 하는 이유 찾아보고 타당한 이유 없다면- 상의해서 조율하기.(사실 내가 이번 프로젝트는 잘 모르니까 그냥 약간 따라간다는 느낌으로 했는데, 돌아보니 이런것은 나중에는 잘 모르더라도 확실하게 알고 해야겠다-)
그리고 두번째 이슈는,, 팔이랑 손이 너무 저리고 아팠다. - 터널증후군인가 싶어서 버티컬 마우스를 알아보고 구매했다. 종류와 고려해야될게 얼마나 많던지,, 뭐 하나 고르는데 정말 시간이 많이 걸린다.. 로지택리프트는 너무 비싸서 고려하다가(근데 마땅한게 없어서 진짜 이거 구매할까 고민했다) 액토도 고민하다가 그냥 그 아이리스?아이,,뭐시기 거 샀다. 가격이 싼것도 아니고 비싼것도 아니다. 리뷰들보고 엄청 고민하다가 샀다. 빨리 와서 쓰고 싶다. 내 팔이랑 손 건강 지켜 - +솔직히 이 프로그램 시작하면서 노트북도 샀고, 키스킨도 샀고, 그 노트북 받침대도 생일선물로 사달라해서 장만했고, 이제는 마우스도 샀고,, 더 나아가서 그 인체설계된 키보드도 살까 고민중이다.. 컴퓨터앞에 있는 시간이 너무 많아지다보니 필요할 것 같다..ㅎㅎ,, 온몸이 쑤신다고ㅜㅜㅜㅜ
이번 프로젝트는 내가 친숙한 에어비앤비가 주제라서 훨씬 좋다. 정말로. 실제로 내가 겪어보기도 했고, 또 뉴욕의 에어비앤비라서- 더 좋다. 또 하다보니까 재밌기도 하다. 지금은 쳇지피티의 도움을 많이 받고 있지만, 언젠가는 내가 직접 다 돌리고 써서 해보고 싶다.- 사실 나혼자 eda 하다만게 있어서 요 프로젝트 좀 정리되면 그거를 나 혼자 전처리 해보고 머신러닝까지 돌려보고 싶다.
암튼 도메인 지식이 정말 중요하다는 것을 이번 프로젝트 하면서 또 느꼈고, 주말동안 강의 듣고 정리해보니 뭐가 뭔지 알겠고, 정리가 조금은 되었다. - 그 eda가 제일 힘든거 맞는것 같다. - 팀원분들이 애어비앤비 해석할 때 내가 도메인지식을 통해서 같이 이야기할 수 있었다.-드디어나도 그 이야기에 도움이 되고, 주말에 공부하니 흐름을 따라갈 수 있었다는 것.. ㅜ
오늘은 shap를 써서 상관관계를 보았는데, 은근 이게 해석하기가 어려운 종류인것 같다. 빨간색과 파란색으로 나뉘는데,, 그거 자체가 그 피쳐이고, 음수쪽으로 빨간색이 있는 것은 그것의 갯수?가 많아지는 것과 그 프라이스(가격)가 내려가는 것이 상관관계가 있다는 것이다.-그래서 인과관계라기보다는 상관관계로 보는 것이 맞다.

이렇게 생겼다. 그 저 선 자체가 그 피쳐들 자체를 나타내는 것이고, 빨간색이 양이면 이게 많은게 가격도 많다..요론느낌,,,예스,,어렵지? 나도 어렵다,,ㅠㅠ
그리고 브루클린 지역은- 아 나는 브루클린 지역을 맡았는데, 암튼 브루클린지역에서의 룸타입 별 가격이

이렇게 나와가지고- 왜 shared가 private보다 높게 책정되어있지 싶어서 알아보았다.
df['room_type'].value_counts() # room_type의 고유값들의 행 수
room_type
Entire home/apt 3775
Private room 3626
Shared room 37
Hotel room 17
Name: count, dtype: int64
-> 프라이빗룸보다 셰어드룸타입이 훨씬 적은 것을 알 수 있었고,
이후에 셰어드룸의 가격정보를 보았다.
shared_rooms = df[df['room_type'] == 'Shared room']
shared_rooms['price'].describe()
count 37.000000
mean 133.552973
std 148.477235
min 36.000000
25% 37.000000
50% 90.000000
75% 153.000000
max 799.460000
Name: price, dtype: float64
->표준편차가 심한것을 확인할 수 있었고(멀리 분산되어있다는 것)
최소값이랑 최대값이 차이가 엄청나다는 것을 알 수 있었다.
import matplotlib.pyplot as plt
plt.hist(shared_rooms['price'], bins=20)
plt.title('Shared Room Price Distribution')
plt.xlabel('Price ($)')
plt.ylabel('Count')
plt.show()
# 셰어드룸의 프라이스값의 분포를 보고 싶어서 시각화를 하였다.

굿굿. 뛰는 값이 있었네. 찾아보니, 셰어드룸 중에서도 타입이 도미토리같은 타입만 생각했는데, 고급 셰어드룸 타입도 있다고 한다(궁금하다)
찾아보고 내일 찾으면 올리겠다.

야간 요론 느낌..의 애어비앤비가 없겠지만은 이런느낌이지 않을까 싶다.


와 근데 진짜 이런 공간이 있다면 가보고 싶긴 하다.ㅎㅎ