오즈코딩 강의를 들은지 어엿 한달쯤 되었을까..
처음으로 "미니 프로젝트"를 진행하였다.
강의를 듣고 과제만 하던 내가..
말도 안나눠본 분들과 함께 하루도 안되는 시간이 주어지며
어떠한 시각화 프로젝트를 짜내야 한다..
즉.. 며칠간 잠도 못자고 죽(!)음(?) 이라는 것이다.
시각화 미니 프로젝트 데이터는 흡연 여부 데이터가 주어지며,
개인 프로젝트와 팀 프로젝트로 시간을 나누어 진행이 된다.
개인 프로젝트는 10월 28일 화요일 오후부터 시작할 수 있고, 팀 프로젝트는 그 다음날인 수요일 오후부터 시작이 되어서 목요일 오전에 발표한다. 즉 2일이 안되는 시간동안에, 개인 프젝 + 팀 프젝을 동시에 하고, 또한 피피티를 만들어서 발표까지,,,,,,!!!!!!!!!!!
이 프젝을 하기 전에 마음을 나름 단단히 먹고 참여했지만, 생각보다 더 힘들었다.
왜냐면 시간도 부족하기도 했고, 팀프젝을 할 때, 보통 다른 팀원분들은 4명이 한 조가 되어서 진행을 하고 있는데, 내가 있는 팀만. 3명이서 진행을 했기 때문이다.(팀 프젝 당일날 나가신 분이 계심) 그 덕분에 회의 진행하고 피피티 만드는데 너-무. 힘들었다.
흑흑 난 또 발표까지 해야돼서 새벽 동트기 전에 자고,, 몇시간 못자고 일어나서 발표를 했었다.
늦잠 안 잔 내 자신..수고했다..
그런 의미로 회고하는 시간을 갖고자 이 글을 쓰게 되었다.
내가 주로 얘기할 것은 내가 가지고 있는 데이터를 가지고 어떠한 생각으로 코드를 짜고, 결과를 내었는지. 또 어떠한 결과값이 나왔는지. 얘기할 것이다.
이제 그럼 시작해보겠나이다.

이 데이터는 쉽게 말해서 건강검진 한 사람들의 데이터이다.(내가 이해하기론 그럼,,)
나이, 키, 몸무게, BMI, 시력, 충치, 공복 혈당, 혈압, 중성 지방, 혈청 크레아티닌, 콜레스테롤, 고밀고지단백, 저밀도 지단백, 헤모글로빈, 요 단백, 간 효소율, label 이런 컬럼들이 있다. label은 흡연자를 1의 값으로, 비흡연자는 0으로 분류해놨다.

이 값들은 이상치가 있는 값들만 뽑아놨다.


boxplot으로 본 이상치들

이 위에 사진은 health_data의 기본값들이다.
결측치가 얼마나 있는지, 데이터 타입은 무엇인지 확인하는 과정이다.

이번엔 hisplot으로 확인해보며 결측치의 값을 어떠한 값으로 넣으면 좋을지 확인해보는 과정이다.


이렇게 컬럼들의 값들을 얼마 이상부터는 nan의 값으로 바꿔 이상치를 nan의 값으로 바꿔준다.

그러고 결측치를 처리해줬더.


짜잔 이상치가 좀 정리된 그래프이다.

그러고나서 각 컬럼들간의 상관관계를 보았다.
보니 label과 관련이 깊은 몇 가지의 컬럼값들이 보인다.
헤모글로빈, 중성지방, 몸무게, 키(cm)정도의 컬림이 label과 상관관계가 높은 것으로 보인다.


이건 T-statistic과 p-value를 보며 유의미한 값들이 어떤 것인지도 보았다.




이건 두 컬럼의 상관비교를 해서 어떤 값이 상관이 있는지 본거다.
pearson의 값과 spearman의 값이 충분히 작으면 이는 상관관계가 강하다라고 얘기해준다.
이 분석을 이변량 분석이라고도 한다.
왜냐면 값 두개를 가지고 분석을 하기에 두개의 변량을 분석하다 라는 의미로 이변량 분석이라 한다.
또한, 여기까지 진행하는데 팀원들이랑 얘기를 하면서 "나이"라는 컬럼이 과연 흡연의 여부와 관련이 있는지 궁금해서 몇시간 동안 토론을 진행했다. 내가 생각하기에는 "흡연을 하는데 나이대가 과연 유의미 한가,,?" 생각했지만 어떤 한 팀원 분은 "나이"컬럼이 흡연과 직접적인 관계가 있다고 말씀하셨기에 상황이 어지러워서 강사님께 도움을 구하러 갔다.😂😂
여태껏 우리 팀 '옛말이 맞냐조'가 했던 자료들을 다 보여주고, 또 흡연과 다른 컬럼들 간에 상관관계를 보여주며 우리 팀은 "나이", "키", "중성 지방", "헤모글로빈" 이 흡연과 직접적인 관계가 있다고 결정했다 말하니 강사님이 잘 했다고 하셨다!!!!!!크키킼
한줄기의 희망,, 빛같은 말이었다.
왜냐면 이때가 수요일 오후 6시,,? 되는 시점이었는데 이미 체력이 절반으로 깎여 힘들었기 때문이다.(이런 팀플하실때 그 팀원 발표날에 튀는 사람들,,, 있으면 내가 찾아서 딱콩해줄거임 그 한명이 빠지니 남아있는 사람들이 너무 힘듦,,)
그래서 다행이다 생각하고 다시 자료 정리하고 피피티 만들었다.
"나이"라는 컬럼에 대해 흡연 여부와 밀접한 관계가 있다고 생각하여 자료 정리 중간에 추가로 자료를 추가해줬다.




흡연을 일찍부터 시작하면 흡연자의 비율이 많은데, 점점 나이대가 올라갈수록 그 흡연하는 사람의 비율이 낮아진다. 이건 아마도...
흡연은 아무래도 안좋은 것이니 각종 병에 걸려서 나이를 먹을수록 흡연자의 비율이,,,,낮아지는게 아닐까,,?라는 생각을 해본다.(ㅎㄷㄷ)


이 6가지 그래프 또한 이변량 분석을 한 그래프이다. 헤모글로빈 , 키 , 몸무게는 흡연자와 비흡연자 간의 데이터가 다르다는 것을
알 수 있다. 그러므로 위에 3가지 값들은 유의미하다는 값들이라는 것을 알 수 있다..
또한 밑에 요 단백 , 콜레스테롤 , 혈압의 값은 흡연자와 비흡연자 간의 데이터가 거의 차이를 느끼지 못할 정도로 비슷하다는 것을 알 수 있다. 그러므로 밑에 3가지 값은 무의미하다는 값들이라는 것을 알 수 있다.
이렇게 분석 결과 요약을 해보자면
Heatmap 분석 결과 흡연과 강한 상관관계를 가지는 Top5
헤모글로빈, 키, 몸무게, 중성 지방, 혈청 크레아티닌
T-test 분석 결과 p-value 매우 유의한 결과가 나온 Top5
헤모글로빈, 키, 몸무게, 중성 지방, 혈청 크레아티닌
또한, Pearson, Spearman 분석 결과
5개의 변수간에서도 매우 강한 상관관계를 나타내는것을 확인했다.
또한 나이별 흡연률은 2-30대의 젊은세대는 49%가 넘으며, 40대부터 흡연률 36%로 급감하는것을 확인할 수 있다.
흡연자는 비흡연자에 비해 평균 헤모글로빈과 혈청 크레아티닌 수치가 유의하게 높다.
이 현상은 흡연이 혈액과 신장기능에 영향을 주는 것으로 확인할 수 있었다.
흡연자는 비흡연자에 비해 평균 중성지방과 저밀도지단백은 높고, 고밀도지단백은 낮다.
이로 인해 흡연은 지질대사에 악영향을 미치는것을 확인할 수 있었다.
흡연자는 비흡연자에 비해 평균 나이가 낮다.
2-30대의 젊은세대는 비흡연자보다 흡연자가 더 많고, 40대부터는 흡연률이 급감하는 것을 확인 할 수 있었다.
이러한 데이터들을 쉽게 얻을 수가 없는데, 의미있는 의료 데이터를 가지고
이렇게 시각화를 해보니 정말 내가 의료 관련 직종을 가고 싶다라는 생각을 했다.ㅎㅎ
또한,, 진짜 결론은 어른들이 금연을 하는 이유가 있었지 않을까..
모두 금연하세요~~가 이번 미니 프로젝트를 하며 느낀 나의 소감이었다!!!
모두들 금연하세용~ㅋㅋㅋ
😎
블로그 잘 읽고 갑니다아~~ 어쩐지 예진님조는 3명 뿐이길래 이상하다했는데 그런 사연이 있으셨군요.... 심적으로 부담도 더 컸을텐데 너무 고생하셨습니다 ㅠㅠ 대견해애앳ㅅ !!