실습 문제로 국민건강검진 개방 데이터로 분석 보고서를 만드는 과제가 나왔는데, 어떻게 분석을 해야 하는지가 막막했다. 기본적으로 각 변수가 어떤 수치인지와 정상치가 어느 수준인지를 알고 있어야 가설설립이 가능할텐데, 나는 각 변수에 대한 의학적 지식이 전무했기 때문이다.
그래서 우선 건강검진 데이터를 분석하기 앞서서 그 수치들을 검색해보았다. 나는 간과 생활요인의 상관관계를 보고 분석하려고 했는데 우리가 통상적으로 '간 수치'라고 부르는 것도 수치 하나가 아니라 혈청지오티, 혈청지피티, 감마지티피 등 여러 수치를 종합적으로 보아야 해서, 병원 웹사이트에 안내되어 있는 성분의 정의를 참고하여 가설을 세웠다.
그리고 회귀분석을 돌린 결과 감마지티피를 제외한 두 성분이 각각 중간에 끊지 않고 꾸준히 흡연한 사람인 경우에, 그리고 음주를 하는 사람인 경우에 감소하는 상관관계를 보였다.
처음에는 이상치 제거를 잘못해서 그런 줄 알고 데이터를 처음부터 돌렸다.
결과는 마찬가지였다.
그 다음엔 연구논문을 찾아보았다.
좀 더 세밀한 데이터들과 시계열 정보가 필요하다는 사실을 깨달았다. 각 성분의 정의, 정상치, 특징을 알게 되니 똑같이 통계적으로 유의하게 나온 회귀분석 결과라도 유의하다고 해석할 수 있는 부분과 그렇게 해석할 수 없는 부분이 갈렸다.
예컨대 성차로 정상치가 갈리는 성분은 남성과 여성의 집단을 나누어 보았을 때야만 유의미한 결과를 도출할 수 있다. 또, 단순히 1회의 약물 복용으로 증가되는 수치가 있는 반면 반복적으로 약물을 복용하여 조직이 상했을 때에만 검출되는 성분이 있어서, 후자의 경우 약물의 양과 횟수가 나와 있지 않은 내 데이터에서는 음주, 흡연여부와 음의 상관관계가 나왔지만 복용된 약물의 양과 횟수에 따라 그룹을 나누어 진행한 연구논문에서는 양의 상관관계가 도출되는 경우도 있었다.
다행스럽게도(?) 흡연과 음주가 간 수치를 높인다는 것은 사실이었다. 연구논문결과를 잘 합해서 데이터를 해석한 뒤 보고서를 제출했고, 도메인 지식이 중요하다는 말을 다시금 실감하게 되는 실습이었다. 다음에도 잘 알아보고 뾰족한 분석을 하자.