[일오갓생 Day5] 좋은 의료데이터란 무엇일까? 데이터 뒤에 있는 환자를 상상하는 연습

컬럼월드·2025년 12월 28일
post-thumbnail

의료 데이터를 처음 다루어 보면서 느낀건, “이건 그냥 숫자가 아니구나”였다. 쇼핑 로그나 웹 서비스 로그처럼 한 번의 클릭, 한 번의 이탈로 끝나는 데이터가 아니라, 누군가의 병력과 약, 검사 결과, 심지어는 삶의 방향이 담긴 기록이라는 걸 조금씩 깨닫게 됐다.
의료정보는 법적으로도 가장 민감한 정보로 분류되고, 별도 동의 없이 함부로 수집·이용할 수 없을 정도로 보호받는 정보이다. 그래서 의료데이터를 다루는 일은, 단순히 AI 모델을 잘 돌리는 일이 아니라 그 사람의 프라이버시와 존엄을 함께 들고 있는 일에 가깝다.
.
.
.

처음 의료 데이터의 이상치 처리를 배웠을 때는, Kaggle에 있는 데이터를 다루는 것처럼 기준을 정해서 자르고, 결측은 적당한 값으로 채우면 된다고 생각했다. 그런데 의료데이터를 전처리하면서부터는 같은 작업을 하기 전에 사고 회로를 한번 더 걸쳐서 진행한다.
이 수치는 정말 잘못 찍힌 값일까, 아니면 드물지만 실제로 존재하는.. 상태가 매우 나쁜 혹은 매우 특이한 환자일까. 치료 과정에서 생긴 극단적인 수치 변화를 노이즈라고 지워버리는 순간 그 사람에게 일어난 중요한 변화를 통째로 지워버리는 건 아닐까 하는 생각이 들었다.
의료데이터는 통계적으로 예외처럼 보이는 값 하나가, 임상적으로는 가장 중요한 신호일 수 있기 때문이다.
.
.
.
윤리적인 문제도 자연스럽게 따라왔다. 의료데이터는 가명처리를 한다고 끝이 아니라, 다른 데이터와 결합되면 다시 개인이 식별될 위험이 있고, 그때 발생하는 피해는 어떨지 감도 안잡힌다.
그래서 연구자와 개발자는 “법적으로만 문제 없으면 된다”에서 안일한 생각을 하지 말고, 이 데이터가 누군가의 삶이기도 하고, 데이터가 다른 사람에게 어떤 영향을 줄 수 있는지까지 상상해야 한다.
인공지능에 활용되는 헬스 데이터 윤리를 다루는 글들을 보면, 데이터를 처리하는 사람, 알고리즘을 만드는 사람, 그 결과를 쓰는 사람이 각각 어떤 책임을 져야 하는지 원칙을 세우려는 시도가 계속되고 있다. 나도 코드를 짤 때 이 모델이 나의 생각대로 작동하지 않고 다른 방향으로 쓰이거나 틀리기라도 했을 때, 누구에게 어떤 일이 생길까? 라는 질문을 머릿속에서 생각해 보려고 한다.
.
.
.

그렇다면 좋은 의료데이터는 무엇일까. 단순히 양이 많고 컬럼이 많은 데이터가 아니라, 정확성,일관성,대표성을 갖춘 데이터여야 된다고 생각한다. 특정 연령,성별,지역 환자만 과도하게 모여 있으면, 그 데이터로 학습한 AI는 다른 집단에서 성능이 떨어지고, 그 결과로 건강 불평등을 더 키울 수도 있다.
라벨이 부정확하거나 기록이 누락된 데이터는 모델의 성능을 떨어뜨릴 뿐 아니라, 잘못된 판단을 가진 AI를 만들어 내기 쉽다. AI 모델의 질병 진단과 예측 도구가 되려면, 그 뒤에 있는 데이터가 임상의의 판단과 꾸준히 비교, 점검되면서 업데이트되는 과정도 중요해진다.
.
.
.
그래서 요즘은 의료데이터를 볼 때마다, 이 숫자 뒤에는 어떤 사람이 있었을까?? 를 떠올리려고 한다.
이상치를 삭제할지 말지, 가명처리된 데이터를 어떻게 쓸지, 데이터 편향을 줄이기 위해 무엇을 더 수집해야 할지 고민하는 순간마다, 그 데이터 하나를 한 사람의 삶의 궤적으로 상상해 본다.
의료데이터를 대하는 태도가 결국 AI 헬스케어 개발자의 정체성을 결정한다고 생각하기에 AI가 아무리 똑똑해져도, 데이터 속 사람을 잊지 않는 개발자로 남기 위해서 오늘도 열심히 내가 해야 할 숙제들을 해야겠다. (사실 그 숙제는 몇 주전부터 밀려있었는데 이제 그 쌓여있는 숙제들을 좀 끝내놔야될 것 같다.,. 데이콘 빠샤,, 머신러닝 공부할 때 내 기력을 다 뺏어가서 딥러닝 공부를 못하게 만들워 떼잉)
.
.
지금부터 하는 얘기는 살짝 사담이다.
지금 글쓰면서 당이 떨어져 두바이 초콜릿을 꺼냈다.
이 친구의 출처는 일주일 전에 놀러간 곳에서 두바이 유명 가게가 있다길래 냉큼 가서 초콜릿 두개를 사서 모셔왔다. (초콜릿, 스프레드, 면의 종류 자신이 선택) 한 개는 언니주고 나머지 하나는 어제 친구랑 있을때 같이 먹었는데 너무 맛있어서 정말 기절할뻔
같이 먹은 친구들도 스프레드가 무슨 전복내장같다고 비주얼 대박이라고 얘기함

이건 피스타치오 초콜릿 + 피스타치오 스프레드 + 건면의 조합이다. 위에 금도 뿌려주셔서
두바이에 사시는(?) 부자분들이 👳‍♂️ 👳 먹을 것 같은 비주얼..
나중에 또 가서 종류별로 담아서 사고싶다. 너무 맛있어요 흑흑

끝마치면서
오늘 글의 내용은 사실 코딩 관련해서 글을 정리한다기 보다는 데이터를 다룰 때의 중요성을 생각하며
글을 작성해보았다. 이러한 생각도 한번쯤 필요한 부분이지 않을까 해서 정리했으니 난 이제 데이콘 딥러닝 공부하러.. 가보도록 하겠습니다 총총 😵‍💫

profile
안녕하세요, 코딩과 잡다한 얘기도 좋아해요.

14개의 댓글

comment-user-thumbnail
2025년 12월 28일

의료데이터 얘기에.. 데이콘 얘기에 마음이 무거워졌다가 두바이 초코 보고 앞 내용 다 까먹어버렸어요 주세요 두바이

1개의 답글
comment-user-thumbnail
2025년 12월 28일

아아... 나도 보경쓰처럼 잘보다가 데이콘 보고 마음이 무거워졋다가 초콜릿 사진 보고 먹고싶어뎟ㅅ더 의식의 흐름 다 똑같은거봐 ㅋㅋㅋ ㅜ 저는 주말이라 늘어지게되네여...예진띠 본받아서 내일부터 열심히 살아야겟다..

1개의 답글
comment-user-thumbnail
2025년 12월 28일

데이터 하나를 한 사람의 삶의 궤적으로 상상해 본다ㅡ 맞아요 그리고 그러한 데이터들이 언젠가 모두 아름다워졌으면 좋겠네요 건강하다는 지표로 모두가 통일될수있기를 어긋나도 얼마든지 금새 돌아올 수 있기를

1개의 답글
comment-user-thumbnail
2025년 12월 29일

깊은 통찰 멋있습니다👍

1개의 답글
comment-user-thumbnail
2025년 12월 29일

오 +ㅁ+ 저 카레색 크레파스같은게 두바이 쵸콜렛이라는 거죠??? 맛있겠당 신기하다~ 나중에 은서님이랑 가서 사올게요~ ㅋㅋㅋ
예진님 글 읽으니까 대학원 시절 성의교정에 생명윤리학과 있었던거 생각나네요~
교수님이 아주 사람 좋으시고 대학원생을 찾고 계셨었는데 ㅋㅋ (가라는게 아니고!!! )
IRB나 그런 절차들이 까다로워서 관리하시는 분이 엄청 바쁘셨던걸로 기억해요~
최근들어 개인정보 사고도 그렇고 병원은 보안 공격을 당하면 정말 큰일나기 땜에
보안담당 교수님이 보안기사따고 관련일 2년하면 컨설팅 일을 할수 있는데
2주만 일하면되고 연봉도 6천이 넘는다고 들었었어요 ㅎㅎ 예진님의 깊이가 좋은 곳으로 데려갈거라 믿습니당~ 저도 따라갈게여 +ㅁ+ //

2개의 답글
comment-user-thumbnail
2026년 1월 28일

이상치 처리에 대한 생각이 정말 와닿았어요.. 그러네요 캐글같은곳에서 긁어와서 모델만들때는 특이값들을 지우곤했었는데 머리 탁 맞은 기분입니다 흥미로우네요오이..❤️

답글 달기