[ML Competition] LGaimers 6기 - 난임 환자 대상 임신 성공 여부 예측 AI 온라인 해커톤

이형준·2025년 3월 15일

LGaimers 6기 - 난임 환자 대상 임신 성공 여부 예측 AI 온라인 해커톤(25.02.01 ~ 25.02.27)
https://dacon.io/competitions/official/236452/overview/description

public score : 0.74178 (71th, 10%)
private score : 0.74215 (36th, 5%)


대회 개요

[주제]
난임 환자 대상 임신 성공 여부 예측 AI모델 개발

[설명]
난임 환자 데이터를 분석하여 임신 성공에 영향을 미치는 주요 요인을 도출하고, 정확한 예측을 위한 최적의 AI 모델을 개발해야 합니다.

※ 임신 성공: 출산까지 성공적으로 진행된 임신

[주최 / 주관]
주최 : LG AI 연구원
주관 : 데이콘
참여 : 한경닷컴

[진행 기간]
25.02.01 ~ 25.02.27

사용한 데이터는 LG화학에서 제공되었으며, 난임 환자의 시술 및 과거력 정보를 통해 난임 시술에 대한 성공 여부를 예측하는 것이 주요 과제였습니다.



데이터 개요

  • Data Type : 정형 데이터 (Tabular Data)
  • Feature 개수 : 67개
  • 데이터 분할 :
    • Train Data : 256,351개
    • Test Data : 90,067개
  • 문제 유형 : 이진 분류 (Binary Classification)
  • 평가 지표 : AUC (Area Under the Curve)

회고

LG Aimers 6기 자유게시판에서 만나게된 팀원 분들이랑 한 달간 많이 배우며 했던 대회입니다. 27등까지가 본선 진출이였기 때문에 9등차이로 본선 진출에 실패해서 아쉬움도 많이 남네요.

데이터가 이전 기수에 비해서 상당히 난이도가 낮은 편으로 나왔고, 오히려 그래서 더 성적을 올리기가 어려웠던 것 같습니다. class imbalance도 약 3:1정도로 적당하게 나왔고, 결측치는 특정 컬럼에 대부분 몰려있었습니다.
그러다보니 데이터 전처리 방법이나 데이터 불균형을 해소하는건 성능에 상당히 미미한 영향을 주었었네요.

성능에 실제로 의미있던 접근법 중 기억에 남는 것은
1. 난임 시술 유형이 두 가지(DI, IVF)로 나누어졌는데 데이터셋을 DI/IVF로 나누고 따로 모델을 학습시켜 test에서도 나누어 예측하도록 하는 것이였습니다.
2. 또, column에서 불임 원인을 나타내는 것들이 상당히 많았는데 이 column들이 서로 상관관계가 너무 높게 나왔습니다. 해당 column들을 drop해주니 성능이 향상되었습니다.
3. AutoML중 MLJAR이 상당히 효과적이였습니다. lightAutoml, H20, TPOT 등 여러 가지 AutoML 프레임워크들을 사용해봤는데 MLJAR이 가장 효과적이였습니다.

그래도 5기 해커톤에서는 78등으로 상위 10% 성적을 거두었었는데, 이번 6기에서는 상위5%정도니 많이 좋아졌네요...
아무튼 아쉬움이 많이 남습니다.


0개의 댓글