
1. 대회 설명 목표: 고객의 대출 상환 여부를 다양한 머신러닝 모델을 활용해 예측 문제 유형: 이진 분류 데이터 배경 -> 다양한 고객 특성과 대출 관련 정보가 포함된 데이터셋 -> 결측치와 범주형 변수가 다수 존재하여 전처리 및 임퓨팅 전략이 중요 2. 성능

1. 대회 설명 목표: 다양한 고객 정보를 바탕으로 특정 타깃 값을 예측하는 머신러닝 모델 개발 문제 유형: 회귀 데이터 배경 -> 고객의 신상 정보, 대출 관련 특성, 신용 관련 수치 등 다차원적인 피처로 구성 -> 일부 변수에 결측값 존재 -> 수치형, 범주형 변수

1. 대회 설명 목표: 에너지 소비자이자 생산자인 prosumer들의 향후 에너지 소비 행동을 예측 문제 유형: 시계열 기반 회귀(Time Series Regression) 데이터 배경: 에너핏(Enefit)의 실사용 데이터를 기반으로 하며, 각 prosumer의 하루

1. 대회 설명 목표: 개인의 생물학적 지표를 기반으로 연령 관련 질환의 유무를 예측하는 모델 개발 문제 유형: 이진 분류 데이터 배경 -> 다양한 생물학적 수치 (예: 혈압, 심박수, 체온 등)를 포함 -> class 라벨은 두 가지 그룹으로 나뉘며, 이 중 어느 그

1. 대회 설명 목표: 문제 유형: 데이터 배경: 2. 성능 평가 방식 이해 3. 데이터 전처리 3-1 ) EDA 3-2) Data Cleansing 3-3) Feature Engineering 4. 모델링 4-1) 모델 4-2) 데이터 분할 4-3) 하

목표: H&M 고객의 구매 이력을 기반으로, 향후 구매할 가능성이 높은 상품을 예측하여 개인화 추천 시스템 구축문제 유형: 추천 시스템(Recommendation System)데이터 배경\-> 고객 정보, 상품 정보, 거래 정보 등 대규모 이종 데이터\-> 시계열 성격

목표: LLM 품질 평가를 자동화하기 위해 LLM이 생성한 두 응답 중, 사용자가 더 선호할 가능성이 높은 쪽을 예측하는 모델을 구축문제 유형: 다중 분류 (Multi-class Classification)데이터 배경\-> LMSYS에서 수집한 사람 기반의 챗봇 응답

목표: 영어 학습자의 글쓰기 결과에 대해, 평가자의 채점 기준(6가지 척도)에 따라 점수를 예측하는 자동 채점 모델을 개발문제 유형: 6개의 타겟 점수(cohesion, syntax, vocabulary, phraseology, grammar, conventions)를

목표: AI가 작성한 텍스트와 사람이 작성한 텍스트를 구분하는 이진 분류 모델을 구축문제 유형: 이진 분류데이터 배경: 텍스트는 ChatGPT 등 LLM 기반 생성물과 인간 작성 에세이로 구성Log Loss: 예측의 정확도뿐 아니라 모델의 확신 정도까지 평가하는 손실

목표: 신용카드 사용자들의 거래 이력을 기반으로, 디폴트 가능성(신용불량 여부)을 예측하는 이진 분류 모델을 구축문제 유형: 이진분류(Binary Classification)데이터 배경\-> 고객 식별자(customer_ID) 기준의 시계열 거래 이력 (최대 13개월)

목표: 임의로 생성된 데이터셋을 기반으로 타겟 변수(target)를 예측문제 유형: Tabular Regression데이터 배경\-> Kaggle Playground 시리즈의 일환으로, 실제 문제와 유사하게 구성된 합성 데이터\-> 다양한 feature들이 포함되어 있

목표: 일본 도쿄 증권거래소에서 상장된 주식의 단기 수익률(returns) 을 예측문제 유형: 시계열 기반의 순위 예측(rank prediction)데이터 배경\-> 주식별 일간 데이터(stock_price.csv)와 경제 지표(financials.csv) 등이 제공\

목표문제 유형데이터 배경

1. 대회 설명 목표: 사용자에게 가장 적합한 교육 콘텐츠를 추천하는 커리큘럼 추천 시스템 구축 문제 유형: 추천 시스템 데이터 배경 -> topics.csv: 추천 기준이 되는 학습 주제 데이터 (계층 구조 포함) -> content.csv: 추천 대상이 되는 교육

목표: 학생들이 작성한 영어 에세이를 자동으로 채점하는 모델 개발, 주어진 에세이에 대해 0~5점 사이의 정수 점수를 예측문제 유형: 다중 클래스 분류(Multi-Class Classification)데이터 배경\-> The Learning Agency에서 수집한 실제

1. 대회 설명 목표: 대형 언어 모델(LLM)이 과학 관련 지문을 읽고, 문제에 답할 수 있는지를 측정 문제 유형: 자연어 처리 (NLP), LLM 평가, 텍스트 분류 데이터 배경 -> train.csv: 문제 ID, 질문, 선택지, 정답 레이블 -> test.csv

목표: 사용자의 질문 기록을 기반으로, 그들이 생각한 정답이 무엇인지 예측하는 멀티 클래스 분류 문제입니다. 총 800개의 정답 후보 중 하나를 예측문제 유형: 대규모 언어모델(LLM)을 활용한 멀티클래스 분류데이터 배경: 사용자들이 '20 Questions' 게임을

목표: 아이들의 수면 상태(awake, asleep, unknown)를 wearable device의 센서 데이터를 활용하여 예측하는 것문제 유형: 멀티클래스 분류 문제데이터 배경\-> train_series.parquet: 센서 기반 시계열 데이터 (시간, 각종 센서