profile
mbtigram 기술 블로그입니다 ✨
post-thumbnail

[MBTIgram] AI의 이야기[3]-XGBoost&RNN

지난번 포스팅에서 전처리 및 EDA를 수행한 내용을 바탕으로 모델링을 진행했습니다. 3가지 모델을 후보로 실험 및 검증을 진행했습니다. 전처리 및 EDA 과정은 이전 글을 참고 바랍니다. 모델 선정 XGBoost RNN LinearSVC 세 가지로 후보를 둔 이유는 다음과 같습니다. XGBoost (eXtreme Gradient Boosting) XGBoost는 부스팅 알고리즘으로 앙상블 기법을 사용하며, 다양한 데이터 유형과 복잡한 패턴에 대해 강력한 성능을 보일 수 있다. 클래스 불균형 문제를 다룰 수 있는 가중치 조정과 샘플링 기법을 제공하여 불균형 데이터셋에도 잘 대응할 수 있다. Feature Importance를 제공하여 모델의 예측에 어떤 특성이 중요한지를 해석하기 쉽게 도와줍니다. +) XGBoost는 하이퍼 파라미터 튜닝이 중요하기 때문에, 추가적으로 GridSearchCV를 이용하여 최적의 파라미터를 찾고 학습을

2023년 9월 10일
·
0개의 댓글
·
post-thumbnail

[MBTIgram] AI의 이야기[2]-전처리 및 EDA

안녕하세요. 저는 'MBTIgram'의 AI 개발을 맡은 BTSpa Winter(지유경)입니다.😆 이번 포스팅에서는 전처리 및 EDA 과정을 설명해드리겠습니다. 1. 데이터 전처리 이전 포스트에서 설명드렸다시피 두 개의 데이터셋을 합쳐서 전처리를 진행했습니다. 위 코드에서 로드한 데이터셋은 사전에 concat()함수를 이용하여 2개의 데이터셋을 합친 csv 파일입니다. csv 파일을 합치는 방법은 다음과 같습니다. 합치는 과정에서 index를 재배열하기 위해 ignore_index=True 옵션을 추가하였습니다. concat()에는 다양한 옵션이 존재합니다. join : 어떤 방식으로 병합할지 결정 join의 default는 'outer'이기 때문에 저는 따로 join 옵션을 주지 않았습니다. 만약, 공통으로 있는 열만 선택하여 합치고 싶다면,

2023년 8월 24일
·
0개의 댓글
·
post-thumbnail

[MBTIgram] AI의 이야기[1]-Intro

시작하며.. 안녕하세요. 저는 'MBTIgram'의 AI 개발을 맡은 BTSpa Winter(지유경)입니다.😆 이번 포스팅에서는 지난 7월과 8월 'MBTIgram'의 MBTI 예측 알고리즘을 구현하면서 얻은 개발 경험에 대해서 소개해볼까 합니다. 'MBTIgram'의 예측 알고리즘은 Kaggle의 MBTI 데이터셋을 통해 개발되었습니다. 이번 포스팅을 통해서 'Machine Learning'과 'Deep Learning' 분야에 많은 관심을 가진 분들에게 소소한 도움이 되었으면 좋겠습니다. 개발환경과 데이터셋 > 💻 개발환경: Google Colab Pro ✅ 사용 데이터셋 (MBTI) Myers-Briggs Personality Type Dataset [Link] https://www.kaggle.com

2023년 8월 24일
·
4개의 댓글
·