[부스트캠프 AI Tech 7기] Week 6

jinnk0·2024년 9월 13일

6주차 회고🙃

이번주부터 프로젝트가 시작되었다. 서버를 할당받고, 리더보드가 열리고 이것저것 신경 쓸 것도 많고 새로 해야할 일도 많아서 정신없는 한 주였다.
프로젝트 데이터를 확인해보고 서버를 생성해보는 과정에서 예상치 못한 이슈들이 이것저것 있었어서 프로젝트에 신경을 쓰다보니 강의 듣는 시간을 제대로 분배하는 것에 실패했다.🥲
그래서 강의를 마지막에 몰아서 듣느라 강의 내용을 완전히 이해하지 못해, 휴일을 다소 반납하고 복습을 해야할 것 같다.😭
그동안은 쉴 때는 쉬어야 오랫동안 지속할 수 있다고 생각해서 휴일을 철저히 지켜왔는데, 첫 프로젝트라서 그런지 휴일을 지키면서 모든 것을 해내기에는 아직 부족한 점이 많은 것 같다.
그래도 그동안 이론적으로만 배웠던 내용들을 이제 실제로 사용해본다고 생각하니 아주 흥미진진하다. 강의 내용에 대한 복습이 끝나고 나면, 이제 프로젝트에 집중해봐야겠다.

마스터클래스

이번주 강의를 맡으신 마스터님께서 이번 프로젝트에 대한 설명과 조언들을 해주셨다.
그 중 이번 프로젝트에 참고할 수 있을 것 같아 주의깊게 들었던 부분들에 대해 정리해보려고 한다.

  1. 다중 클래스 분류 문제(다중 레이블과 상호 변환이 가능)에 대해 고민해볼 것
  2. 범주 불균형 문제를 어떻게 처리할 것인가 : Upsampling, Downsampling, Data augmentation
  3. 데이터의 분포를 최대한 잘 표현하도록 전처리하는 것이 가장 첫번째 접근방법이다.
  4. 검증 프로세스를 엄격하게 세팅하는 것이 중요하다.
    • 검증 데이터셋은 어떤 경우에도 바뀌지 않는 데이터여야만 한다 => 시드 고정
    • 데이터셋을 대표할 수 있는 데이터여야 한다. => 대표성
    • 훈련 데이터의 데이터셋의 분포와 일치해야 한다.
    • 검증 데이터셋은 unseen하게 유지되어야 한다. => Data Leakage

한 주간 학습한 내용

Troubleshooting😮

❗aistages에서 제공되는 GPU 서버에 접속하는 과정에서 이슈가 있었다. 정확히는 터미널로는 접속이 가능하나, vscode 환경에서 접속이 되지 않는 이슈가 있었다. 결과적으로 vscode에서 ssh 호스트를 직접 명령어로 입력하여 접속하는 방법보다는, .ssh/config 파일을 이용해 접속하는 방법이 안정적으로 접속할 수 있었다. config 파일의 내용은 아래와 같다.

Host [접속시 사용할 이름]
    HostName [IP 주소]
    User root
    Port [포트번호]
    IdentityFile [ssh키 저장 경로]

다음주 목표

🚩프로젝트 데이터를 EDA해보면서 데이터 파악하기
🚩프로젝트 데이터를 이해하기 위한 도메인 지식 공부하기

0개의 댓글