저작권 이슈
[✅ 확인 완료] 학습 데이터의 raw data를 깃허브에 명시적 게재하지 않을 것
[🚨확인 필요] 학습 목적으로는 사용 가능한 것으로 확인
-> but 근거 자료 필요
전처리 이슈 - (1)
[✅ 확인 완료] 모델별로 인풋 문장의 최대 길이가 상이함
-> SKT/KoGPT 기준, 벡터라이징 후 최대 max_len = 512
[✅ 확인 완료] \n을 '.'으로 치환할 지 여부
-> 모델에 넣을 때 개행문자 삭제.
[✅ 확인 완료] 장르별 전처리 방법 차이 -> EDA 과정에서 인사이트 추출
[✅ 확인 완료] 장르별 겹치는 곡들-> 전체 추합 후 '가사' 컬럼으로 subset 생성 + drop_duplicates
🔍 전처리 이슈 - (2)
[✅ 확인 완료] 곡 단위의 묶음보다 문장 단위가 중요 (개행문자 기준)
[✅ 확인 완료] '1.', '2.' 등 숫자에 온점이나 콤마 붙어서 몇 절인지 표시해주는 경우 삭제
[✅ 확인 완료] 영문 가사 -> 제거
🔍 파일관리 이슈 - (1)
[✅ 확인 완료] 깃허브의 'data' 레포지토리에 팀원별로 branch 생성하여 업데이트 버전 관리. 그 때 그 때 push 해주고, 크롤링 데이터 확보 최종 점검하는 날 branch merge
[🚨확인 필요] 크롤링 종료일 미정. 중복곡 제외 후 목표 곡수 확인 필요.
🔍 전처리 이슈 - (3)
[✅ 확인 완료] 개행문자가 없는 곡은 drop 처리
[✅ 확인 완료] 전처리 과정보다 모델링이 중요 (상현님 개인 의견)
🔍 개발환경 이슈 - (1)
[🚨확인 필요] 백엔드 ai 활용 시 오류
[✅ 확인 완료] 코랩에서 KoGPT2 학습 시 오류 (RAM 부족)
-> 배치 사이즈 조정 시도할 것.
🔍 전처리 이슈 - (3)
[🚨확인 필요] py-hanspell로 띄어쓰기 및 문법 교정
-> 노래가사 학습 데이터셋 넣어서 출력해보고 수정할 것
🔍 모델링 이슈 - (1)
[✅ 확인 완료] GPT, KoBart, T5 중 모델 선정할 예정
[✅ 확인 완료] 모델 선정 후, 각 장르별로 1000곡씩 모델 돌려보고 화요일 스터디 종료 시 까지 결과 공유
[🚨확인 필요] 모든 데이터셋 합쳐서 학습 + 나눠서 학습
-> 우선 장르별로 각자 돌려보기로
[🚨확인 필요] 정답값을 무엇으로 정해줄 지
[🚨확인 필요] 지도학습 + 비지도 학습 여부
[🚨확인 필요] input, output에 대한 명확한 규명
✅ Keep:
🚫 Problem:
⏩ Try: