🍒 요약
1. 채택 전략: 데이터 수집 후 LLM에 넘겨 회사 내규 데이터 생성
2. 다음 주 월요일까지 데이터 수집
- 데이터 수집 범위(수민): 보안, 회계 규정 | 재무/회계팀, 마케팅/기획팀
- 주말 동안 할 일:
- 데이터 수집
- 데이터 어떻게 합칠지 생각해오기
- RAG 공부 하기
🚩 본문
1️⃣ 데이터 수집 및 전처리 전략 의논
데이터 수집 및 전처리 단계에 대해 의논했다.
아래 두 가지 방법을 고려해보았다.
1. GPT를 활용해 회사 내규 데이터를 직접 생성
- 데이터 전처리 필요 없음
- 빠르게 결과 생성 가능
2. 데이터 생성 모델을 구축
- 데이터 수집부터 전처리, 모델 생성까지 할 수 있음.
- 상대적으로 시간 걸림.
2️⃣ 강사님 피드백 핵심 요약
-
데이터셋을 만들기 위한 목적이라면, 직접 학습용 모델(sLLM)을 만들기보다는 크고 성능 좋은 모델(GPT 등)을 사용해 생성하는 것이 더 효과적
-
세부 항목(예: 휴가 일수 기준)은 자유롭게 설정 가능
→ 실제 기업 데이터가 아니므로 정답은 중요하지 않음
-
JSON 형태로 처음부터 만들 필요 없음
→ 텍스트 chunking 후 필요한 키워드 중심으로 후처리 가능
-
GPT를 쓰더라도 어느 정도의 전처리는 필요
📅 일정 계획
~ 7월 29일(월):
7월 29일(월):
7월 31일(수)까지:
8월 1일(목)부터: