[최종 프로젝트] 1주차: 데이터 수집 및 전처리 전략 의논 (250725)

해피해피슈크림·2025년 7월 25일

🍒 요약

1. 채택 전략: 데이터 수집 후 LLM에 넘겨 회사 내규 데이터 생성

2. 다음 주 월요일까지 데이터 수집

  • 데이터 수집 범위(수민): 보안, 회계 규정 | 재무/회계팀, 마케팅/기획팀
  • 주말 동안 할 일:
    • 데이터 수집
    • 데이터 어떻게 합칠지 생각해오기
    • RAG 공부 하기

🚩 본문

1️⃣ 데이터 수집 및 전처리 전략 의논

데이터 수집 및 전처리 단계에 대해 의논했다.
아래 두 가지 방법을 고려해보았다.

1. GPT를 활용해 회사 내규 데이터를 직접 생성

  • 데이터 전처리 필요 없음
  • 빠르게 결과 생성 가능

2. 데이터 생성 모델을 구축

  • 데이터 수집부터 전처리, 모델 생성까지 할 수 있음.
  • 상대적으로 시간 걸림.

2️⃣ 강사님 피드백 핵심 요약

  • 데이터셋을 만들기 위한 목적이라면, 직접 학습용 모델(sLLM)을 만들기보다는 크고 성능 좋은 모델(GPT 등)을 사용해 생성하는 것이 더 효과적

  • 세부 항목(예: 휴가 일수 기준)은 자유롭게 설정 가능
    → 실제 기업 데이터가 아니므로 정답은 중요하지 않음

  • JSON 형태로 처음부터 만들 필요 없음
    → 텍스트 chunking 후 필요한 키워드 중심으로 후처리 가능

  • GPT를 쓰더라도 어느 정도의 전처리는 필요

📅 일정 계획

~ 7월 29일(월):

  • 데이터 수집

7월 29일(월):

  • 수집된 데이터 점검
  • 전처리 방법 논의

7월 31일(수)까지:

  • 전처리 완료

8월 1일(목)부터:

  • 화면 작업 시작 (모델 연동은 이후 진행)

0개의 댓글