[최종 프로젝트] 2주차: 문서 생성, 첫 멘토링 (250728)

해피해피슈크림·2025년 7월 28일
post-thumbnail

문서 생성

어젯밤에 수집했던 데이터를 LLM에 넣어 문서를 생성했다.
나는 회계, 보안 두 부서의 정책과 업무 가이드를 담당했다.

하루종일 문서 생성의 반복이었다 🫠

나는 분명 내용이 상세히 기술된, 100KB 넘는 문서를 만들어달라고 했는데, LLM이 자꾸 30KB 밖에 안 되는 문서 생성해줬다... 😑 결국 다른 팀원분께서, 내가 생성했던 문서와 용량 큰 데이터를 함께 LLM에 넣어 더 큰 문서 생성하는 중..


첫 멘토링!

언제: 2025.07.28 (월) 19:00 ~ 21:00
어디서: 플레이데이터 제 1강의실
주요 논의: 기획서 보며 방향 조정

소감

첫 멘토링! 김효원 멘토님과의 첫 만남이었다.

멘토님께서 프로젝트에 대해 현실적이고 구체적인 조언을 많이 해주신 덕분에, 전체적인 진행 방향을 다시 점검하고 조정하는 데 큰 도움이 되었다.
가장 중요한 피드백은, 기능 구현을 위해서 보다 깊이 있는 리서치가 필수적이라는 점이었다.
“수박 겉핥기 식으로는 결코 실제 서비스 배포로 이어질 수 없다. 깊이 고민해야 한다”라는 말씀이 특히 강하게 남았다.
그동안 나는 큰 고민 없이 남이 만들어 놓은 틀을 따라가려는 태도를 가지고 있었는데, 이번 피드백을 통해 그러한 자세에 분명한 변화가 필요하다는 것을 절감했다.

많은 것을 배울 수 있었던 뜻 깊은 멘토링이었다 😄


회의 요약

아래는 회의를 요약 및 정리한 것이다.

프로젝트 기능 요약

  1. 업무 가이드 챗봇 (RAG 기반)

    • 문서 수집 및 전처리 후, 유사도 기반 검색으로 답변 제공
    • LangChain + hybrid search (벡터 검색 + 키워드 검색) 고려
    • 벡터 DB: FAISS 등 후보 비교 필요 (PostgreSQL은 적합 X)
    • 유사한 질의에 대해 캐시된 응답을 활용하면, API 호출을 줄일 수 있어 비용을 절감할 수 있음
    • 핵심은 데이터 확보와 전처리, 특히 문서의 정제와 분절
  2. 회의록 요약 생성 (STT)

    • 음성 인식: OpenAI Whisper 모델 사용 (GPU 필요)
    • 요약 모델 후보: BART (성능 확인 필요)
      성능이 부족하면 Pegasus, T5 등의 대안 모델 고려
    • 서빙 효율을 위해 vLLM 등 LLM 최적화 프레임워크도 함께 검토할 것.
  3. 영수증 비전 처리 (OCR)

    • OCR: PaddleOCR 등 테스트 필요
    • 단, 영수증은 이미 자동화된 서비스 많음
    • OCR 실사용 예로는 천재교육 교과서: 정형적이지 않아 사람이 직접 작업함
    • 테스트 기반의 현실성 확인 필요

🗂 기획 및 문서 관련 논의

  • 문서 수집

    • 공공기관 내규 등에서 가상의 회사 문서 생성
    • 마케팅은 제외하고 재무/법률/인사/전산 중심
    • 챗봇 성능은 문서 품질에 달려 있음
    • 문서 분절/임베딩 전처리 철저히
  • DB 설계

    • 유저 질의/응답 기록 저장 → 응답 속도 개선(캐시) + 사용자 행태 분석
    • 비정형 데이터 중심 → 정형화된 ERD보단 유연한 구조 설계
    • 문서 유형별 카테고리 구조화 고려 (예: 인사, 회계, 마케팅, 전산, 법무)
  • 프론트엔드 방향성

    • 단일 인터페이스보단 기능별 구분된 UI 권장
    • 분기 많고 입력값 다양 → 라우터 등 중간 인터페이스 필요
    • 기술스택: Django + Bootstrap 고려 (React는 난이도 ↑)
    • 관리자 페이지 구축 필요

📌 멘토 피드백 요약

  • 각자 맡은 기능에 대해 철저한 리서치 필수

    1. 수집 가능한 문서 범위와 품질
    2. STT와 OCR의 성능 및 한계
    3. 요약 모델 BART의 성능 여부
    4. DB 구조 설계: 문서/유저/대화 히스토리 구조 등
  • 사용자 정보 및 인터페이스 고려사항

    • hallucination 대응: 응답 로그 및 모델 정보 관리자 확인 가능하게
    • 사용자 피드백 시스템(좋아요/싫어요) 고려
  • 기획안 구체화 요청

    • 현재 기획은 러프함
    • 현실적인 범위 설정 후 목표 설정 → 요구사항 정의서 및 WBS 수정
  • 기술 환경 통일 중요

    • 개발 환경: Windows에서 개발 NO! WSL or Ubuntu 환경 권장
    • 충돌 방지 위해 Git 협업 적극 활용 (stash/pop 등)

🔔 다음 회의 전까지 할 일

  • 각자 담당 기능에 대해 리서치 결과 정리해오기
  • 데이터 수집 전략 + 모델 사용 가능성 판단
  • 구체적인 설계안 작성 (요구사항 정의서 / WBS)

0개의 댓글