✍️ 7주차 복습

김수진·2026년 1월 11일

데이터 전처리

GPT API를 활용한 프롬프트 기반 전처리 로직을 실제로 구현했다. 프롬프트를 통해 기존 QA를 재작성하고, 이를 한 줄당 하나의 JSON 객체 형태로 저장하는 JSONL 포맷으로 이어지는 과정으로 데이터 전처리를 수행했다.

이 과정에서 토큰과 쿼터, 그리고 대량 처리의 문제점이 생겼다.

QA 약 2만 개, 요약 데이터 약 2만 개 수준의 전처리를 목표로 했지만, 실제로는 하루에 약 1만 개 정도를 처리하면 GPT API의 토큰 및 쿼터 제한에 도달해 작업이 중단되는 문제가 발생했다.

이를 해결하기 위해 Batch API 활용, GPT-OSS이라는 로컬 LLM을 이용한 전처리, 데이터 수 축소 등 여러 대안을 찾았다. GPT-OSS같은 로컬 LLM을 사용할 경우, 데이터 스타일의 일관성이 깨질 수 있다는 문제가 있었기에 이 해결방법은 집어치웠다. 현재는 Batch API로 해결을 하고 있는 중이다. 결국 모든 데이터를 동일한 품질로 처리하는 것과, 프로젝트가 감당할 수 있는 현실적인 자원 사이에서 선택을 해야 하는 상황에 놓이게 되었다.

WIL

모든 데이터를 최고 성능의 LLM으로 전처리하는 것이 이상적일 수는 있지만, 우리의 금전적인 문제로 인해, 이를 모두 가져가 순 없다. 데이터를 적게 근데 정확하게 전처리하는것을 가지고 가야, 나중에 부족하지만 그래도 최적의 성능을 낼 수 있진 않을까?라는 생각이 든다. 계획한 대로 안되는게 프로젝트 아니겟슨?

김수진

이전 포스트

✍️ 6주차 복습

다음 포스트

✍️ 8주차 복습

1개의 댓글

2026년 1월 19일

그렇게 중간데모 7일전 조xx 어쩌구 .. 를 본 후 마지막 문장이 인상 깊네요 역시 계획대로 안 되는 게 프로젝트 ㅋㅋ

답글 달기