대략적으로 아키텍처대로 잘 구현했고, 테스트 데이터까지는 잘 돌아갔다.
그런데 실제 데이터를 넣으니까 바로 prompt 토큰 초과 문제로 인해 응답이 깨지는 상황이 발생했다.
프롬프트 길이 때문에 문서 검색하는 것도 Rerank 방식으로 변경했으면서 인풋은 생각은 안한 내가 너무 바보같다..
다음 번에는 조금 더 생각을 하자!
지금 상황에서 일단 해결책은
정보의 손실 없이 하는 방법은 그냥 기사를 프롬프트에 들어갈 수 있을 정도로 자르고 넣는 방법이다. 대신에 지금 환경에서는 병렬화를 할 수 없어 굉장히 많은 시간이 소요된다는 점?
하지만 이러면 분리된 기사끼리 문맥이 끊겨서 이상한 응답이 나올 수 있다.
이 때문에 사실 확인 AI나 법률 AI같은 경우에는 문장 연결형 프롬프트를 사용한다고 하긴 하는데, 이것도 이전 정보를 누적해서 같이 주는 방식이라 언제 프롬프트가 넘칠지 모른다.
이건 1번이 진행될 때 이어서 하는 방법.. 가능다하면 좋겠지만, 지금 상황에서는 자원이 부족하다.
https://velog.io/@gogocomputer/Context-Compression-with-LLMs
https://cori.tistory.com/317