테스트하면서 공부하면서 드는 아이디어
1. 청킹된 문장 앞에 medata data를 붙이는 건 어떨까?
그 후에 임베딩 -> vector db 에 넣으면 retriever에 더 잘 걸리지 않을까?
2. 오픈소스 모델로 BGE-M3 임베딩 모델은 어떨까?
-> MTEB 리더보드 내 상위 모델 중 적당한건 거의 영어 모델임....
-> 다국어 임베딩 모델이니까 온프레미스 환경에 나름 ㄱㅊ아지지 않을까?
-> 심지어 max token도 ㄱㅊ음 (최대 8192토큰)
3. prompt도 개선해야할 것 같다.
4. 진짜 지독한 K문서(표안에 표안에 표안에 표) or 그래프 같은 걸 잘 읽을 수 있는 방법은? 이걸 임베딩할수 있는 방법은 무엇일까?
5. autorag... data creation