์ถ์ฒ : https://www.youtube.com/watch?v=tQUtBR3K1TI&list=PLQIgLu3Wf-q_Ne8vv-ZXuJ4mztHJaQb_v&index=9
์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด ์๋ฒ ๋ฉ ํ์ต์ด ๋ฐ๋ก ํ์ ์๋ค.
Why? ๋๊ธฐ์ ์์ ์ ํ์ตํ ๋ชจ๋ธ์ ์ฌ์ฉ



tiktoken : OpenAi gpt model์ด ์ฌ์ฉํ๋ ํ ํฐ ๋ฐฉ์.
len, tiktoken_len์ผ๋ก ๊ฐ๊ฐ ์ฐ์ด๋ณด๋ฉด ๊ธธ์ด๊ฐ ๋ค๋ฅธ๊ฒ์ ๋ณผ ์ ์์
cl100k_base : gpt token์ ์ฐ์ด๋ encoding
Split์ ํตํด token ์ ํ issue๋ฅผ ํด๊ฒฐํ ์ ์์.
๊ทธ๋์ gpt์ token ์ ํ์? ๋ฐ๋ก ๋ง๋ค์ด์ค์ผ ํ ํ์๊ฐ ์์
128,000
limit: 128k
Input Tokens: $5 per 1 million tokens (or $0.005 per 1,000 tokens).
Output Tokens: $15 per 1 million tokens (or $0.015 per 1,000 tokens).
์ฌ์ ํ์ต ๋ชจ๋ธ : ์๋ฒ ๋ฉ ํ์ต์ด ๋ฐ๋ก ํ์์์.
์ ๋ฃ embedding model : Openai - ada, HuggingFace model
temperature์ด ๋ฎ์ ์๋ก ์ผ๊ด์ฑ ์๋ ๋ต๋ณ์ด ๋์ด.
ํ ๋ฒ์ 4๊ฐ๊ฐ ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ api 1๋ฒ ํธ์ถ๋ก ๋ต์ ์ป์ ์ ์๋ค.

map : ๊ฐ๊ฐ์ ์์ฝํ๋ ๊ณผ์ . (api ํธ์ถ 4 + 1 = 5 ๋ฒ)
reduce : ์ต์ข ์ ์ผ๋ก ์์ฝํ๋ ๊ณผ์

for ์ข์ ํ์ง์ ๋ต๋ณ
์ค๊ฐ ๋ต๋ณ์ด ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ ๋ ๋์ ํ์ง์ ๋ต๋ณ์ ์ป์ ์ ์๋ค.
์ ์ฌ์ฉํ์ง ์๋ ์ด์ : ํ๋์ฉ ๋ต๋ณ์ด ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ Map_reduce์ฒ๋ผ ๋ณ๋ ฌ์ ์ด์ง ๋ชปํ๋ค. -> ์๊ฐ์ด ๊ต์ฅํ ์ค๋ ๊ฑธ๋ฆผ (์ ๋ขฐ๋ ๋์ ๋ต๋ณ์ ์ํ ๋ ์ฌ์ฉ)

์ฌ์ฉ์ ์ง๋ฌธ๊ณผ text chunk๋ฅผ ๋ฃ์ผ๋ฉด answer ๋ฟ ๋ง ์๋๋ผ score๋ ๋ฐ๊ฒ๋จ.
if) 4๊ฐ๊ฐ input์ด๋ฉด ๊ฐ์ฅ score๊ฐ ๋์ ๊ฒ์ด output์ผ๋ก ๊ฒฐ์

KEYWORD๋ก ์๋ฅผ ๊ฒ์ํ ์ ์๊ฒ๋ (S3๋ฅผ ๊ฒ์ํ ์ ์๊ฒ๋)
ํค์๋๊ธฐ๋ฐ์ผ๋ก ์๋ฅผ ์กฐํํด์ผํจ .
์๋ฅผ S3์์ ์กฐํํด์ RAG๋ฅผ ํตํด์ ์, KEYWORD ๋ฐฑํฐํ ์์ผ์ vectorstore
vector db ํ์ํ ์๋ ์์
๋ชจ๋ ์๋ฅผ vectorํ ์์ผ์ผํจ.