제수기 > Pinecone_Vector

Eunbi Jo·2024년 12월 17일
0

제수기

목록 보기
6/90

'제발수업내용을기억해라' 제수기 시리즈는 단순한 수업정리로, 틀린 내용이 있을 수 있습니다.

pinecone 사이트에서 api키를 얻을 수 있는데, .env 파일에 넣을 PINECONE_API_KEY에 넣어주면 되고, PINECONE_INDEX_NAME여기에는 Indexes 화면에서 보이는 이름일 넣어주고 PINECONE_NAMESPACE여기에는 이름에 -ns 이렇게 추가해서 넣으면 된다.

Pinecone Vector DB 클라이언트 생성

이런 에러가 났을 때는 토큰을 나눠서 올려야 한다. 너무 몰려서 그렇다는데.. 일단 수업에서는 강사님이 나눠주신 API를 사용하기로 했다.

💥나눠서 하는 방법이 뭘까...
-> 그냥 우리 반에서 다른 사람들 안 할 때 하면 된다는 뜻이었다고 한다.

Pinecone의 유사도검사.
💥어떤 과정으로 된 건지 모르겠다.
-> 머신러닝?딥러닝? 중에 text cosine simularity 찾아서 읽어보라고 하셔서 찾아봤다.
... 읽어봐도 무슨 말인지 잘 모르겠다. 영상을 찾아봤다.
https://www.youtube.com/watch?v=vb8DwOLt3NM
이해가 됐다! 파인콘의 유사도 검사는 코사인 유사도를 과정으로 한다고 한다. 나는 분명히 또 까먹을 것이므로 나중에 여기 와서 저 영상을 또 찾아보면 좋을 것 같다.

AI Sommelier RAG

💥왜 하나씩 더해지게 한 건지 모르겠다.
-> 이미지 유알엘을 넣을거니까? 휴먼 메세지가 여러개 들어가야 하니까? 그렇다는 것 같음.

물어봐도 이유를 알 수가 없음. 수업에서는 코드가 잘 동작해서 결과까지 나왔는데 여기서는 왜 틀린 연산이라는 것인지 알 수 없음..


오늘 수업에 열심히 토큰을 사용했다. :)


Pinecon Vector는 유튜브 영상을 듣고, 또 ChatGPT에게 코드 설명 다시 부탁해야 할 필요성을 느꼈다.

  • Pinecon
    장점 : 로컬에서 관리를 하는 게 아니라 클라우드 기반이기 때문에 API 친화적이고 대규모 데이터셋에 뛰어난 확장성을 제공한다.
    단점 : 무료인 Chroma, Faiss에 비해 비싸다. 그런데 Index 5개까지는 무료.

  • 주요 내용
    Chroma, FAISS 튜토리얼 개편 안내
    Chroma 의 멀티모달 Embedding + 이미지 Retriever 예제 추가
    Pinecone 인덱스 생성, 문서 전처리, metadata 태깅
    문서 내용 기반 Sparse Encoder 학습 후 이를 Retriever 시 활용
    Pinecone 의 Retriever 를 Kiwi 형태소 분석 + 학습된 Sparse Encoder 기반 Hybrid Search 를 가능케하는 PineconeKiwiHybridRetriever 소개
    분산 처리 로직을 추가하여 대용량 문서의 Upsert 속도를 대폭 개선
    Retriever 로 동적 filter 기능 추가 (페이지 필터, 문서 지정 필터 등)
    langchain-teddynote 패키지에 신규 기능들을 추가해 놓았고, 앞으로도 신규 기능들을 추가해 나갈 예정입니다.

0개의 댓글