clip-retrieval

FSA·2024년 3월 15일

vision

목록 보기

1/25

1. 개요

이 글에서는 CLIP 임베딩을 계산하고, 그걸 이용해서 검색 시스템을 만드는 방법에 대해 설명하고 있어.
아래 모든 과정을 통틀어, 기본적인 의미 기반 검색 시스템을 만들 수 있어. 의미 기반 검색에 대해 더 배우고 싶다면, 내 미디엄 포스트를 읽어보는 것도 좋아.
- https://rom1504.medium.com/semantic-search-with-embeddings-index-anything-8fb18556443c

3080 그래픽 카드를 사용하면, 1억 개의 텍스트와 이미지 임베딩을 20시간 안에 처리할 수 있다고 해.
'clip client'는 파이썬을 통해 백엔드 서버에 원격으로 쿼리를 날릴 수 있게 해줘. 이걸 사용하는 방법은 여기 있는 노트북(코랩 링크 제공)을 참고하면 돼.
- https://colab.research.google.com/github/rom1504/clip-retrieval/blob/master/notebook/clip-client-query-api.ipynb

1.1. clip index

'clip index'는 생성된 임베딩들(텍스트나 이미지에서 추출된 임베딩)로부터 효율적인 검색 인덱스를 만들어.
이 인덱스는 대량의 데이터 속에서 특정 임베딩을 빠르게 찾을 수 있게 해줘.
쉽게 말하자면, 많은 책들 속에서 네가 찾고자 하는 책을 빠르게 찾아주는 도서관의 카탈로그 같은 거라고 할 수 있어.

1.2. clip filter

'clip filter'는 앞서 만든 'clip index'를 사용해서, 데이터를 필터링할 수 있게 해.
예를 들어, 네가 특정 주제나 특성을 가진 이미지나 텍스트만을 찾고 싶다면, 'clip filter'를 통해 그 조건에 맞는 데이터만 골라낼 수 있어.

1.3. clip back

'clip back'은 'clip index'를 활용하여, Flask라는 파이썬 기반의 웹 프레임워크를 사용해 서버를 구축하고, 그 서버에서 인덱스를 호스팅해.
이렇게 하면 인터넷을 통해 어디서든 그 clip index에 접근할 수 있게 되지.
간단히 말해서, 네가 만든 도서관 카탈로그를 인터넷에 올려서 누구나 사용할 수 있게 하는 것과 비슷해.

1.4. clip front

'clip front'는 사용자가 'clip back'에 쉽게 접근하고, 원하는 검색을 할 수 있게 도와주는 간단한 사용자 인터페이스(UI)야.
웹사이트를 통해 'clip back' 서버에 질문을 하고, 결과를 받아볼 수 있게 해주는 거지.
아래 링크를 이용해서 사용해봐.
- https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B-H-14&useMclip=false

1.5. 'clip end2end'

img2dataset, 인퍼런스, 인덱스 그리고 백엔드와 프론트엔드까지, 모든 걸 시작부터 끝까지 쉽게 할 수 있게 해주는 거야.

2. ClipClient

ClipClient는 파이썬을 통해 clip-retrieval 백엔드에 원격으로 질의할 수 있게 해줘.
ClipClient 사용법 예시를 보려면 Jupyter 노트북 예제를 확인해봐.
- https://github.com/rom1504/clip-retrieval/blob/main/notebook/clip-client-query-api.ipynb

2.1. API 초기화

초기화할 때 몇 가지 매개변수를 지정할 수 있어:
- backend_url: 백엔드의 URL이야. (필수)
- indice_name: 사용할 인덱스의 이름을 명시해야 해. (필수)
- aesthetic_score: 미적 평가 점수로, aesthetic-predictor에 의해 평가됐어. 기본값은 9야.
- use_mclip: 다국어 버전의 CLIP을 사용할지의 여부야. 기본값은 False.
- aesthetic_weight: 미적 점수의 가중치야. 기본값은 0.5야.
- modality: 인덱스에서 이미지나 텍스트 중 어떤 것을 검색할지 선택해. Multimodal.IMAGE 또는 Multimodal.TEXT 중 하나야. 기본값은 Multimodal.IMAGE.
- num_images: API에서 반환할 이미지의 수야. 기본값은 40이야.
- deduplicate: 이미지 임베딩으로 결과의 중복을 제거할지 여부야. 기본값은 true.
- use_safety_model: 안전하지 않은 이미지를 제거할지 여부야. 기본값은 true.
- use_violence_detector: 폭력적인 이미지를 제거할지 여부야. 기본값은 true.
(초기화 예): 기본 매개변수로 호스팅된 백엔드에 Laion5B를 질의하려면:
- 인터넷 상에 위치한 특정 서버('호스팅된 백엔드')에, 'Laion5B'라는 데이터베이스를 사용하여 정보를 요청하려고 할 때, 사전에 설정된 기본 옵션(이걸 '기본 매개변수'라고 부름)을 사용하는 방법에 대해 설명
- Laion5B는 매우 큰 이미지와 텍스트 데이터를 포함하는 데이터베이스이고,
- indice_name="laion5B-L-14"에서 indice_name은 이 데이터베이스 내에서 특정한 인덱스(데이터를 정리하고 검색하기 위한 구조)를 지정하는 데 사용되는 키워드 인자
- 데이터베이스에서 '인덱스'는 데이터를 효율적으로 조회하고 검색할 수 있도록 돕는 데이터 구조나 방식
- 대규모 데이터베이스인 Laion5B는 여러 인덱스를 가질 수 있으며, 이들 각각은 데이터를 다루는 데 있어 특정한 목적이나 최적화를 제공
- 예를 들어, 인덱스는 데이터의 특정 부분집합을 대상으로 하거나, 특정 유형의 쿼리를 더 빠르게 처리하도록 설계될 수 있어요.
- "laion5B-L-14"라는 인덱스 이름은, Laion5B 데이터베이스 안에서
- 특정한 설정, 구조화 방식, 또는 최적화를 가진 인덱스를 가리키는 것으로 보여요.

from clip_retrieval.clip_client import ClipClient, Modality

client = ClipClient(url="https://knn.laion.ai/knn-service", indice_name="laion5B-L-14")

2.2. 텍스트로 질의하기

제공한 텍스트와 유사한 캡션을 가진 이미지를 찾을 수 있어.

results = client.query(text="an image of a cat")
results[0]
# 출력: {'url': 'https://example.com/kitten.jpg', 'caption': 'an image of a kitten', 'id': 14, 'similarity': 0.2367108941078186}

2.3. 이미지로 질의하기

제공된 이미지와 유사한 캡션을 가진 이미지도 찾을 수 있어. 이미지는 로컬 경로나 URL을 통해 전달할 수 있어.

cat_results = client.query(image="cat.jpg")
dog_results = client.query(image="https://example.com/dog.jpg")

2.4. 임베딩으로 질의하기

제공된 클립 임베딩과 유사한 캡션을 가진 이미지를 찾을 수도 있어.

cat_results = client.query(embedding_input=cat_embedding)

2.5. 이미지 디렉토리로 질의하기

유사한 텍스트/이미지 쌍으로 기존 데이터셋을 향상시키고 싶다면, 이미지 디렉토리를 질의하고 결과를 결합할 수 있어.
이 과정은 네 컴퓨터에 있는 특정 폴더(여기서는 "my-images")에 저장된 이미지들을 하나씩 가져와서, 각 이미지에 대해 클립 모델을 사용하여 유사한 텍스트/이미지 쌍을 찾는 질의를 수행하는 거야.
이렇게 해서 얻은 결과들을 모아서 "search-results.json"이라는 파일에 저장하고 있어.

all_results = [result for result in [client.query(image=image) for image in os.listdir("my-images")]]
with open("search-results.json", "w") as f:
    json.dump(all_results, f)

2.6. 데이터셋 만들기

저장된 json 결과와 img2dataset 도구를 사용해서 데이터셋을 만들 수 있어.
이 과정은 앞서 언급한 'search-results.json' 파일에 저장된 검색 결과를 사용하여, 새로운 데이터셋을 만드는 방법에 대해 설명하고 있어.
여기서 사용되는 도구인 img2dataset은 특정 형식의 데이터(이 경우는 JSON 파일)에서 이미지와 관련 메타데이터(예: 캡션)를 추출하여,
- 물리적인 이미지 파일과 메타데이터 파일로 구성된 데이터셋을 생성하는 데 사용돼.
구체적으로, 이 명령어는 다음 단계를 수행해:

"search-results.json" 파일을 읽어들임:

이 JSON 파일에는 이미지의 URL, 이미지에 대한 설명(캡션), 이미지의 ID, 그리고 이미지와 질의 사이의 유사도 점수와 같은 정보가 들어 있어.
이 파일은 앞서 이미지 디렉토리를 질의하여 얻은 결과를 저장한 것이야.

--input_format="json" 옵션을 사용:

이 옵션은 입력 파일이 JSON 형식임을 명시해.

--output_folder="knn_search_dataset" 옵션을 사용:

이 옵션은 생성될 데이터셋의 저장 위치를 지정해.
여기서는 "knn_search_dataset"이라는 이름의 폴더에 데이터셋이 저장될 거야.

--caption_col="caption" 옵션을 사용:

이 옵션은 JSON 파일 내에서 이미지 설명(캡션)을 포함하고 있는 컬럼의 이름을 지정해.
이 경우, 'caption'이라는 이름의 컬럼에서 캡션 데이터를 추출해 사용하게 돼.
결과적으로, img2dataset 도구는 이 정보를 바탕으로 각 이미지를 다운로드하고, 각 이미지에 해당하는 캡션과 함께 데이터셋을 구성해.

img2dataset "search-results.json" \
    --input_format="json" \
    --output_folder="knn_search_dataset" \
    --caption_col="caption"

3. clip end2end

이미지 URL과 캡션의 데이터셋(예시)을 선택한 후 실행해:
GPU VRAM이 충분하지 않다면, GPU 사용을 피하기 위해 export CUDA_VISIBLE_DEVICES=를 실행할 수 있어.

wget https://github.com/rom1504/img2dataset/raw/main/tests/test_files/test_1000.parquet
clip-retrieval end2end test_1000.parquet /tmp/my_output

그 다음 http://localhost:1234 로 가서 사진들 사이에서 검색을 즐겨봐.
백엔드를 실행하지 않으려면 --run_back False를 사용해.

4. clip inference

예를 들어, img2dataset를 설치하고 다음을 실행해서 example_folder에 몇몇 이미지를 가져와봐:

pip install img2dataset
echo 'https://placekitten.com/200/305' >> myimglist.txt
echo 'https://placekitten.com/200/304' >> myimglist.txt
echo 'https://placekitten.com/200/303' >> myimglist.txt
img2dataset --url_list=myimglist.txt --output_folder=image_folder --thread_count=64 --image_size=256

이미지와 동일한 이름의 텍스트 파일을 그 폴더에 두면, 텍스트 임베딩도 얻을 수 있어.

그런 다음 clip-retrieval inference --input_dataset image_folder --output_folder embeddings_folder를 실행해.

출력 폴더에는 다음이 포함될 거야:

img_emb/: numpy로 이미지 임베딩이 포함된 img_emb_0.npy
text_emb/: numpy로 텍스트 임베딩이 포함된 text_emb_0.npy
metadata/: 이미지 경로, 캡션, 메타데이터가 포함된 metadata_0.parquet

이건 백만 단위의 샘플까지 확장될 수 있어. 3080에서 1400 샘플/초로, 10M 샘플을 2시간 안에 처리할 수 있어.

FSA

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것