
text3 = "사과+딸기+수박+메론+바나나"
re.split("\+", text3) # + 로 쓰면 에러남 \+ 로 써야됨
# tokenization
from nltk.tokenize import RegexpTokenizer
text = """Don't be fooled by the dark sounding name, Mr.Jone's
Orphanage is as cheery as cheery goes for a pastry shop"""
token1 = RegexpTokenizer("[\w]+")
token2 = RegexpTokenizer("[\s]+", gaps=True)
print(token1.tokenize(text))






자주 쓰는 메타 커맨드

CREATE TABLE documents (
id SERIAL PRIMARY KEY,
content TEXT,
embedding vector(3) -- 3차원 벡터
);
INSERT INTO documents (content, embedding) VALUES
('Postgres is a powerful database', '[0.1, 0.2, 0.3]'),
('Vector databases are great for similarity search', '[0.4, 0.5, 0.6]'),
('I love working with embeddings', '[0.7, 0.8, 0.9]');
-- 쿼리 벡터와 가장 가까운 문서 찾기
SELECT id, content, embedding
FROM documents
ORDER BY embedding <-> '[0.1, 0.2, 0.25]'
LIMIT 2;
####
<-> 연산자인데, 이건 pgvector 확장에서 제공하는 벡터 간 거리 연산자예요.
• <-> : Euclidean 거리(L2 distance) 계산
• <#> : 내적 (dot product)
• <=> : 코사인 거리 (cosine distance)
테이블 목록 보기 \dt

from dotenv import load_dotenv
import os
load_dotenv()
# 환경 변수 가져오기
print(os.getenv("GEMINI_API_KEY"))
create table prod_embeddings (id serial primary key, name text,
embedding vector(3)); # 3차원 벡터 추가한것



select id,name,embedding, embedding <=> '[0.2,0.3,0.4]' AS similarity
FROM prod_embeddings order by similarity;
