Vector DB: 벡터 크기(Norm)와 Dot Product 관계

calico·2025년 9월 25일

Artificial Intelligence

목록 보기
66/177

여기 참고: 노름(Norm)

벡터 크기와 Dot Product 관계


1. 벡터 크기(Norm)


  • 벡터의 길이(유클리드 노름, Euclidean Norm)

A=a12+a22+...+an2|A\| = \sqrt{a_1^2 + a_2^2 + ... + a_n^2}

  • 특징: 각 차원의 값이 클수록 크기 증가

    • A=[1,1]A = [1, 1]21.414\sqrt{2} \approx 1.414

    • B=[10,10]B = [10, 10]20014.142\sqrt{200} \approx 14.142



2. Dot Product와 Cosine의 관계


AB=ABcosθA \cdot B = \|A\| \|B\| \cos{\theta}

  • A,B\|A\|, \|B\| → 크기(Euclidean Norm)

  • cosθ\cos{\theta} → 방향 유사도(Cosine Similarity)

  • 의미: Dot Product = 크기 × 방향 유사도

    → "패턴 + 강도"를 동시에 반영



3. 예시 계산


예시ABNorm(A)Norm(B)CosineDot Product
예1[1,1][2,2]1.4142.82814
예2[100,100][200,200]141.421282.843140,000



주어진 값


  • A = [100, 100]

  • B = [200, 200]

  • 방향 동일

    • θ=0\theta = 0cosθ=1\cos\theta = 1



1. Norm(A) 계산


A=1002+1002=10000+10000=20000\|A\| = \sqrt{100^2 + 100^2} = \sqrt{10000 + 10000} = \sqrt{20000}

20000=2×10000=2×1001.41421356×100141.421356\sqrt{20000} = \sqrt{2 \times 10000} = \sqrt{2} \times 100 \approx 1.41421356 \times 100 \approx 141.421356



2. Norm(B) 계산


B=2002+2002=40000+40000=80000\|B\| = \sqrt{200^2 + 200^2} = \sqrt{40000 + 40000} = \sqrt{80000}

80000=8×10000=8×1002.82842712×100282.842712\sqrt{80000} = \sqrt{8 \times 10000} = \sqrt{8} \times 100 \approx 2.82842712 \times 100 \approx 282.842712



3. Cosine θ


  • 방향 동일 → θ=0\theta = 0cosθ=1\cos\theta = 1



4. Dot Product 계산


  • 공식

    • AB=A×B×cosθA \cdot B = \|A\| \times \|B\| \times \cos\theta
  • 대입

    • =141.421356×282.842712×1= 141.421356 \times 282.842712 \times 1
  • 곱셈

    • 40000.000\approx 40000.000

💡 포인트

  • Norm(A) × Norm(B) × Cosine θ = Dot Product 공식이 그대로 성립
  • 방향이 같으면 Cosine θ = 1 → Norm 곱이 곧 내적 값
  • 여기서는 Norm 곱이 40000이므로 내적도 40000



4. 근삿값 사용 이유


  • 무리수(√2, π)는 끝없는 소수 → 컴퓨터는 부동소수점으로 근사 저장

  • 실무에서 기호보다 근삿값 사용

    • 코드: math.sqrt(2) → 1.4142135623 (double precision)

    • 보고서: 1.41 또는 1.414 (가독성)

  • 정밀도 선택

    • 보고서/프레젠테이션: 소수점 2~3자리

    • 계산 코드: float(6~7자리) 또는 double(15자리)

    • 고정밀 분야(금융, 물리): 더 많은 자리수 유지



5. 실무 패턴 요약


상황표기 방식이유
수학 이론 설명√2, π의미 명확
데이터 분석 코드1.4142135컴퓨터 연산은 근삿값
보고서/프레젠테이션1.41가독성
고정밀 계산1.4142135623오차 최소화



profile
All views expressed here are solely my own and do not represent those of any affiliated organization.

0개의 댓글