토큰(Tokken)

빈앤아웃·2025년 8월 26일
0

PM 사전

목록 보기
48/51

정의

AI에서 토큰은 텍스트를 모델이 이해할 수 있도록 쪼갠 최소 단위를 말한다.

단어 전체가 될 수도 있고, 단어 일부(철자 조각)나 심지어 문장부호 하나도 토큰이 될 수 있다.


왜 중요한가?

  • 🧮 모델이 세는 단위: AI는 글자를 그대로 읽지 않고, 토큰 단위로 계산한다.
  • 비용/속도와 직결: API 요금은 ‘토큰 개수’에 따라 청구된다.
  • 📏 맥락 길이 제한: 모델이 한 번에 이해할 수 있는 길이(컨텍스트 윈도우)도 토큰 단위로 측정된다.

비유

👉 토큰은 마치 문장을 퍼즐 조각 🧩으로 쪼갠 것이다.

  • 사람이 볼 땐 “사과를 먹었다”라는 하나의 문장이지만,
  • 모델은 이를 [사][과][를][ ][먹][었][다] 식으로 잘라서 이해한다.

예시

  • "ChatGPT is awesome!" → 토큰화하면 대략
    • [Chat] [G] [PT] [ is] [ awesome] [!]
    • 단어가 항상 그대로 잘리는 게 아니라, 사전(Dictionary)처럼 등록된 조각에 따라 달라진다.

추가 포인트

  • 영어는 단어가 짧아도 토큰 분리가 잘 돼서 효율적이다.
  • 한국어나 일본어 같은 언어는 조사·어미가 많아 토큰이 더 쪼개지는 경우가 많다 → 같은 문장이라도 토큰 수가 더 커진다.
  • 그래서 “몇 글자 = 몇 토큰”은 정확히 1:1이 아니고, 언어와 표현에 따라 달라진다.

👉 한 줄 요약: 토큰은 AI가 텍스트를 이해하고 계산하기 위해 쪼개는 최소 단위이며, 비용·속도·맥락 제한 모두 토큰 기준으로 측정된다.


토큰(Token) 영어 vs 한국어 비교

문장글자 수예상 토큰 수설명
영어: ChatGPT is awesome!20자(공백 포함)약 6~7 토큰영어는 단어 단위로 잘려서 비교적 효율적이다.
한국어: 챗GPT는 정말 멋지다!13자약 8~9 토큰한국어는 조사(), 어미(), 띄어쓰기 등이 따로 쪼개져 토큰이 더 많아진다.
영어: I love you10자(공백 포함)약 3 토큰단어 그대로 토큰화되는 경우가 많다.
한국어: 나는 너를 사랑해10자약 6 토큰, , , , 사랑, 식으로 잘게 나뉜다.

💡 인사이트

  • 영어는 단어 단위로 묶여서 토큰 효율이 좋음
  • 한국어·일본어·중국어는 조사/어미 때문에 토큰 수가 늘어나서 같은 글자 수라도 토큰 사용량이 많아진다
  • 그래서 같은 분량의 텍스트라도 한국어로 입력하면 토큰 비용이 더 나올 수 있다

토큰 과금 방식

  1. 입력 토큰 (Prompt Tokens)
    • 너가 AI한테 보낸 질문(프롬프트)을 쪼갠 단위
    • 무조건 과금됨
  2. 출력 토큰 (Completion Tokens)
    • AI가 너에게 보내주는 답변도 토큰으로 계산됨
    • 이것도 과금됨
  3. 총 요금 = 입력 토큰 + 출력 토큰
    • 예:
      • 너가 보낸 질문 = 200 토큰
      • AI 답변 = 800 토큰
      • 총합 = 1,000 토큰 → 이 기준으로 비용 계산됨

💡 즉, 토큰은 “보낼 때만”이 아니라, “보낼 때 + 받을 때” 둘 다 잡힌다.

👉 그래서 답변이 길면 길수록 비용이 올라가는 구조임.

profile
Input과 Output의 황금비율을 찾아서...

0개의 댓글