다중 분류? 다항 분류? 뭐가 달라?

공장장·2024년 9월 20일



🏷️ 다중 분류 VS 다항 분류

  1. 다중분류(Multiclass Classification):
  • 개념: 여러 개의 명확한 클래스 중 하나를 예측하는 문제.
  • 특징: 각 클래스는 명확하게 구분. 예측의 결과는 단 하나의 클래스로 결정되며, 그 클래스는 다른 클래스와 중복되지 않는다.
  • 예시: 고양이, 개, 토끼가 있는 동물 분류에서 하나의 동물만 예측.
    • 고양이인지, 인지, 토끼인지 하나의 클래스를 선택.

  1. 다항분류(Multinomial Classification):
  • 개념: 다항분류는 주로 여러 개의 선택지 중 하나를 확률 기반으로 예측.
  • 특징: 다항분류는 범주가 아닌 사건의 확률 분포에 중점을 둔다. 텍스트나 자연어 처리(NLP)에서 자주 사용.
  • 예시: 언어 모델링에서 다음 단어가 나올 확률을 예측할 때, "the", "cat", "sat" 등의 단어 중에서 어떤 단어가 나올 확률이 높은지 예측.
    • 단어들이 연관된 사건을 다루며, 각 단어가 발생할 확률을 계산.


🔑 핵심 차이점 설명:

  1. 결과가 어떻게 해석되는지에 따른 차이:
  • 다중분류: 모델이 하나의 명확한 클래스를 예측. 예를 들어, 고양이, 개, 토끼 중 하나를 선택.
    • 결과: "이 데이터는 고양이입니다."와 같은 하나의 답을 냄.
  • 다항분류: 모델은 여러 사건에 대한 확률 분포를 예측. 즉, 각 선택지(범주)가 발생할 확률을 계산.
    • 결과: "이 데이터가 고양이일 확률은 70%, 개일 확률은 20%, 토끼일 확률은 10%입니다"와 같이 확률 분포로 결과를 냄.

  1. 데이터의 구조사건의 연관성:
  • 다중분류에서는 각 클래스가 서로 독립적. 예를 들어, 고양이, 개, 토끼는 독립적인 범주이며, 그 중 하나만 선택.
    • 하나의 범주만 선택된다는 특징이 있으며, 각 범주는 별개의 카테고리.
  • 다항분류확률 분포를 기반으로 하며, 사건들이 연관될 수 있음. 예를 들어, 언어 모델에서 특정 단어가 나올 확률은 이전에 나온 단어와 관련될 수 있음.
    • 언어 모델이나 텍스트 분류에서 다항분류는 각 선택지(단어, 카테고리 등)의 발생 확률을 예측하는 데 사용.

      ※ 다항분류도 클래스가 존재한다. 해당 클래스에 속할 확률을 계산한다는 것이 다중 분류와의 차이.


💡 결론:

  • 다중분류는 여러 클래스 중 하나를 명확하게 선택하는 문제. 각 클래스는 서로 독립적이고, 하나의 결과를 도출.
  • 다항분류사건의 확률 분포에 초점을 맞춘 문제. 여러 선택지 중 어떤 사건이 발생할 확률이 높은지를 예측하며, 사건들이 서로 연관될 수 있음.
profile
연장 대신 키보드 뚱땅거리며 분석하는 '데이터분석 공장 529'

0개의 댓글