[NER] BIO Tagging

JAsmine_log·2025년 9월 6일
0

BIO Tagging

BIO Tagging은 개체명 인식(NER)이나 시퀀스 라벨링에서 개체의 시작과 내부를 구분해 문장의 구조를 기계가 이해할 수 있도록 도와주는 방법

개념

자연어 처리(NLP)에서 토큰 단위로 개체(entity)의 범위를 표시하는 대표적인 방식
이름 그대로 B–I–O 세 가지 태그를 사용

개체

텍스트 안에서 특정한 의미적 범주로 구분되는 단위
BIO 태그에서 객체란 NER이 식별하려는 엔티티 클래스(개체)

  • 사람 이름(Person)
  • 조직(Organization)
  • 지명(Location)
  • 날짜/시간(Time)
  • 기타 도메인 특화 엔티티 (예: 질병명, 약품명, 법률 용어 등)

태그

B (Begin):

  • 개체의 시작을 의미
  • 예를 들어, "뉴욕"이라는 지명이 나오면 "뉴"는 B-LOC으로 태깅

I (Inside):

  • 개체의 내부(계속 이어지는 부분)를 의미
  • "뉴욕"의 "욕"은 I-LOC으로 태깅

O (Outside):

  • 어떤 개체에도 속하지 않는 일반 단어를 의미

예시 문장:

  • "나는 뉴욕에 갔다"
  • 토큰별 BIO 태깅:
    • 나는 → O
    • 뉴 → B-LOC
    • 욕 → I-LOC
    • 에 → O
    • 갔다 → O
profile
Everyday Research & Development

0개의 댓글