[NLP] NLP/Linguistics 용어

JAsmine_log·2025년 8월 19일
0

Summary

  • Corpus/Dataset → 텍스트 데이터 모음
  • Lexicon/Words/Jargon/Abbreviation/Taxonomy → 어휘·용어 중심의 자료
  • Annotation/Treebank → 주석/구조 중심 자료
  • Appendix/KB/Ontology → 참고/지식 체계 자료

1. Corpus/Dataset 계열 (데이터 단위)

“데이터 자체”에 관한 분류.

  • Corpus: 자연어 텍스트 집합 (말뭉치).
  • Dataset: 특정 연구 목적의 데이터 모음 (텍스트/이미지/음성 포함).
  • Benchmark Dataset: 성능 비교를 위한 표준 데이터셋 (예: SQuAD, GLUE).
  • Parallel Corpus: 번역 연구용, 언어 간 매칭된 데이터.

2. Lexicon/Terminology 계열 (어휘/용어 단위)

“언어 단위/전문 용어 체계”에 관한 분류.

  • Words: 가장 기본 단위. 단어 사전이나 frequency list에서 다룸.
  • Lexicon: 단어 목록 + 의미/품사 등 메타 정보. (예: WordNet).
  • Jargon: 특정 분야에서만 쓰이는 전문 용어. (예: 의학 jargon).
  • Abbreviation: 축약어, 줄임말. (예: “NLP”, “AI”).
  • Taxonomy: 계층적 분류 체계. (예: 동물 taxonomy, domain taxonomy).
  • Ontology: taxonomy보다 확장된, 개념 + 관계까지 포함한 지식 구조.

3. Annotation/Structure 계열 (데이터 구조/주석 단위)

“코퍼스에 어떤 주석을 달았는가”에 따른 분류.

  • Annotation: 데이터에 라벨 추가 (POS 태깅, 감정 레이블, 개체명).
  • Treebank: 구문 구조 주석된 corpus.
  • Dependency Treebank: 의존구문 구조 주석.
  • Semantic Role Labeling (SRL) Corpus: 의미역 태깅된 corpus.

4. Knowledge/Reference 계열 (참조/배경 정보 단위)

“텍스트가 아니라 지식/참조 자료”에 해당하는 분류.

  • Appendix: 본문 뒤에 붙는 참고 자료 모음 (논문/책에서 자주 등장).
  • Knowledge Base (KB): 구조화된 지식 그래프 (예: Wikidata, Freebase).
  • Gazetteer: 지명/기관명 같은 리스트 (NER 보조용).
  • Dictionary/Thesaurus: 단어 정의나 동의어 모음.
profile
Everyday Research & Development

0개의 댓글