[NLP] NLP/Linguistics 용어

JAsmine_log·2025년 8월 19일

Summary

Corpus/Dataset → 텍스트 데이터 모음
Lexicon/Words/Jargon/Abbreviation/Taxonomy → 어휘·용어 중심의 자료
Annotation/Treebank → 주석/구조 중심 자료
Appendix/KB/Ontology → 참고/지식 체계 자료

1. Corpus/Dataset 계열 (데이터 단위)

“데이터 자체”에 관한 분류.

Corpus: 자연어 텍스트 집합 (말뭉치).
Dataset: 특정 연구 목적의 데이터 모음 (텍스트/이미지/음성 포함).
Benchmark Dataset: 성능 비교를 위한 표준 데이터셋 (예: SQuAD, GLUE).
Parallel Corpus: 번역 연구용, 언어 간 매칭된 데이터.

2. Lexicon/Terminology 계열 (어휘/용어 단위)

“언어 단위/전문 용어 체계”에 관한 분류.

Words: 가장 기본 단위. 단어 사전이나 frequency list에서 다룸.
Lexicon: 단어 목록 + 의미/품사 등 메타 정보. (예: WordNet).
Jargon: 특정 분야에서만 쓰이는 전문 용어. (예: 의학 jargon).
Abbreviation: 축약어, 줄임말. (예: “NLP”, “AI”).
Taxonomy: 계층적 분류 체계. (예: 동물 taxonomy, domain taxonomy).
Ontology: taxonomy보다 확장된, 개념 + 관계까지 포함한 지식 구조.

3. Annotation/Structure 계열 (데이터 구조/주석 단위)

“코퍼스에 어떤 주석을 달았는가”에 따른 분류.

Annotation: 데이터에 라벨 추가 (POS 태깅, 감정 레이블, 개체명).
Treebank: 구문 구조 주석된 corpus.
Dependency Treebank: 의존구문 구조 주석.
Semantic Role Labeling (SRL) Corpus: 의미역 태깅된 corpus.

4. Knowledge/Reference 계열 (참조/배경 정보 단위)

“텍스트가 아니라 지식/참조 자료”에 해당하는 분류.

Appendix: 본문 뒤에 붙는 참고 자료 모음 (논문/책에서 자주 등장).
Knowledge Base (KB): 구조화된 지식 그래프 (예: Wikidata, Freebase).
Gazetteer: 지명/기관명 같은 리스트 (NER 보조용).
Dictionary/Thesaurus: 단어 정의나 동의어 모음.

Everyday Research & Development

이전 포스트

[Math] 수학기호 & 연산의 공학적 해석

다음 포스트

[ML] Temperature τ

0개의 댓글