말과 소리(Speech & Sound) -> Phonetics
음소(Phonemes)는 언어에서 말과 소리의 가장 작은 단위(the smallest units of sound in a language)이다. 음소는 그 자체로는 아무런 의미도 없지만, 다른 음소들과 함께 사용이 되면 의미를 가지게 된다. 음운론(Phonology)과 언어학(Linguistics)에서 음소는 특정 언어에서 한 단어와 다른 단어를 구별할 수 있는 소리의 단위를 뜻한다.
아래는 영어와 한글의 음소 예시이다. 영어에는 44개의 다른 소리의 음소가 있고, 한글에는 14개의 자음과 10개의 모음 소리의 음소가 있다.
📌Phonetics(음성학) VS Phonology(음운론)
Phonetics(음성학)
Phonology(음운론)
Phonetics is the study and classification of speech sounds.
Phonology is the system of contrastive relationships among hte speech sounds that constitute the fundamental components of a language.
음성학과 음운론은 둘 다 음(sound)을 연구한다는 데에 일치한다. 그렇다면 이 둘의 차이는 무언인가? 인간의 언어음성을 연구한다는 점에서 연구대상은 동일하다고 말할 수도 있지만 연구의 관점과 방법에 있어서 다소간 차이가 있으므로 자연 대상도 달리 정의된다.
음성학은 입을 통해 생리적으로 발화된 음성을 객관적으로 정밀하게 기술하려고 한다. 따라서 음성의 실질적이고 물리적 특성에 깊은 관심을 가지고 있다. 그리고 음성학에서 다루는 음성들은 모두 동등한 가치를 가진 실체들이다. 반면 음운론에서 문제삼는 음성은 입을 통해 발화된 음성 자체가 아니라 귀를 통해 의시에 지각되는 다소 주관적이고 심리적인 성질을 지닌다. 발화된 모든 음성들이나 음성적 성질들이 모두 귀를 통해 지각되고 인지되는 것은 아니다. 따라서 음성들 상호간에 가치의 차이가 있다. 지각되어 인지되는 음성들은 한 언어의 체계를 구성하여 뜻을 구별하는 기능을 지니지만 체계를 구성하지 못하는 음성들은 이러한 중심적인 역할을 담당하지 못하고 주변적이거나 잉여적인 가치밖에 없다.
음운론에서 다루는 음성들은 바로 체계를 구성하는 기능을 지닌 음성들, 즉 음소(phoneme)이다. 그러나 음성학에서는 음성들이 체계를 구성하느냐, 언어적으로 유의미한 기능을 갖느냐의 여부에 상관없이 한 언어에서 사용되는 모든 음성을 대상으로 연구한다.
: 단어(Words) -> Morphology(형태학)
형태소(Morphemes)는 의미를 가지는 언어의 가장 작은 단위(the smallest unit of language) 이며, 음소(phonemes)의 조합을 통해서 만들어진다. 형태소는 단어(Words)처럼 보이기는 하지만, 그렇다고 형태소가 곧 단어는 아니다. 형태소와 단어의 차이점은, 형태소는 홀로 사용될 수 없지만, 단어는 그 정의상 항상 홀로 자기완결적으로 사용될 수 있다는 점이다.
아래 예에서는 영어 단어를 형태소로 분리해본 것이다.
un + read + able에서 접사(affix) 접두사(prefix) 'un'이나 접미사(suffix) 'able'은 모두 형태소로서, 단어의 뜻을 바꾸어준다.
어휘항목(Lexemes) 또는 어휘소는 의미에 의해서 서로 관련되어 있는 형태소의 구조적인 변형(the structural variations of morphemes related to one another by meaning)이다. 어휘항목(어휘소)는 변형을 통해 관련되는 단어들의 기초가 되는 어휘적 의미의 단어이다. 어근 단어(root word)에 의해 대략적으로 일치하는 형태소 분석의 기본 추상적 의미 단위이다.
형태소와 어휘소는 토큰화(Tokenization), 단어 임베팅(Word Embedding), 형태소(품사)분석(POS Tagging: Part-Of-Speech Tagging) 등의 영역에서 사용된다.
: 문장(phrases & sentences)
언어학에서 구문론(Syntax)는 단어(Words)와 형태소(Morphemes)가 어떻게 결합되어 구(Phrases)나 문장(Sentences)과 같은 더 큰 단위를 형성하는지 연구하는 학문이다. 구문론의 중심 관심사는 어순(Word order), 문법적 관계(Grammatical relations), 계층적 문장 구조(구성)(Hierarchical Sentence Structure, Constituency), 교차 언어적 변형의 특성(the nature of crosslinguistic variation), 형태와 의미 사이의 관계(the relationship between form and meaning)를 포함한다.
언어학에서 구문론적인 구조는 많은 다양한 형태로 제시될 수 있다. 그중에서 문장을 표현하는 일반적인 방법으로 'a Parse Tree' 가 있다. Parse Tree는 언어의 계층적 구조(a hierarchical structure of language) 를 가지고 있으며, 아래의 예시에서 보는 바와 같이, 제일 밑에는 단어(words), 그 위에는 형태소(품사) 태깅(POS tagging, Part-Of-Speech Tagging), 그 위에는 구(phrase), 제일 위에는 문장(sentence)으로 하여 계층적 구조를 시각화해서 나타내줍니다.
언어학의 구문론(Syntax)은 파싱(Parsing), 객체 추출(Entity Extraction), 관계 추출(Relation Extraction)에 사용된다.
: 의미(meaning)
문맥은 문서 요약(Summarization), 토픽 모델링(Topic Modeling), 감성분석(Sentiment Analysis), 냉소적인 표현 탐지(Sarcasm Detection) 등의 분야에 활용된다.