Linguistic structure에는 2가지 view가 있da.
Phrase structure라고도 불리우며 이는 단어들을 nested constituents로 묶는다.
단어 하나로부터 시작해서 단어들을 phrase로 묶다가 좀더 큰 phrases로 묶음
이러한 process를 통해 진행
phrase를 묶는 방법에 따라서 더 큰 범위로 확장할 수 있다는 점에서 큰 확장성을 가지고 있다.
Dependency structure는 다른 단어들 과의 의존관계를 나타내는 structure이다.
사람은 복잡한 생각을 단어들의 결합을 통해 전달한다.
듣는 이는 이 결합들의 의미를 파악하기 위해서 문장의 구조를 알아야 하고,
이는 model에서도 human language를 제대로 이해하기 위해서는 필요한 지식이다.
언어는 ambiguity를 항상 가지고 있는데, 이를 잘 이해하는것이 중요하다.
어떤 방식으로 phrase를 만드는 지에 따라서 의미가 달라질 수도 있따.
이런식으로 단백질을 분해하듯이 문장을 나눌 수도 있다. protein-protein interaction은 단백질끼리의 관계를 나타내는 다이어그램 같은거라고 한다…
arrow로는 dependency를 나타내고, 어휘들 사이의 관계를 나타내어 준다.
화살표는 주로 문법적인 단어로 나타내어진다.
화살표는 head로 부터 dependent로 이어지게 만들어준다
보통 dependency는 tree를 형성한다.
화살표는 다음과 같이 시작이 head이고 끝이 그 head를 modify하는 dependent로 이어진다.
Fake ROOT(원래는 없음)을 이용해 모든 단어들이 정확히 1개 이상의 node로부터 dependent하게 만들어준다.
Treebank를 만드려는 시도와 이미 만들어진 좋은 treebank가 있다. 하지만 이는 사람의 손보다 느리다.
하지만 이로 인한 이점이 상당히 존재하는데,
등등이 있다.
Dependency parsing 의 source가 뭘까?
투사성을 가진다라는 뜻은 모든 단어들의 의존관계(화살표, arc)가 cross하지 않고 선형적으로 놓여있는 상태를 projective parse라고 한다.
CGF(context free grammar) tree는 projective해야한다.
대부분의 syntactic structure는 projective하다.
Greedy discriminative dependency parser의 간단한 form이다.
Parser은 “bottom-up action”동작을 순차적으로 진행한다.
Bottom-up action : “shift”또는 “reduce”를 진행한다. “reduce”는 dependency를 형성할 떄만 사용하고, 주변의 head가 있을 때만 진행하게 된다.
Parser
Left-acr 또는 Right-Acr는 일때, 가 의 modifier이면 이를 흡수해 버리고, 로 나타내는 것이다. 화살표가 Left acr여서 다음과 같이 표현된다.
Left acr
1,2,3번은 전부 “Reduce”의 method이다.
쭉 진행하면 결국 이 된다.
진행순서를 조금더 자세하게 “I ate fish”라는 sentence를 통해서 살펴보면
다음과 같은 순서를 따라 정리된다. 결국 root만 남게 된다.
평가하는 방법에 대해 설명하는데, 까먹음...
사실 연구실에서 스터디 진행중에 하는거라 Lecture 4는 할 필요 없었지만 5강이 이해가 안돼서 잠깐 정리해보았다.
너무 좋아용 ㅎㅎ