sBERT 논문을 리뷰 하던 중 BERT에 대한 이해를 좀 더 해보고자 BERT 논문을 찾아보게되었다. BERT의 B, 즉 "Bidirectional"이라는 표현은 ELMo에서 많이 등장하였는데, ELMo가 순방향 언어 모델과 역방향 언어 모델을 모두 사용하기 때문에 Bidirectional lanuage model이라고 생각할 수 있지만, ELMo는 각각의 단방향(순방향,역방향) 언어모델의 출력값을 concat해서 사용하기 때문에 하나의 모델 자체는 단방향이다. 이것이 바로 BERT에서 강조하는 deep bidirectional과의 차이점이라고 할 수 있다.