언어모델에 관한 기준 주장과 달리, llm은 인간이 학습할 수 없는 언어를 학습하는데 어려움을 겪는다는 연구 결과가 제시되었다.
연구진은 영어 데이터를 자연스럽지 않은 단어 순서와 문법 규칙으로 조작하여 다양한 복잡도의 불가능한 언어를 설계하였다.
실험은 GPT-2모델로 진행하였으며 이 모델을 불가능한 언어를 학습하는 것에서 영어와 비교하여 뚜렷한 한계를 보였다고 함.
이 연구는 LLM 구조를 다양한 불가능한 언어에 적용하여 보다 깊은 연구의 가능성을 탐구할 수 있는 기초를 마련하고자 했다고 함.
기본 학습 코퍼스는 BabyLM 데이터셋이며 GPT-2 small model을 사용하였다.
LLM이 학습 가능한 언어와 불가능한 언어를 구분할 수 없다는 주장은 Chomsky 외 연구자들이 LLM이 "가능한 언어와 불가능한 언어를 구분할 수 없다."고 주장하며 제기되었다.
연구에서 정의된 가능 언어와 불가능 언어세트에 대해 GPT-2모델을 훈련시켰고, 결과적으로 가능 언어에 비해 불가능 언어의 학습 효율이 낮은 것으로 나타났다.
세 가지 주요 실험을 통해 LLM은 가능 언어에 비해 불가능 언어를 학습하는 데 어려움을 겪었으며, 이는 Chomsky의 주장을 반박하는 결과로 해석된다.
연구는 불가능 언어의 수많은 예제를 제시하며, 이러한 언어들이 언어 모델의 학습에서 중요한 정보를 제공할 수 있음을 강조한다

논문은 LLM이 불가능한 언어를 학습할 수 있는지를 검증하기 위해 다음과 같은 접근법을 사용했습니다:
연구팀은 GPT-2 모델을 사용하여 다음과 같은 세 가지 주요 실험을 수행했습니다:
1. 불가능한 언어 학습 성능 비교:
이 연구는 LLM이 인간 언어 학습과 관련된 인지적, 언어학적 메커니즘을 이해하는 도구로 활용될 가능성을 제시하며, LLM 아키텍처와 학습 능력에 대한 더 깊은 논의로 이어지길 기대합니다.
이 연구에서는 인간 언어의 불가능성을 탐구하기 위해 인위적으로 설계된 불가능한 언어들을 제시합니다. 이러한 언어들은 정보 이론적 속성과 언어학적 구조를 고려해 설계되었으며, 불가능성의 연속체(impossibility continuum)를 따라 배치됩니다.

단어의 순서를 섞는 방식을 통해 설계된 언어들입니다.
1. NO SHUFFLE: 단어 순서를 변경하지 않은 원래의 영어(대조군).
2. NONDETERMINISTIC SHUFFLE: 단어를 무작위로 섞은 비결정적 방식.
3. DETERMINISTIC SHUFFLE(s): 특정 규칙(랜덤 시드 s)에 따라 결정적으로 단어를 섞은 방식.
4. LOCAL SHUFFLE(w): 고정된 크기의 window 안에서만 단어를 섞는 방식. 창 크기 w에 따라 다양한 변형 존재.
5. EVENODD SHUFFLE: 짝수 위치 단어와 홀수 위치 단어를 재배치.
문장을 뒤집는 방식을 통해 설계된 언어들입니다.
1. NO REVERSE: 원래 문장에 특별한 마커(marker)를 추가(대조군).
2. PARTIAL REVERSE: 문장의 일부를 뒤집고, 뒤집힌 부분에 마커를 추가.
3. FULL REVERSE: 문장을 완전히 뒤집고 마커를 추가.
단어 위치 기반 규칙을 도입해 설계된 언어들입니다.
1. NO HOP: 동사를 원형으로 변환하고, 뒤에 수/시제를 나타내는 표지(S 또는 P)를 추가(대조군).
2. TOKEN HOP: 마커가 동사에서 4개의 토큰 뒤에 위치.
3. WORD HOP: 마커가 동사에서 4개의 단어 뒤에 위치(구두점 제외).
이 섹션에서는 언어 모델의 학습 한계를 검증하기 위해 다양한 불가능한 언어를 설계했습니다. 각 언어는 구조적 정보, 정보 지역성, 그리고 학습 가능성에 따라 구분되며, 모델의 학습 성능을 비교 분석할 수 있는 테스트베드 역할을 합니다.
이 연구는 GPT-2 모델을 사용하여 설계된 불가능한 언어들의 학습 가능성을 평가했습니다. 세 가지 주요 실험이 수행되었습니다.

💡 Perplexity란?
Cross Entropy에 Log제거한 값임. 유도과정은 블로그 내에 GPT-1논문리뷰에 있습니다!
📲 논문에서 Surprisal 측정 방법
1. Marker Surprisal
Marker Surprisal은 동사 표지(S 또는 P)가 나타날 확률을 기반으로 측정됩니다. 이 값은 모델이 특정 위치에서 동사 표지가 나타날 것을 얼마나 기대했는지를 나타냅니다.공식:
여기서:
- : 동사 표시(S 또는 P).
- : 표지가 등장하기 전까지의 문맥
- : 주어진 문맥에서 모델이 마커를 예측할 확률
의미:
- 낮은 Marker Surprisal: 모델이 문맥에서 마커(S 또는 P)가 나타날 가능성(정답)을 높게 평가.
- 높은 Marker Surprisal: 모델이 해당 위치에 마커가 나올 것을 예상하지 못함.
예제:
문장: He cleans S his books.
- Surprisal 계산:
만약 모델이S를 예측했을 확률이 높다면 값은 낮음2. Surprisal Difference
Surprisal Difference는 동사 표지(S 또는 P)가 문장에서 예상 위치에 등장했을 때와 등장하지 않았을 때의 surprisal 값 차이를 나타냅니다.
- 공식:
_- 여기서:
- : 표지가 예상 위치에 있을 때의 Surprisal.
- _: 표지가 없는 경우, 바로 다음 단어의 Surprisal.
- 의미:
- 큰 Surprisal Difference(ΔS값이 크다): 모델이 문법 규칙에 따라 표지가 등장해야 한다고 강하게 기대하고 있음.
- 작은 Surprisal Difference(ΔS값이 작다): 모델이 해당 규칙을 학습하지 못했거나 규칙이 약함.
- 예제:
- 문장:
He cleans S his books.
- 정상적인 경우 (S가 있음): 값 계산.
- marker가 없을 경우(
He cleans _ his books): S(his)값 계산.- Surprisal Difference:
- 가 클수록 모델이 표지의 부재에 놀랐음을 의미


Figure 4
1. 입력 문장(Base Input):
- Singular subject: The man be
- 이 입력에서 모델은 S(singular 동사 표지)를 예측해야 합니다.
- 소스 문장(Source Input):
- Plural subject: The men be
- 이 입력에서는 모델이 P(plural 동사 표지)를 예측해야 합니다.
- Interchange Intervention:
- 두 입력의 특정 레이어와 토큰 위치의 내부 표현을 서로 교환(interchange)한 후, 모델의 예측이 어떻게 변하는지 분석.
- 예: The man be의 2번째 레이어에서 2번째 토큰 위치의 표현을 The men be에서 가져옴.
- 결과:
- 교환 후, base input이 S 대신 P를 예측 → 특정 레이어와 토큰 위치가 모델의 예측에 중요한 영향을 미친다는 것을 보여줌.
td: Determiner (관사) 위치 (예: The).ts: Subject (주어) 위치 (예: man).tv: Verb (동사) 위치 (예: be).t1, t2, ..., t4: 동사와 동사 표지(S 또는 P) 사이의 간격(TOKEN HOP 및 WORD HOP에서만 해당).
1. NO HOP 모델
- 초기 단계:
- 하위 레이어에서 주어 위치(
ts)가 높은 IIA를 보임 → 주어의 단수/복수 정보가 초기에 추출됨.- 후기 단계:
- 상위 레이어에서 정보가 동사 표지 위치로 전달(
t4에서 높은 IIA).- 결론:
- 자연스러운 규칙을 잘 학습하며, 정보가 적절히 처리되고 전달됨.

2. TOKEN HOP 모델
- 초기 단계:
- 주어 위치(
ts)에서 단수/복수 정보가 추출됨.- 중간 단계:
- 중간 레이어에서 정보가 동사와 표지 사이 간격(
t1~t4)으로 전달.- 후기 단계:
- 상위 레이어에서 동사 표지 위치로 정보가 결합되어 높은 IIA를 달성.
- 결론:
- TOKEN HOP 모델은 NO HOP보다 복잡한 규칙을 학습하지만, 간격 정보를 유지하며 규칙을 처리함.

3. WORD HOP 모델
- 초기 단계:
- 주어 위치(
ts)에서 단수/복수 정보가 추출되지만, TOKEN HOP보다 낮은 IIA를 보임 → 정보 추출이 더 어려움.- 중간 및 상위 레이어:
- 간격(
t1~t4)과 동사 표지 위치로 정보가 전달되지만 높은 IIA를 달성하는 데 더 많은 레이어가 필요.- 결론:
- WORD HOP 모델은 규칙이 복잡해 학습 효율이 낮음.
이 실험들은 GPT-2 모델이 불가능한 언어를 학습하는 데 어려움을 겪는다는 점을 명확히 보여줍니다. 이는 LLM이 인간 언어와 더 유사한 학습 경향을 가지며, 모델 구조 및 학습 메커니즘에 대한 추가 연구의 필요성을 강조합니다.