[NLP] CS224N 18강 정리 [NLP, Linguistics, Philosophy]

김성윤(Jack)·2025년 9월 3일

NLP

목록 보기
20/35

1. CS224n의 핵심 아이디어 및 미해결 과제

1) 네 가지 핵심 아이디어 요약

  • 밀집 표현 (Dense Representations): 단어의 의미는 그 단어가 사용되는 맥락을 통해 파악할 수 있다는 분포 의미론(Distributional Semantics)에 기반합니다. 이는 단어를 고차원 공간의 밀집 벡터(Dense Vector), 즉 단어 벡터(Word Vector)로 표현하는 현대 NLP의 근간이 되었습니다.
  • 심층 신경망 (Deep Neural Networks): 초기 피드포워드 네트워크에서 RNN, LSTM을 거쳐 트랜스포머(Transformer)에 이르기까지, 대규모 심층 신경망을 효과적으로 훈련시키는 기법들(예: 잔여 연결(Residual Connections))이 발전하며 NLP 시스템의 성능을 비약적으로 향상시켰습니다.
  • 사전 훈련 (Pre-training): 언어 모델링(Language Modeling), 즉 다음에 올 단어를 예측하는 단순한 작업만으로도 모델이 방대한 언어적, 세계적 지식을 학습할 수 있다는 사실이 발견되었습니다. 이는 사전 훈련된 모델을 특정 과제에 맞게 사후 훈련(Post-training) 또는 미세조정(Fine-tuning)하는 패러다임을 열었습니다.
  • 스케일링 법칙 (Scaling Laws): 모델의 크기, 데이터 양, 컴퓨팅 파워를 늘릴수록 모델의 성능이 예측 가능하게 선형적으로 향상되는 현상이 관찰되었습니다. 이는 GPT-4와 같은 초거대 모델의 등장을 이끌었습니다.

2) 아직 해결되지 않은 문제들

  • 일반화 vs. 암기: 현재 모델들이 진정한 의미에서 일반화(Generalization) 능력을 갖춘 것인지, 아니면 훈련 데이터를 단순히 암기(Memorization)하는 것인지에 대한 논쟁이 계속되고 있습니다. 일부 연구에서는 트랜스포머가 LSTM보다 일반화 능력이 떨어진다고 지적하기도 합니다.
  • 모델 해석 가능성: 신경망은 내부 작동 방식을 이해하기 어려운 "블랙박스(Black Box)" 모델입니다. 모델이 특정 결정을 내리는 과정을 이해하려는 "메커니즘적 해석 가능성(Mechanistic Interpretability)" 연구가 중요한 과제로 남아있습니다.
  • 다국어 처리의 한계: 대부분의 모델은 영어 중심적으로 개발되어, 데이터가 부족한 소수 언어(Low-resource languages)에서는 성능이 크게 저하됩니다. GPT-4는 다국어 성능이 향상되었지만, 여전히 언어 간 성능 불균형 문제가 존재합니다.
  • 벤치마크 오염 (Benchmark Contamination): 모델의 성능을 평가하는 벤치마크 데이터가 사전 훈련 데이터에 포함되어, 모델이 문제를 푸는 것이 아니라 정답을 외우는 현상에 대한 우려가 제기됩니다.
  • 특정 도메인의 한계: 법률, 의료 등 전문 분야에서는 언어 모델이 잘못된 정보를 사실처럼 생성하는 환각(Hallucination) 현상이 심각한 문제를 야기할 수 있습니다. 한 연구에서는 법률 분야 LLM의 환각률이 1/6에 달하는 것으로 나타났습니다.
  • 사회/문화적 편향: 훈련 데이터에 내재된 사회적, 문화적 편향을 모델이 그대로 학습하고 증폭시킬 수 있다는 점은 심각한 윤리적 문제를 낳습니다.

2. 대규모 언어 모델(LLM)의 현황: 마법과 한계

1) 놀라운 능력 (The Magic)

  • 창의적 작업 수행: GPT-4는 특정 운율을 지키고 모든 문장이 특정 알파벳으로 시작하는 소네트를 작성하는 등, 복잡하고 창의적인 요구사항을 성공적으로 수행하는 능력을 보여줍니다.
  • 생산성 향상: 보스턴 컨설팅 그룹(BCG)의 연구에 따르면, GPT-4를 활용한 컨설턴트 그룹은 그렇지 않은 그룹에 비해 작업 완료량 12% 증가, 속도 25% 증가, 결과물 품질 40% 향상이라는 놀라운 생산성 향상을 보였습니다. 이는 LLM이 실제 업무 환경에서 강력한 도구가 될 수 있음을 시사합니다.

2) 명확한 한계 (The Limitations)

  • 창의성의 질: 다른 연구에서는 GPT-4의 창의적 글쓰기 능력이 전문 작가에 비해 현저히 떨어진다고 평가하며, 아직 인간의 독창성과 깊이를 따라잡지 못함을 보여줍니다.
  • 과대광고와 현실: 파이낸셜 타임즈 기사에서 지적하듯, 제너레이티브 AI에 대한 시장의 기대는 과열된 측면이 있습니다. 모델의 한계, 높은 운영 비용, 그리고 불확실한 수익 모델은 여전히 해결해야 할 과제입니다.

3) 심화: 트랜스포머와 GPT-4

  • 기술적 배경 (트랜스포머): 트랜스포머의 핵심은 어텐션 메커니즘(Attention Mechanism)입니다. 이는 문장 내 단어들의 관계를 한 번에 병렬적으로 계산하여 어떤 단어가 다른 단어에 얼마나 중요한지를 파악하는 방식입니다. RNN처럼 순차적으로 데이터를 처리할 필요가 없어 병렬화에 유리하며, 문장 내 멀리 떨어진 단어 간의 의존성을 효과적으로 학습할 수 있습니다. 이것이 바로 트랜스포머가 긴 시퀀스(sequence)를 처리하는 데 뛰어난 성능을 보이는 이유입니다.
  • 최신 동향 및 한계점 (GPT-4 이후): GPT-4와 같은 거대 모델의 성공 이후, 최근에는 특정 작업에 특화된 더 작고 효율적인 모델을 만들려는 경향도 나타나고 있습니다. 이는 막대한 컴퓨팅 자원과 비용 문제를 해결하기 위한 대안으로 주목받고 있습니다. 또한, 모델의 출력을 외부 데이터베이스나 API와 연결하여 환각(Hallucination)을 줄이고 사실성을 높이는 검색 증강 생성(Retrieval-Augmented Generation, RAG)과 같은 기술이 활발히 연구되고 있습니다. 하지만 여전히 복잡한 추론, 상식의 부족, 데이터에 내재된 편향 등은 LLM이 극복해야 할 명확한 한계점으로 남아있습니다.

3. AI의 두 가지 전통: 기호 시스템 vs. 신경 시스템

1) 기호주의 AI (Symbolic AI)

  • 핵심 아이디어: 지능은 기호(Symbol)를 규칙에 따라 조작(Manipulation)하는 과정이라고 봅니다. 이는 인간의 논리적 사고 과정을 컴퓨터로 구현하려는 접근 방식입니다.
  • 물리적 기호 시스템 가설 (Physical Symbol System Hypothesis): 앨런 뉴웰(Allen Newell)과 허버트 사이먼(Herbert Simon)이 제시한 이 가설은 "물리적 기호 시스템은 일반 지능 행동을 위한 필요충분조건을 갖는다"고 주장하며, 고전 AI 연구의 철학적 기반이 되었습니다.
  • 특징: 규칙 기반 시스템으로, 작동 원리가 명확하고 해석 가능하지만, 현실 세계의 복잡하고 애매한 문제들을 다루는 데 취약합니다.

2) 연결주의 AI (Connectionist AI)

  • 핵심 아이디어: 지능은 수많은 간단한 처리 장치(뉴런)들이 서로 연결되어 상호작용하는 과정에서 창발(emerge)한다고 봅니다. 이는 뇌의 작동 방식에서 영감을 얻은 접근법입니다.
  • 사이버네틱스 (Cybernetics): 노버트 위너(Norbert Wiener)가 주도한 이 전통은 제어와 통신 이론에 뿌리를 두고 있으며, 로젠블라트의 퍼셉트론(Perceptron)과 같은 초기 신경망 연구의 이론적 기반이 되었습니다.
  • 특징: 데이터로부터 패턴을 학습하며, 복잡하고 불분명한 문제에 강하지만, '블랙박스'처럼 작동 원리를 이해하기 어렵습니다. 현재의 심층 신경망(Deep Neural Networks)이 이 전통에 속합니다.

3) 언어학과 NLP의 관계

  • 언어는 기호 시스템: 인간의 언어는 명백히 기호 시스템의 특성을 가집니다. 하지만 인간의 뇌가 반드시 기호 처리기처럼 작동하는 것은 아니며, 신경망 모델이 언어 처리의 복잡성을 더 잘 포착할 수 있습니다.
  • 언어학의 기여: 언어학은 구성성(Compositionality), 체계적 일반화(Systematic Generalization) 등 언어에 대한 깊은 통찰력을 제공하며, 이는 더 발전된 AI 모델을 설계하는 데 중요한 영감을 줍니다.
  • 언어와 인간 지능: 빌헬름 폰 훔볼트(Wilhelm von Humboldt)의 "인간 언어는 유한한 수단으로 무한한 활용을 해야 한다"는 말처럼, 언어는 인간이 고차원적인 사고를 할 수 있게 만드는 핵심적인 "사고의 도구(Thinking Tool)"입니다.

4. 의미란 무엇인가?: 두 가지 의미 이론

1) 지시론적 의미론 (Denotational Semantics)

  • 핵심 아이디어: 단어의 의미는 그 단어가 현실 세계에서 지시하는 대상(Denotation)에 있다고 보는 견해입니다. 예를 들어, '고양이'라는 단어의 의미는 실제 세상에 존재하는 고양이 그 자체입니다.
  • 모델 이론적 의미론 (Model-Theoretic Semantics): 리처드 몬테규(Richard Montague)와 같은 학자들은 자연어를 수학적 논리와 같은 형식 언어로 분석하여 그 의미를 명확하게 정의하려고 시도했습니다. 이 접근법은 문장을 구문 분석하고, 각 단어의 의미를 조합하여 전체 문장의 의미를 구성하는 방식으로, 과거 기호주의 NLP에서 널리 사용되었습니다.
  • 한계: 매우 제한된 영역에서는 효과적이었지만, 언어의 모호성, 중의성, 비유적 표현 등 현실 언어의 복잡성을 다루는 데에는 매우 취약했습니다.

2) 사용 이론적 의미론 (Use Theory of Meaning)

  • 핵심 아이디어: 단어의 의미는 그 단어가 사용되는 방식과 맥락에 의해 결정된다는 견해입니다.
  • 비트겐슈타인의 관점: 후기 철학에서 루트비히 비트겐슈타인(Ludwig Wittgenstein)은 "의미는 사용이다(Meaning is use)"라고 주장하며, 의미가 언어 외부의 대상에 고정되어 있다는 생각을 비판했습니다.
  • "단어는 그 주변 단어를 통해 알 수 있다": J. R. 퍼스(Firth)의 이 말은 사용 이론의 핵심을 요약하며, 이는 현대 NLP의 기반이 되는 분포 의미론과 정확히 일치합니다. 단어의 의미는 고정된 실체가 아니라, 다른 개념(시각, 소리, 문화적 맥락)들과의 연결망 속에서 형성되는 점진적(gradient)인 개념으로 볼 수 있습니다.

5. AI의 미래와 사회적 위험

1) 반복되는 우려와 실제 위협

  • 일자리 손실 문제: AI로 인한 대규모 실업 우려는 새로운 것이 아니며, 과거 기술 혁명 때마다 반복되었습니다. 하지만 기술 발전은 기존 일자리를 대체하는 동시에 새로운 일자리를 창출하고 전반적인 생활 수준을 향상시켜 왔습니다.
  • 부의 집중: 진짜 문제는 일자리 손실보다, AI 기술을 독점한 소수의 거대 기술 기업에 부와 권력이 집중되는 것입니다. 이는 기술적 문제라기보다는 정치적, 사회적 리더십을 통해 해결해야 할 과제입니다.
  • "AI 실존적 위험" 논의의 허점: 인공 일반 지능(AGI)이 인류를 위협할 것이라는 '특이점(Singularity)'이나 '실존적 위험(Existential Risk)' 담론은 과장된 측면이 있습니다. 이러한 논의는 AI 기술이 현재 야기하고 있는 실제적인 해악(편향, 노동 착취, 가짜 정보, 권력 집중 등)으로부터 대중의 주의를 돌리려는 의도가 있을 수 있습니다.

2) 우리가 지금 직면한 위험들

  • 가짜 정보 (Disinformation): AI는 매우 설득력 있는 가짜 뉴스나 허위 정보를 대량으로 생성하고 유포할 수 있습니다. 특히 개인 맞춤형으로 제작된 가짜 정보는 민주주의와 사회 시스템에 심각한 위협이 될 수 있습니다.
  • 권력자에 의한 악용: 가장 큰 위험은 AI 기술 자체가 아니라, 권력을 가진 개인이나 조직이 AI를 통제와 감시의 도구로 악용하는 것입니다.
  • 칼 세이건의 경고: 칼 세이건은 『악마가 출몰하는 세상』에서 "기술력이 소수의 손에 집중되고, 대중이 권위자에게 지식적으로 질문할 능력을 상실할 때, 우리는 미신과 어둠 속으로 미끄러져 들어갈 것"이라고 경고했습니다. 이 경고는 오늘날 우리가 직면한 가장 현실적인 위험을 정확히 짚어내고 있습니다. 이를 막기 위해서는 교육의 확대오픈 소스의 활성화가 무엇보다 중요합니다.
profile
AI 공부합니다

0개의 댓글