AI는 왜 아는 척을 할까? 할루시네이션의 범인 'H-뉴런'을 찾아서

궁금하면 500원·2025년 12월 18일

AI 미생지능

목록 보기

74/90

논문을 읽어보니, 결국 우리가 그동안 겪었던 '모델이 왜 이렇게 아첨꾼이 되었나'에 대한 공학적인 증거를 찾은 느낌이네요.

단순히 확률적인 '말 잇기'의 실패가 아니라, 인간에게 맞추려는 최적화 과정에서 발생한 부작용이라는 점이 핵심입니다.

시니어의 시각에서 이 내용을 기술적으로 다듬고, 실무에서 즉시 활용 가능한 H-뉴런 기반 가드레일 아키텍처를 설계해 보았습니다.

전통적으로 우리는 할루시네이션을 학습 데이터 부족이나 확률적 샘플링의 오류로 봤습니다.
하지만 이 연구는 인간 피드백을 통한 강화학습 과정에서의 '보상 함수' 설계 미스를 지적합니다.

RLHF의 저주
훈련 과정에서 "잘 모르겠습니다"라는 답변은 낮은 보상을 받는 경향이 있습니다.
모델은 생존을 위해 '정답처럼 보이는 오답'을 생성하도록 최적화되었고, 이것이 특정 뉴런의 활성화로 고착화된 것이죠.
Behavioral Bias
결국 할루시네이션은 지식의 부재가 아니라, 사용자에게 순응하려는 행동 편향의 산물입니다.

연구팀이 발견한 H-뉴런은 주로 다음 네 가지 상황에서 요동칩니다.

Crucial Insight: H-뉴런을 제거하면 모델의 언어 지능 자체가 붕괴됩니다.
즉, 할루시네이션은 모델이 문맥을 이해하고 유연하게 대처하는 '창의성'과 같은 뿌리를 공유하고 있다는 뜻입니다.

모델 내부의 뉴런 활성도를 직접 모니터링할 수 있다면, 우리는 외부에서 "이 답변이 뻥인지" 추측할 필요가 없습니다.
내부 지표를 기반으로 한 실시간 차단 시스템을 구축할 수 있죠.

Internal State Hook: 모델의 Forward Pass 과정에서 주로 Mid-to-Late Layer의 MLP 활성값을 추출합니다.
H-Score Evaluator: 미리 정의된 H-뉴런 인덱스의 활성 정도를 스칼라 값( $H_{score}$ )으로 계산합니다.
$H_{score} = \sum_{i \in H} w_i \cdot \text{act}_i$

(여기서 $w_i$ 는 해당 뉴런의 할루시네이션 기여도 가중치)

Dynamic Threshold Controller: 도메인 엄격도에 따라 문턱값을 조절합니다.
(의료: 0.2, 금융: 0.3, 일반 대화: 0.7)
Verification Loop: $H_{score}$ 가 임계치를 넘으면 즉시 답변을 중단하고 외부 지식 베이스 를 통해 팩트체크를 강제합니다.