Learning representations by back-propagating errors

JY·2025년 12월 19일

논문정리

목록 보기

5/9

수식은 모르겠고 일단 이해부터 하고자 정리하는 글

논문 좀 읽어보려는데 Σ, ∂, ∇... 수식만 보면 현기증이 나서 덮기를 수십 번 도저히 안 되겠다 싶어서 제미나이, gpt, 클로드랑 이게 맞니 저게 맞니 하면서 얘기하다가 나옴.

1. 역전파는 "내리갈굼"이다

신경망의 학습 과정은 흑백요리사인데 요리사 혼자 나오는게 아니라 직원들도 다 나오는 그런 흑백요리단(가칭)이랑 같다고 생각한다.

상황: 순전파 (Forward)

구조: 재료 손질담당 직원(Input) → 수셰프(Hidden) → 메인 셰프(Output) → 심사위원

사건: 심사위원이 한 입 먹더니 "당신은 저희와 함께 갈 수 없게 되었습니다. 간이 이븐하지 않네요"

해결: 역전파 (Backpropagation)

이때 간을 맞추는것(수정)은 요리의 순서대로 하는 게 아님, 대부분의 문제는 그깟 염화나트륨을 어디서 누가 얼마나 더 넣었는가 아닌가에서 시작됨.

심사위원이 메인 셰프에게 함께 할 수 없다고 얘기함.

메인 셰프는 바로 수셰프를 갈굼.
"야, 내가 괜찮다고 하긴 했는데... 애초에 네가 전체 간을 확인했어야지!"

수셰프는 재료 담당을 갈굼.

결국 결과값의 오차를 입력 방향으로 거슬러 올라가며 "네가 잘못한 지분만큼 고쳐!"라고 내리갈굼 하는 과정. 이게 역전파임.

2. 내리갈굼을 위한 도구들

이 갈굼 시스템을 수학적으로 구현한 도구들도 주방 용어로 정리됨.

① 편미분 (Partial Derivative) : 핀셋 수사

주방에 재료(가중치)가 수천 개임. 다짜고짜 화내는 게 아니라, "다른 재료 다 멈춰, 소금 딱 한톨만 더 넣어봐" 하고 테스트함.
소금을 건드렸을 때 맛(Loss)이 확 변함? 그럼 얘가 주범임. 이렇게 범인을 핀셋으로 집어내는 과정.

② 체인룰 (Chain Rule) : 갈굼의 나비효과

내리갈굼이 끊기지 않게 연결하는 고리임.
(내가 윗사람한테 1마디 잔소리 들음) × (나는 내 아랫사람 2마디 잔소리 함) = 총 2배의 충격.
이 배율이 곱해지며 맨 밑바닥 직원(Input Layer)까지 갈굼이 전달됨.

③ 경사하강법 (Gradient Descent) : 갈굼의 강도 조절

적당한게 중요하듯이 얼마나 잔소리를 할건지 조절해야함

너무 세게 갈구면 직원이 풀이 죽어서 소금을 아예 안 넣어버림. (발산)
너무 약하게 갈구면 직원이 기고만장해서 씹음. (수렴 안 함)

그래서 학습률(Learning Rate)이라는 셰프의 그날 기분에 따라서 갈굼 정도를 조절함 경사가 가파른 방향으로 적당한 보폭으로 내려가는 마치 산에서 길 찾는 것처럼.

④ 활성화 함수 : 갈굼의 정밀도

갈굼도 방식이 중요함.

예전 퍼셉트론은 계단 함수를 썼음. 0 아니면 1. "합격/불합격"만 있는 평가 방식. 문제는 이게 미분이 안 됨. "불합격이야" 까지는 알겠는데, 얼마나 못했는지를 모름. 그럼 뒤로 책임을 얼마나 넘겨야 하는지도 계산이 안 됨.

그래서 논문이 들고 온 게 시그모이드 함수. 0과 1 사이를 부드럽게 연결하는 S자 곡선임. 이제 "너 70점, 쟤 30점" 같은 점수제가 가능해짐. 갈굼을 제대로 전달하려면 이렇게 "미분 가능한" 점수 체계가 필수.

⑤ Bias (상수항) : 라면 스프

수식 y = wx + b에서 b임 이건 셰프가 몰래 주머니에 넣고 다니는 기적의 밑간(라면 스프).
재료(x)가 안 들어와도 기본적으로 나는 맛. 요리가 망했으면 재료 비율(w)만 고칠 게 아니라 이 기본 스프 양(b)도 같이 조절해야 함.

3. 은닉층은 "종이접기"다

직원이 한 명(단층 퍼셉트론)이면 멍청해서 XOR 문제를 못 품.
라면(1)도 맛있고 초콜릿(1)도 맛있으니까, "섞으면(1+1) 더 맛있겠지?"라는 기적의 논리로 괴식을 내놓음. 직선 하나로는 이걸 못 가름.

그래서 수셰프(은닉층)가 필요함.
수셰프는 잘 돌아갈 때는 잘 안 보임. 근데 갈굼 받을 때 나타나서 상황정리를 함 이때 수셰프가 고민하는 건 "어떻게 해야 가장 빨리 수습되지?"임 최단거리를 찾는 거.

여기서 종이접기가 생각이 났는데 2차원 종이에 찍힌 점들이 멀리 떨어져 있으면 종이를 접어서 겹쳐버림 웜홀마냥 공간 자체를 구겨서 거리를 없애버림.
종이를 기가 막히게 접어놓으면(은닉층) 가위질 한 번(출력층)으로 구멍을 뚫어서 정답을 맞출 수 있음.

근데 진짜 무서운 건 따로 있음.

예전에는 메인셰프가 레시피를 다 짜줬음 -"소금 3그램, 설탕 2그램, 불 세기는 중불로 7분" 이런 식으로.

근데 역전파로 학습시키니까 -수셰프들이 알아서 손맛을 터득함 메인셰프가 가르쳐주지도 않은 비법을 스스로 개발해낸 거임.

논문 제목이 "Learning representations by back-propagating errors"인 이유가 이거임. 갈굼 받으면서 각자 알아서 자기만의 요리법(representation)을 익혀간다는 거.

4. 이 비유의 한계

물론 완벽한 비유는 없다

실제로는 동시다발적임. 현실 주방과 달리 신경망의 갈굼은 모든 직원에게 병렬로 동시에 전달됨 한 명씩 순차적으로 혼내는 게 아님.

갈굼이 사라지기도 함. 층이 너무 깊으면 갈굼이 전달되다가 희미해져서 맨 밑 직원은 "알겠는데 뭘 얼마나 고치라고요?" 상태가 됨. (기울기 소실 문제)

더 좋은 평가산식 나옴. 시그모이드는 역사적 의의가 있지만, 요즘은 ReLU 같은 더 효율적인 활성화 함수 씀.

그래도 핵심은 변하지 않음.

역전파는 다음시즌에는 합격하기를 바라는 내리갈굼이고
은닉층은 그 과정에서 스스로 똑똑해지는 종이접기 기술임.

평생 애처럼 살고싶습니다

이전 포스트

Marvin Minsky and Seymour Papert - Perceptrons

다음 포스트