인공지능의 시작: 퍼셉트론(Perceptron)

calico·2025년 11월 16일

목록 보기

107/186

https://sacko.tistory.com/10
https://www.letr.ai/ko/blog/story-20211119-1
https://www.dginclusion.com/news/articleView.html?idxno=614

프랭크 로젠블랫(Frank Rosenblatt)의 퍼셉트론(Perceptron)

로젠블랫이 염두에 둔 '퍼셉트론'의 진짜 의미는 지각과 인지를 위한 신경계 모형의 한 부류였다. 로젠블랫이 뇌를 강조한 것은 놀랍지 않았다. 시지각 분야의 권위자인 제임스 깁슨과 함께 연구한 적이 있었으니 말이다.

제임스 깁슨 (James J. Gibson, 1904~1979)

미국의 저명한 지각 심리학자로, 생태학적 심리학을 창시한 인물입니다.
주요 업적
- 인간의 지각이 환경과 행위자 간의 관계에서 비롯된다는 새로운 관점을 제시했습니다.
- 디자인 분야에서 널리 알려진 개념인 '어포던스(affordance, 행동유도성)'라는 용어를 처음 만들었습니다.
- 주요 저서로 『시각적 세계의 인식』(1950), 『시지각에 대한 생태학적 접근』(1979) 등이 있습니다.

프랭크 로젠블랫 (Frank Rosenblatt, 1928~1971)

미국의 심리학자이자 인공지능(AI) 연구자로, 인공 신경망의 아버지로 불립니다.
주요 업적
- 최초의 인공 신경망 알고리즘인 퍼셉트론(Perceptron) 개념을 1957년에 제안하고, 1958년 실제 기계로 구현했습니다.
- 그의 연구는 현대 딥러닝 기술 발전의 중요한 이론적 토대가 되었습니다.
- 마빈 민스키와 함께 인공지능 분야의 초기 기호주의와 연결주의 논쟁을 이끌었습니다.

여기에서 '학습'은 데이터의 패턴에 대한 학습이지, 우리가 고차원적인 인간 인지와 연관짓는 종류의 합습이 아니다.

헤브 학습(Hebian learning)
"함께 발화하는 신경세포는 하나로 연결된다."
이 사고방식에 따르면 우리 뇌가 학습하는 이유는 한 신경세포의 출력이 다른 신경세포의 발화와 일관되게 연관될 때는 신경세포 사이의 연결이 강해지고 그렇지 않을 때는 약해지기 때문이다.

그의 인공 신경세포는 재구성이라는 방법으로 학습하며 정보를 연결의 세기로 구체화한다.

퍼셉트론(Perceptron)

퍼셉트론은 실수로부터 배워 가중치와 편향을 조정한다.

퍼셉트론은 1957년 Rosenblatt이 최초로 고안한 인공 신경망의 가장 초기 형태이다.
신경계 구조(뉴런)를 모방한 방식으로, 여러 입력(Input) 을 받아 하나의 출력(Output) 을 내는 구조를 가진다.
입력 신호는 각각 가중치(weight) 를 가지며, 입력의 선형 결합이 특정 임계값(θ, theta)을 넘으면 1, 넘지 못하면 0 또는 -1을 출력한다.

퍼셉트론의 기본 수식

퍼셉트론의 출력은 다음과 같이 표현된다.

y = \begin{cases} 1 & \text{if } \sum_i w_i x_i \ge \theta \\ 0 & \text{otherwise} \end{cases}

$x_i$ : 입력
$w_i$ : 입력에 대한 가중치
$\theta$ : 임계값

개념적 이해

가중치(weight)가 클수록 해당 입력의 중요도가 높다.
퍼셉트론은 선형 분류기(linear classifier) 로, 입력 벡터의 선형 조합을 이용한다.
선형 분류란, 평면 위에 ‘선 하나’를 그어 두 집단을 나누는 방식이다.

2. 퍼셉트론의 학습 방법

퍼셉트론은 처음에 임의의 가중치로 시작한다.
학습 데이터가 들어오고, 오분류된 경우 다음 규칙에 따라 가중치를 업데이트한다.

퍼셉트론 학습 규칙

w_i \leftarrow w_i + \eta (t - y)x_i

$t$ : 정답(label)
$y$ : 현재 퍼셉트론 출력
$\eta$ : 학습률(learning rate)

오답을 낼 때마다 가중치를 수정하며, 선형적으로 구분 가능(linearly separable) 한 데이터라면 언젠가 모든 분류를 완벽하게 수행하는 가중치를 찾을 수 있다.

3. 가중치(weight)와 편향(bias)

퍼셉트론 수식의 임계값 $\theta$ 는 다음과 같이 bias $b$ 로 바꿔 표현할 수 있다.

\sum_i w_i x_i \ge \theta \iff b + \sum_i w_i x_i \ge 0

여기서 $b$ 가 바로 편향(bias) 이다.

역할

가중치(weight): 입력 신호의 중요도를 조절하는 매개변수
편향(bias): 뉴런이 얼마나 쉽게 활성화될지를 조절하는 값 (경계선의 위치 이동)

편향–분산 트레이드오프 연결

편향이 높으면: 모델 단순 → 과소적합(underfitting) 위험
편향이 낮으면: 모델 복잡 → 과적합(overfitting) 위험

편향과 분산은 서로 교환 관계이며, 모델 복잡도 조절의 핵심이 된다.

4. 퍼셉트론의 한계점

단층 퍼셉트론: 선형 분류만 가능 → XOR 불가능

다층 퍼셉트론: 비선형 활성화를 통해 해결 → 현대 신경망의 기반

퍼셉트론은 선형 분류만 가능하다. 따라서 다음과 같은 문제를 해결할 수 없다.

XOR 문제

XOR은 다음의 진리표를 가진다.

x1	x2	y
0	0	0
1	0	1
0	1	1
1	1	0

이 점들을 평면에 그리면 직선 하나로 분리 불가능하다.
- 즉, 단층 퍼셉트론(single-layer perceptron)은 XOR을 절대 학습할 수 없다.

5. 다층 퍼셉트론(MLP)을 통한 한계 극복

단층 퍼셉트론이 처리하지 못하는 XOR 문제도, 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 구조를 사용하면 해결할 수 있다.
MLP는 다음과 같은 구조를 갖는다.
- 입력층(Input layer)
- 은닉층(Hidden layer)
- 출력층(Output layer)
은닉층에서 비선형 함수(activation function)를 사용하면 입력 공간을 비선형적으로 변형하여 선형 분리 불가능한 문제도 해결할 수 있다.

calico

All views expressed here are solely my own and do not represent those of any affiliated organization.