🔆 본 논문은 AI 모델에서 윤리적 행동을 가능하게 하기 위한 필요성을 설명하며, 현재 윤리적 원칙을 정의하거나 학습하는 방법론이 각각 제한점을 가지고 있다는 것을 지적한다.
이에 상징적 판단 에이전트와 학습 에이전트를 결합한 새로운 하이브리드 접근 방식을 제안하며, 이를 통해 AI 에이전트가 다중 에이전트 환경에서 윤리적 행동을 학습하고 적용할 수 있게 한다.
Moor는 “로봇이 점점 자율성을 가지게 되면서 우리는 이들에게 더 많은 윤리적 능력을 부여해야 한다”라고 말한다.
더욱이 윤리적 임팩트 에이전트 개념을 도입하여, 인간 사회에 통합될 때 AI 에이전트가 미칠 윤리적 영향을 고려하는 중요성을 언급한다.
🔆
윤리적 임팩트 에이전트란?
그 행동이 인간이 삶에 영향을 미칠 때 윤리적 관점에서 평가될 수 있는 AI 시스템을 의미한다. 이러한 에이전트는 특정 윤리적 규칙을 준수하여 행동하거나 인간의 가치를 기반으로 행동을 선택할 수 있다.
ex. 환자의 안전과 자율성을 존중하며 치료 결정을 내리는 의료 로봇, 사고를 피하기 위한 선택을 내릴 때 윤리적 기준을 고려하는 자율 주행 자동차.
그러나 기존 접근법에는 한계가 있다.
Top-down 방식의 경우 전문가의 지식을 바탕으로 윤리 규칙을 명시적으로 정의하지만 새로운 상황에 적용하는 능력이 제한적이며 Bottom-Up의 방식은 데이터를 통해 윤리적 행동을 학습하지만 결과물의 해석 가능성이 낮다는 단점이 있다.
이러한 연구의 문제를 극복하기 위해 상징적 판단 에이전트와 학습 에이전트를 결합한 하이브리드 접근법을 제안한다. 해당 접근법은 규칙 기반의 상징적 에이전트를 이용해 학습 에이전트의 행동을 평가하고, 학습 에이전트가 동적으로 윤리적인 행동을 학습하도록 돕는다.
윤리와 AI(Ethics and AI)
기계 윤리는 ‘기계가 인간 사용자 및 다른 기계와 상호작용하는 방식’에 중점을 두며, 윤리적 원칙에 의해 가이드되는 기계를 만드는 것을 목표로 한다.
기존에는 소개에서 말했듯 세 가지 정도의 접근법이 있는데, 윤리 규칙을 먼저 정의하고 이에 맞춰 윤리적 행동을 보장하는 Top-down방식, 데이터를 통해 윤리적 행동을 학습하는 Bottom-up 방식, 마지막으로 이 두 방식을 결합한 Hybrid 방식이다.
Multi-Agent Hybrid Neuro-Symbolic AI for Ethics
심볼릭 판단
심볼릭 판단은 상징적인 평가(ex.도덕적, 비도덕적, 중립적)를 학습 에이전트가 사용할 수 있는 숫자 보상 값으로 변환하여 판단을 내리는 방식이다. 주로 윤리적 행동이나 의사결정 과정에서 사용된다.

Figure1 : Abstract architecture of our approach, with human designers implementing rules to judge learners. Learner’s actions modify a shared environment, which impacts humans
해당 구조는 크게 5가지로 나눌 수 있다.
학습 에이전트는 환경에서 행동(Actions)을 수행하며 환경 상태를 변화시킨다. 이 변화된 상태는 판단 에이전트와 이해 관계자에게 영향을 미친다.
판단 에이전트는 학습 에이전트의 행동(Actions)과 환경 상태를 인지(Perceptions)하여 윤리적 판단(Judgement)을 수행하는데, 이 결과는 숫자 보상(Reward)값으로 변환되어 학습 에이전트에 전달된다.
디자이너는 판단 에이전트의 윤리적 규칙을 설계(Implement)하고, 학습 에이전트의 행동 결과를 모니터링(Implements and observes)한다. 만약 필요하다면 윤리적 규칙을 수정하여 시스템의 윤리적 기준을 업데이트한다.
학습 에이전트가 환경에서 수행한 행동은 이해관계자에게 영향을 미치며(ex. 에너지 소비, 자원 분배 등) 이해관계자는 간접적으로 학습 에이전트의 행동과 시스템의 윤리적 기준의 영향을 받는다.
🔆 구조의 특징
1. 학습 에이전트와 판단 에이전트가 분리되어 독립적 설계가 가능하다는 것
2. 디자이너가 시스템의 윤리적 기준을 제어하고 이해관계자의 영향을 고려하는 등 사람 중심 설계가 가능하다는 것
3. 여러 판단 에이전트를 통해 다양한 윤리적 관점에서 학습 에이전트의 행동을 평가한다는 것
확장된 마르코프 의사결정 과정(MDP)를 사용함
확장된?
학습 에이전트는 환경 상태와 자신의 행동이 판단 에이전트에 의해 평가된 피드백(=보상)을 바탕으로 최적의 행동을 학습한다.
MDP에서는 MRP와는 달리 에이전트(a)가 선택한 액션에 따라서 다음 상태가 달라지므로 현재 상태가 이며 에이전트가 액션 를 선택했을 때 다음 상태가 가 될 확률을 정의해야 한다.
주의해야 할 점은, 상태 S에서 액션 a를 선택했을 때 도달하게 되는 상태는 반드시 같지 않다는(결정론적이지 않다는) 점이다. 매번 다른 상태에 도착할 수 있으므로, 액션 실행 후 도달하는 상태 에 대한 확률 분포가 있고 그게 바로 전이확률행렬 P이다.
확률적으로 매번 바뀔 수 있으므로 기댓값을 이용해 표기한다.

출처 : https://velog.io/@hkun_ho/RL-Markov-Decision-Process
해당 예시를 살펴보면, 어머니가 선택할 수 있는 액션은 자장가를 불러주는 액션 a0와 같이 놀아주는 액션 a1이 있다. 눈여겨 볼 부분은 S2에서 같이 놀아주는 a1 을 선택하면 상태에 따라 S1이 될 수도 있고 S0가 될 수도 있다는 점이다.
여기서 보상(R)을 보면 결국 보상의 합을 최대화하기 위해서는 a0만을 해야한다는 것을 알 수 있다. 이렇게 MDP는 간단한 경우 최적의 전략을 찾기 쉽지만, 실제 세계에서 마주하는 MDP는 상태의 개수(S), 액션의 개수(A)가 훨씬 많고 전이확률행렬(P)도 다양하기 때문에 쉽지만은 않다.
학습과 판단 에이전트의 역할
학습 에이전트의 행동을 평가하고, 피드백을 숫자 보상 값으로 변환하여 제공한다.
각 판단 에이전트는 특정 윤리적 가치(ex. 정의, 포용성)에 대해 독립적으로 평가를 수행한다.
학습 에이전트는 다중 에이전트 환경에서 행동을 수행하며, 강화 학습을 통해 최적의 행동 전략(Policy)을 학습한다. 논문에서는 Q-DSOM 알고리즘을 사용하였으며 이는 결정 과정(Decision process)와 학습 과정(Learning process)로 나뉜다.
결정 과정
학습 에이전트가 현재 상태에서 어떤 행동을 수행할지 선택하는 단계

Figure2 : An example of a decision process
결정 에이전트는 상태 s를 입력값으로 받고, 이를 가장 가까운 클러스터 로 매핑한다.
매핑된 클러스터 은 State hypothesis로 사용되어 Q-Table로 넘어간다.
DSOM에서 결정된 상태 u=7에 대해 Q 테이블의 해당 행(State 7)을 참조하고 여러 행동에 의한 Q값을 비교하여 가장 높은 값을 선택한다.
선택된 행동은 행동 DSOM의 클러스터 로 매핑되며 이는 선택된 행동 벡터 를 나타낸다.
선택된 행동 벡터에 랜덤 노이즈를 추가해 탐색을 촉진한다. 이로 인해 학습 에이전트는 최적의 행동만 반복하지 않고, 새로운 행동을 시도하며 더 나은 전략을 탐구한다.
최종적으로 계산된 행동 벡터는 환경에 적용되어 상태 s를 변화시킨다.
학습 에이전트는 이 행동의 결과로 보상을 받고, 이 보상을 사용해 Q-Table과 DSOM의 가중치를 업데이트한다.
🔆DSOM
고차원 데이터를 효율적으로 처리하고, 변화하는 환경에 적용할 수 있는 도구
학습 과정
결정 과정에서 선택한 행동의 결과를 바탕으로 에이전트의 전략(Policy)를 개선하는 단계
🔆정리
행동의 결과를 보고 ‘좋은 행동이었다’고 판단하면 클러스터 업데이트를 통해 그 행동과 유사한 행동을 더 많이 선택할 가능성을 높이고 Bellman 방정식을 이용해 행동의 Q값을 수정한다. 동시에 환경 상태를 나타내는 State DSOM도 업데이트한다.
판단 에이전트는 학습 에이전트가 환경에서 수행한 행동에 대한 윤리적인 평가를 제공해 더 나은 행동을 학습할 수 있도록 피드백을 생성한다.

사진 설명
- VS (Value System) : 가치 시스템을 나타내며 판단 기준이나 윤리적 규칙 포함
- VE (Value Evaluator) : VS의 데이터를 사용해서 입력이나 상황 평가
- (Attitude toward Value) : VE에서 평가된 정보를 기반으로 에이전트가 어떤 가치를 선호하는지 나타냄
- MR(Moral Reasoning) : 도덕적 추론이나 관련 규칙, 정보 저장
- A (Action) : 에이전트가 수행할 수 있는 행동이나 옵션에 관한 데이터 보관
- B(Belief) : 에이전트의 신념이나 세계관
- ME(Moral Evaluator) : A와 B에서 제공된 데이터를 기반으로 도덕적 판단 수행
- (Moral Attitude) : 도덕적 판단을 기반으로 한 에이전트의 태도 형성
판단 에이전트가 생성한 피드백(윤리적 판단 결과)는 학습 에이전트가 행동 전략을 학습하는데 사용되며 숫자 보상 값은 강화 학습 알고리즘을 업데이트하는데 사용된다.
판단 에이전트 vs 학습을 위한 판단
| 판단 에이전트 | 학습을 위한 판단 | |
|---|---|---|
| 주요 역할 | 학습 에이전트의 행동을 평가 | 평가 결과를 학습 에이전트의 학습에 활용 |
| 결과물 | 윤리적 판단(숫자 보상으로 변환) | Q-값 업데이트 및 행동 전략 개선 |
| 사용 알고리즘 | 윤리적 규칙 기반 판단 | 강화 학습 알고리즘 (Bellman 방정식) |
| 결과의 반영 대상 | 학습 에이전트의 행동 품질 평가 | 학습 에이전트의 행동 전략 및 정책(policy |
학습 에이전트의 ‘학습 과정’은 미래 보상을 최대화하는 행동 전략을 학습하는 것으로 스스로 행동의 효율성을 평가하는 것
판단 에이전트는 윤리적 기준이나 외부 규칙에 따라 학습 에이전트의 행동을 평가하는 것
비유해보자면, 학습 에이전트는 목표 지점에 빨리 도달하려는 운전자이고, 판단 에이전트는 교통 경찰처럼 교통 규칙을 평가하고 벌금 또는 보상을 제공하는 역할. 운전자(학습 에이전트)가 목표를 달성하려면 경찰(판단 에이전트)의 기준을 따르면서도 효율적으로 운전을 해야 함!
실험은 스마트 그리드라는 가상 시뮬레이션 환경에서 수행된다.
실험의 목표는 “학습 에이전트가 윤리적 규칙을 학습하고, 이 규칙에 따라 에너지 소비 및 분배를 최적화할 수 있는 평가”하는 것이다. 윤리적 딜레마를 다루는 시뮬레이션에서 에이전트의 행동을 분석한다.
논문에서는 시민의 관점에서 학습 에이전트가 준수해야 하는 4가지 윤리적 규칙을 제안한다.
MR1 - 안정적인 전력 공급 (Security of Supply)도덕적이다.MR2 - 경제적 부담 감소 (Affordability)비도덕적이다.MR3 - 포괄성 및 공정성 (Inclusiveness)도덕적이다.MR4 - 환경 지속 가능성 (Environmental Sustainability)도덕적이다.
해당 논문은 가장 관련성이 높은 Default과 Incremental 시나리오에 초점을 맞췄으며 단일 윤리적 규칙이 에이전트의 행동에 미치는 영향을 확인하기 위해 Mono-Values 시나리오도 사용하였다.

Fig은 Default 시나리오다. 여기서 시간이 지남에 따라 학습 에이전트가 규칙을 점진적으로 학습하면서 보상 값이 높아짐을 알 수 있다. 그러나 후반부에는 보상이 급격히 하락하는데, 규칙 수가 많아지면서 복잡해져 학습 에이전트가 이를 완전히 이해하고 적용하기 어려웠던 것으로 보인다.
즉, 제안된 모델은 윤리적 행동을 학습하는 데 효과적이지만 특정 규칙 혹은 복잡한 규칙은 개선이 필요하다.

전반적으로 초반 보상 값은 높으나 후반부에 떨어지는 모습을 보인다.
해당 그래프의 특징은 다음과 같다.
해당 논문은 다중 에이전트 시스템에서 학습 에이전트에게 보상으로 제공되는 상징적 판단을 사용하여 ‘윤리적 행동’을 학습하는 새로운 방법을 제안한 것으로 시뮬레이션된 스마트 그리드 환경의 에너지 분배 문제에 적용하여 평가했다.
개선할 여지는 많으나 제안된 접근법이 효과적으로 작동할 수 있음을 증명하는 초기 단계의 연구로서 가치가 있다고 할 수 있다.
해당 접근법의 기여는 다음과 같다.
문제에 따른 개선점 제안
판단 에이전트가 학습 에이전트에 대한 광범위한 데이터를 요구해 개인 정보를 침해할 수 있음
→ 데이터를 제한하여 개인 정보 침해를 최소화
→ 판단 에이전트가 에이전트를 식별할 수 없도록 데이터를 익명화
논문에서 사용한 도덕 규칙은 단순해서 수치 함수로도 대체가 가능함
→ 판단 에이전트와 도덕 규칙을 확장
심볼릭 판단을 숫자로 매핑하고 평균 내어 보상을 생성하는 방식은 다루기 쉽지만 복잡한 상황에서 한계를 가질 수 있음
규칙 간의 우선순위 문제
→ 협상 매커니즘 도입 : 판단 에이전트들이 ‘이 상황에서 어떤 규칙이 더 중요한가?’를 논의해 결론 내리는 시스템 추가
🐋 생각모음
- 윤리적인 AI를 위해서는 강화학습이 필수적이라는 생각이 들었다. 그런데 AI는 결국 '이익을 위한 윤리'만을 학습할 수밖에 없는 것일까? '윤리적인 행동'을 하면 보상이 크게 주어지는 상황에서 AI는 이익을 최대화하기 위해 우리가 원하는 방향을 따라갈 수밖에 없다. 윤리 AI에서 윤리와 AI는 어떤 관계를 가지고 있는지 생각해봐야할 것 같다.
- 더욱이 디자이너가 계속해서 판단 에이전트와 학습 에이전트를 수정하는데, 이 과정에서 '보편적 윤리'라는 것은 대체 무엇일까?