신경망 인공지능의 결정 과정이 우리가 원하는대로 이루어지는지 설명할 수 있을까?

이라운·2022년 8월 6일
0
post-thumbnail

📰 이번에 다룬 뉴스:

MIT News 의
Explained: How to tell if artificial intelligence is working the way we want it to
⚠️ 뉴스를 보고 작성자 편한대로, 이해한 대로, 기억하고 싶은 부분만 번역했습니다. 믿지 마시고, 되도록이면 위의 원문을 봐주세요.

✒️ 느낀 점

신경망 인공지능의 문제점이 모델의 예측의 이유를 인간이 명확하게 알 수 없다는 점이라는 것을 어디선가 들은 적이 있었다. 이 기사 덕분에 다양한 것들을 알 수 있었다.

  • 이와 같은 모델을 블랙 박스 모델이라고 하는 것
  • 다양한 해석 방법이 존재한다는 것과 각각의 특징과 단점
  • 진짜로 해석이 맞는지 확인하고 싶어도 시스템 내부의 작동 방식을 정확히 몰라서(그래서 해석방법이 필요하다고 하고 있었던 거잖아) 확인 못하고 그래서 다시 해석방법을 쓰는... 순환구조가 발생한다는 것
  • 해석방법을 사용하면 아이러니하게도 오히려 모델을 과신하게 된다는 것

이미 면접도 AI 가 보고 있는 시대이기에, 모델의 예측 결과가 정말 합리적인지, 취준생들이 시험의 공정성을 믿을 만한지 알 수 있도록 하는 것이 필요할 것으로 보인다. 경험적으로 보자면 AI 면접에 대해서 주변의 많은 취준생들이 확신을 가지고 있지 못한 것 같기 때문이다.

🔤 번역

🧠 급성장하고 있는 인공지능 분야

10여년 전부터 인공지능은 인간을 뛰어넘는 역량을 보여줬다. 체스나 바둑과 같은 보드게임의 인간 챔피언을 꺾었고, 의사보다도 정확한 폐암진단을 해냈다.

이와 같은 강력한 딥러닝 인공지능 모델은 1940년대에 처음 고안된 인공 신경망 네트워크를 기반으로 만들어졌다. 컴퓨터는 마치 인간의 뇌처럼 여러 레이어로 쌓여진 연결된 노드를 통해 데이터를 처리한다.

머신 러닝 분야가 발전해가면서 딥러닝 모델도 크게 발전하여 이젠 수백만개에서 수십억개의 연결된 노드를 가진 여러 레이어를 통해 분류, 탐지를 수행한다. 하지만 이와 같이 모델이 방대해지고 복잡해지면서 모델을 설계하고 만든 연구자조차도 해당 모델이 어떻게 돌아가서 결과를 도출해내는지 충분히 설명하지 못한다.

예를 들어, 의사의 진단을 도와주기 위한 모델은 피부의 병변이 암이라는 것을 정확하게 예측했지만, 예측할 수 있었던 것은 병변 그 조직 자체를 살폈던 것이 아니라 다소 관련없지만 암에 걸린 조직이면 자주 나타나는 반점을 근거로 삼았던 것이다. 이것은 일찍이 암과는 논리적인 관계가 없는 것으로 판명났던 것이다. 이와 같은 방식이라면 반점이 없는 경우에는 정확한 진단을 기대할 수 없게 된다.

이처럼 안에서 어떤 과정을 거쳐서 결과를 내는지 알 수 없는 모델을 블랙박스 모델이라고 한다. 박스안에서 이뤄지는 것이 무엇인지 설명하기 위해서 최근 급성장하고 있는 분야가 바로 explanation methods(interpretability methods) 이다.

explanation methods 란?

기본적으로 explanation methods(지금 부터는 해석 방법이라고 쓰겠다) 해석 방법은 local 과 global 로 나뉜다. local 은 어떻게 모델이 특정 예측을 수행했는지에 대해 알아보는 것이고 global 의 모델의 행동 전반적인 것에 대해서 분석한다.

하지만 딥러닝 모델은 근본적으로 복잡하고 비선형적인 방식으로 동작하기 때문에, 효과적인 global 해석 방법은 특별히 어려운 축에 속한다. 그러다보니 최근의 연구자들은 local 해석 방법에 더욱 집중하고 있다.

local explanation 모델의 3가지 타입

1️. feature attribution explanation

첫 번째, 그리고 가장 널리 사용되는 해석 방법은 특징적 속성 방법이다. 특정한 결정과정에서 어떠한 속성이 가장 의사결정에 큰 영향을 미쳤는지 살펴보는 것이다. 속성이란 인풋 변수로서 머신러닝에서 예측에 사용된 것이다. 표로 정리된 데이터의 경우, 속성은 각각의 열에서 추출된다. 이미지의 경우에는 이미지에 있는 모든 픽셀이 속성에 해당된다. 만약 X-ray 이미지에서 암을 예측했다면, 특징적 속성 방법에서는 예측에 가장 영향을 많이 끼쳤던 픽셀을 하이라이트해서 보여준다.

근본적으로 특징적 속성 방법은 모델이 예측과정에서 어떤 특성에 가장 집중했는지를 보여준다. 이를 통해 비논리적인 연관관계가 예측에 사용됐는지 여부를 알 수 있다. 예를 들어 워터마크 픽셀이 하이라이트 됐는지, 아니면 종양 자체에 하이라이트가 됐는지 알 수 있다.

2. counterfactual explanation

두 번째 방법은 조건법적 서술 해석 방법이다. 인풋 데이터와 예측결과를 토대로 인풋의 어떤 부분이 바뀌면 다른 예측결과를 받을 수 있는지 보여주는 것이다. 예를 들어, 머신러닝 모델이 대출이 불가능하다고 예측했을 때, 조건법적 서술 해석 방법은 인풋의 어떤 점이 바뀌면 대출을 가능하게 해주는지 알려준다. 아마 대출신청자의 신용점수 또는 소득 (혹은 둘 다) 를 더 높게 바꾼다면 대출이 가능하게 바꿀 수 있을 것이다.

조건법적 서술 해석 방법의 장점은 무엇을 바꾸면 결과를 바꿀 수 있는지를 명확하게 보여준다는 것이고 이것은 실용적인 장점이다. 누군가 대출을 신청했을 때, 떨어진 경우에는 이와 같은 설명을 통하여 그들이 원하는 결과를 얻기 위해서는 어떻게 해야되는지 설명할 수 있기 때문이다.

3. sample importance explanation

이 방법은 위의 2 방법과는 다르게 모델을 학습시켰던 데이터 자체에 접근한다.

이 방법은 모델이 특정 예측을 할 때, 샘플로 주어진 학습 데이터 중에서 어떤 데이터에 더 의존하는지를 보여준다. 이상적으로는 인풋 데이터와 가장 비슷한 샘플이 나올 것이다. 이 방법이 유용한 경우는, 특별히 매우 비논리적인 결과가 도출됐을 때, 잘못된 샘플이 들어갔는지를 확인할 수 있다. 실제로 잘못된 샘플이 들어간데 확인된다면 조치 후 모델의 정확도를 더 높일 수 있게 된다.

explanation methods 가 사용되는 곳

위와 같은 해석 방법을 개발하게 된 이유는 성능 확인과 모델의 디버깅을 위해서이다. 어떤 속성이 모델의 결정에 영향을 미쳤는지 더욱 자세히 알게 된다면, 모델이 정확하지 않은 동작을 보이고 있는지를 찾을 수 있게 되고, 문제를 고치기 위해 개입하거나 아예 새로 시작하게 만들 수 있다.

최근 들어 생겨난 또 다른 이유는, 아직 밝혀지지 않은 분야에서 머신러닝이 사용되는 경우이다. 미처 밝히지 못한 요소들이 있는 연구 분야에서, 이전에는 알지 못했던, 예를 들면 암의 특징적인 패턴 같은 것을 찾아낼 수도 있기 때문이다. 물론 여전히 해당분야에서는 갈길이 멀다..

경고의 한 마디

해석 방법은 버그를 잡고, 모델의 내부 시스템에 대한 이해도를 높이기 위해서 사용하는 머신러닝 종사자에게는 유용할 수 있지만, 최종 사용자 군에서는 해석 방법을 적용하는데에 충분한 주의가 필요하다고 CSAIL의 Healthy ML 그룹장이자 보조교수인 Marzyeh Ghassemi는 말했다.

헬스케어에서부터 교육까지 머신러닝은 점차 다양한 곳에 활용되기 시작하고 있다. 해석방법은 의사결정권자들에게 모델에 대한 더 높은 이해를 제공하여 언제 모델을 신뢰하고 사용할지에 대한 가이드를 제공할 수 있을 것이다. 하지만 Ghassemi 는 해석 방법을 위와 같은 이유로 사용하는 것에 대해 경고했다.

"해석 방법은 많은 전문가와 비전문가들로 하여금 특정 추천 시스템의 능력이나 조언에 대해 과신하도록 만드는 경향이 있다는 것을 발견했다. 사람들은 스스로 가지고 있는 내재적인 의문을 꾸준히 가지는 회로를 끄지 않고 계속적으로 내가 제공받은 조언에 대해 질문할 줄 아는 것이 중요하다고 생각한다"라고 Ghassemi 는 말했다.

과학자는 해석 방법이 사람들이 과신하도록 만든다는 것은 여러 최근의 연구를 통해 알고 있다. Ghassemi는 마이크로소프트 연구진의 최신연구 - 『Interpreting Interpretability: Understanding Data Scientists' Use of Interpretability Tools for Machine Learning』 를 인용했다. (abstract 를 읽다보면 Our results indicate that data scientists over-trust and misuse interpretability tools. 라는 부분이 나온다.)

해석 방법은 완벽한 해결책과는 거리가 멀고, 그 자체의 문제를 가지고 있다. Ghassem의 최신 연구에 따르면 해석 방법은 편견을 영구화시키고 약자 집단에게 더 치명적인 결과물로 이끄는 경우가 있을 수 있다.

또 다른 눈에 잘 안띄는 위험으로는 해석 방법의 결과물이 정확한지 여부를 한 눈에 파악하는 것이 어려울 수 있다는 점이다. 누군가 해석 방법을 실제 모델과 비교해볼 수 있어야 하는데, 사용자는 모델이 어떻게 돌아가는지 알 수가 없어서 정확히 비교를 할 수 없는 순환구조를 가지게 된다는 것이다.

연구자들이 해석 방법을 계속 개선시켜서 실제 모델의 예측 결과의 신뢰성을 높이기 위해 노력하고 있지만, 최고의 해석조차도 액면 그대로 받아들이면 안된다고 말한다. Yilun Zhou 의 가장최근 연구 - 『Unpacking black-box models』

단어

spurious: 거짓된, 겉으로만 그럴싸한, 비논리적인
nonlinear: 비선형적인
particularly: 특별히
attribution: 속성
tabular: 표로 나타낸[정리된]
essentially: 근본적으로
counterfactual: 조건법적 서술: 어떤 문장의 첫절이 사실과 정반대인 것을 서술할 경우의 표현법 예를 들면 [만약 내가 알고 있었다면]
mortgage: 대출
intervene: 개입하다
practitioner: 전문직 종사자, (특히 기술을 요하는 일을) 정기적으로 하는 사람, 현역
circuitry: 전기 회로망
far from silver bullet: no silver bullet 의 다른 표현인 것 같은데, 완벽한 해결책과는 거리가 멀다는 표현인듯 하다
prepetuate: 영구화하다
pitfall: (눈에 잘 안띄는)위험[곤란]
take sth with a grain of salt: 액면 그대로 받아즐이지 않는다

profile
Programmer + Poet = Proet

0개의 댓글