기업에 AI를 도입할 때 주의할 점

changsubchang·2020년 5월 1일
2
post-thumbnail

서당개 3년이면 풍월을 읊는다. 나름 컨설팅회사에서 주니어시절을 구르고, 지금 AI 회사에서 고객사의 사례를 보면서 AI 도입과 관련해서 고객사가 어떠한 고민을 갖고 있고, 주로 맞닥뜨린 사례가 무엇인지 그리고 매우 일반적인 해결책에 대한 나의 생각을 간단하게 공유하고자 한다.

1. AI가 만능이다

사실 인터넷에 검색하면 많이 나오는 내용이다. Singularity Point가 곧 오고, 그렇게 되면 AI가 인간을 지배하게 될 것이라는, 사실 그 정도까지 생각하는 사람이나 고객사는 없다. 현실적으로 그만큼 인간에 가까운 AGI(Artificial General Intelligence) 급의 AI가 산업현장에서 필요하지 않기 때문이다. 현재의 산업현장이 당면한 문제를 해결하기 위해서, 인간처럼 생각하고, 인간처럼 감정을 느끼는 AI는 필요가 없다. 너무나도 당연하게도.
하지만, 그럼에도 불구하고 AI가 현재와 급격하게 다를 것이며, 데이터만 있으면 AI가 모든 것을 할 수 있다고 생각하는 경우가 많다. 하지만 AI (머신러닝 혹은 딥러닝) 이 제대로 작동하기 위해서는 다양한 토양이 준비되어야 한다. 실제로 업무현장에 이미지나 글자를 인식하는 과정에서 딥러닝을 광범위하게 쓰는 경우는 흔치 않다. 실제 산업현장에서 AI를 활용하는 과정에서는, 기존에 사람이 정해놓은 Rule, 데이터에 대한 설명 (정상치는 어떠한 Threshold 안에 있어야 하는지, 각 데이터는 어떠한 Hierarchy가 있는지, Outlier 는 어째서 Outlier 인 것인지 등) 을 기반으로 기존의 데이터가 어떻게 관리되었으며 어떠한 Label이 붙었는지에 대해 알며, 이를 기반으로 모델을 트레이닝 하는 것이 중요하다.
머신러닝의 가장 큰 장점은 "학습되지 않은 것이 발생했을 때, 이에 대한 추론을 기반으로 문제를 해결하는 것이다". 하지만 많은 사람들이 뒷부분에만 집중한 나머지 적절한 학습과정이 없이도 모든 문제를 해결할 수 있을 것이라고 착각하는 오류에 빠진다. 제대로 배우지 않으면, 틀리게 배워서 틀린 추론을 할 수 있다는 점을 간과해서는 안된다.

2. 데이터는 다다익선이다.

빅데이터, 데이터레이크 시대에는 데이터만 많으면 모든 것이 될 것이라고 생각했다. 어떠한 종류라도 데이터를 많이 모아 놓으면 어딘가에 쓸 수 있을 것이라는. 기업들은 다양한 생산설비에, Customer Journey 의 포인트마다, 클라우드에 이런저런 데이터들을 저장하기 시작했다. 하둡 등 대용량의 데이터를 처리할 수 있었던 기술과 클라우드 등이 이런 저장을 가능하게 했다.
물론 데이터가 많으면 좋다. 머신러닝 모델도 트레이닝 과정에서, 보다 엄격한 규칙을 적용할수도 있고, 오류가 날 가능성을 낮추고, Validate 하기도 좋기 때문이다. 하지만 데이터가 많은 것 보다도, 1번에서도 잠깐 언급했듯이 "데이터를 이해하는 것" 이 무엇보다 중요하다.
데이터의 의미는 다양한 것을 내포한다.

  • 데이터가 어떠한 과정을 거쳐서 수집되는지 (어디서, 얼마나, 어떤 주기로)
  • 왜 수집되는지 (품질관리를 위해 Binary한 결과를 내기 위해서인지, 새로운 인사이트를 얻기 위해서인지)
  • 표준적인 데이터가 어떻게 정해졌는지 (데이터의 스키마, 데이터의 Threshold 등)
  • 데이터 담당자가 누구인지 (데이터를 실제로 쓰는 부서, 관리하는 부서, 분석하는 부서가 서로 다를 수 있음)
  • 데이터의 상호 연관관계가 어떠한지 (수집의 순서가 있는지, 포함관계가 있는지 등)

사실 대부분의 데이터는 숫자 형태의 정보 (실제로 의미를 가지고 있는) 이거나, 카테고리 데이터를 숫자화한 데이터이다. 직관적으로 이해할 수 있는 데이터 레이블이 있는 반면, 그렇지 않고 모호한 데이터 레이블 및 필드값도 적지 않다. 이에 대한 이해가 없으면, 전처리 과정에서 데이터의 공란을 어떻게 처리할지, 데이터의 중요도에 대한 이해 없이 모델을 만들어서 왜곡된 결과가 나오는 경우도 부지기수다.
데이터를 수집하는 시초는, 인간이 만든다. 인간의 이해로 수집되는 데이터를 기계가 이해하게 하기 위해서는 데이터에 대한 정확한 이해, 과거의 트렌드 등에 대한 이해가 절대적이다. 이게 없다면 수많은 데이터는 "예쁜 쓰레기" 가 되어버릴 가능성이 농후하다.

3. 딥러닝이 최고다.

내가 일하고 있는 회사도 딥러닝 회사이긴 하지만, 항상 딥러닝이 최고인 것은 아니다. 딥러닝이 가장 멋있어 보이고, 뭔가 신경망의 Layer 가 여러개가 되면 정확도가 더 높아질 것 같지만, 그렇지도 않다. 오히려 과도한 딥러닝은, 모델에 대한 이해도를 낮춰서 실제 산업현장에서 적용할 때 거부감이 높게 하는 단점이 있을 수 있다. (물론 인공지능 자체가 모델 자체에 대한 100% 완전한 이해를 기반으로 하는 것은 아니지만, 그럼에도 불구하고 어느정도 Visibility 가 있어야 모델 튜닝이나, 문제 해결이 가능하다. 구체적인 내용은 설명가능한 인공지능 - Explainability - 에서 다뤄지겠지만)
실제 성과적인 측면에서도, Workbench 등을 통해 성과를 확인하고 어떠한 모델 및 알고리즘 기법이 해당 문제를 해결하는데 최적의 결과를 낼 수 있는지 고민하는 것이 필요하다. 뿐만아니라, 비교적 직관적인 이해가 가능한 트리모델이나 회귀모델등을 기반으로 머신러닝 모델을 구현하고 이를 현업에 적용한 뒤에, 딥러닝 모델로 문제 해결을 확대한다면 현업의 거부감을 낮추는데도 도움이 될 것이다.

이 외에도 실제로 AI를 산업현장에 적용하는데는, 사내 정치적인 문제, 경영진의 짧은 Timeframe으로 인한 조급함 (단기간에 성과를 보고 싶어하는), 프라이버시 등과 관련된 윤리적인 문제등 풀어야 할 문제가 산적되어 있다. 하지만 답없는 문제 없고, 찍어서 안넘어가는 나무는 없다. 뒤이어 이러한 문제들을 어떻게 해결하면 좋을지, 산업 현장 및 우리 회사에서 해결하는 방법에 대해 간단하게 설명하고자 한다.

profile
데린이임니다

1개의 댓글

comment-user-thumbnail
2020년 5월 2일

잘 읽고 갑니다 :D

답글 달기