머신러닝이란?
컴퓨터가 데이터로부터 패턴을 학습하여, 명시적인 프로그래밍 없이 어떤 예측이나 분류 작업을 수행하는 것을 의미
머신러닝 등장 전 데이터 분석
과거 데이터 분석은 주로 학문적인 이론 또는 가설이 실제 맞는지 실증하기 위한 목적으로 수행되었다. (그래서 데이터분석 대신 실증분석이라는 말이 더욱 많이 쓰임)
데이터를 수집하고 저장하는 데 필요한 시간과 비용 또한 비싸 국가적으로 추진되는 연구 프로젝트가 아닌 이상 최소한의 표본을 이용해야하는 한계점이 있었다.
통계학은 이러한 사회경제적 배경에서 발전해왔는데 가설검정 등 통계분석의 영역 뿐만 아니라 통계조사방법론까지, 최소한의 비용으로 이론의 타당성을 실증하고자 하는 학자들의 피땀어린 노력이 서려 있는 학문이라고 할 수 있다.
이론과 실증분석의 문제점
경제학의 아버지라고 불리우는 케인즈는 수요 중심 경제학을 통해 미국이 대공황을 성공적으로 극복하는 데 기여했으나 이후 공급 측면의 충격인 오일쇼크를 막아내진 못했다.
세상은 시시각각 변화하며 변화하는 속도 또한 빨라지고 있다. 새로운 사례들이 등장하여 새로 등장한 이론이 얼마 가지 않아 무용지물이 되기도 한다.
머신러닝 등장과 빅데이터와의 결합
정보기술이 획기적으로 발전하고 데이터 수집과 저장 비용이 낮아지면서 이론에 기반한 실증분석보다 데이터 자체를 통해 규칙과 패턴을 찾는 데이터 분석이 각광받기 시작한다.
모집단에 가까운(또는 모집단 자체인) 데이터를 이용하기 때문에 데이터를 통해 밝혀낸 현상이 우연이 아닌지 검증할 필요성이 줄어든다.
그럼 머신러닝은 만능인 것인가?
그렇지 않다. 머신러닝은 데이터 자체에서 패턴을 찾긴 하나, 그 알고리즘이 너무나도 복잡하여 머신러닝 모델에서 나온 결과를 해석하는 것이 힘들다.
(이러한 특징을 블랙박스에 비유하기도 한다.)
이것은 인간의 생명과 권리가 걸려있다면 상당히 중요한 문제이다.
예를 들어 머신러닝을 통한 진단 결과에 따라 약 처방을 하는 경우, 인공지능 판사가 판결을 하는 경우, 은행에서 머신러닝을 이용하여 고객 신용평가를 하는 경우 등
머신러닝을 활용한 다양한 상황에서 결과에 대한 설명이 뒷받침되지 않으면 모델 정확도가 아무리 높다고 한들 결과를 받아들이기 매우 어려울 것이다.
[참고자료] 기상청 능가한 AI...슈퍼컴 대체하게 될까?
데이터 분석에 대한 시사점
머신러닝 기술은 이미 상당히 발전된 상태이며 라이브러리 또한 잘 구현되어있어 실무적으로 사용하기에 문제가 없다고 생각한다.
다만, 머신러닝이 제시하는 결과를 어떻게 해석하고 타인에게 잘 설명할 것인지에 대해 많은 고민과 연습이 필요할 것이라고 본다.
기술적인 난해함 뿐만 아니라 결과가 나온 이유를 충분히 설명하지 못하면 분석 결과가 아무리 뛰어난들 간단한 통계분석을 한 것보다 못한 결과를 초래할 수 있다고 생각한다.