데이터 과학이 데이터량에 밀리다

신현묵·2020년 7월 9일

엄청난 데이터가 모이면서 기존 과학이론들이 흔들린다.

나름 일관성을 유지하던 과학이론들이 엄청난 데이터량에 밀려서 그 존재의 의미가 의심받기 시작했다. 그동안 유지되던 모델들의 정체성들이 이제 의심받고 있으며, 대부분의 모델과 이론들이 새로운 시대를 맞이하여 검증되어야 하는 시대가 된 것이다. 엄청난 데이터로 그 모델들 대부분이 다시 증명되어야한다는 것이다.

통계학자들이 예언한 "모델"에 대한 무용론이 현실화되면서 데이터를 가진 곳과 데이터를 가지지 못한 곳으로 나뉘고 있다.

기가, 헤라, 페타의 시대로 접어들면서 단순하게 정보를 시각화한다는 측면을 넘어선 것은 이제 3차원 4차원의 차원 문제 이상이다. 마치, 마블의 유니버스 세계관과도 같은 실제 데이터 시대를 맞이한 것이다.

사실상의 '시각화'의 시대를 넘어섰다. 이렇게 엄청난 데이터를 '시각화'한다는 것 그 자체가 무리한 시도인 것으로 이야기되기 시작했다.

따지고 본다면, 구글이 성공한 것도 그냥, 데이터를 포괄하는 도구를 만든 것에 지나지 않았지만, 실질적으로 지구를 제패하고 있는 셈이나 다름없다. 페이스북도 마찬가지이다.

의미론이나 인과 분석에 대한 무용론에 대해서 그렇게 반대의견을 내지는 않는다.

이제, 대부분의 경제, 그리고 수많은 이론들이 필요한 분야들 대부분이 데이터의 쓰나미에 밀려서 그저 데이터를 다루는 도구들에게 밀릴 가능성이 더 커진 것이다.

과학자들의 접근법이 틀렸다는 것이 아니다. 상관관계와 인과관계에 대해서 추론하고 증명하는 방식들로 시각화하거나 정의하는 것이 이제 무리한 것에 가깝다고 이야기할 정도의 엄청난 데이터량에 신음하고 있다.

과학의 이론적인 접근법의 기준이었던 가설을 세우고, 모델을 만들어서 검증하는 방법은 이제 구닥다리라고 이야기할 수 있다.

생물학이 DNA의 데이터량에 밀리는 것 또한 이제 너무도 당연한 결과이며, 데이터량에 더 매달리는 것인 현재와 미래의 연구 방식의 하나가 되었다고 이야기해야할듯하다.

단지, 데이터를 만들고 보관하고, 검색하고 무언가를 구성하는 것을 만들면, 딥러닝이 알아서 그 모델과 증명과 형태에 대해서 의미론적인 내용들을 스스로 증명할 것인가? 우리는 어떻게 연구해야하는가?

미래의 과학은 과연 이런 데이터량을 어떻게 받아들일 것인가에 대해서 회의감이 생긴다.

데이터를 다루고, 데이터를 만들고, 데이터로 모델화하는 일을 했던 우리들은 과연 어느 길로 가야 하는가?

신현묵

소프트웨어 개발자로서 벤처/스타트업의 문제 프로젝트를 해소하고, 팀빌딩을 하는 재미로 삶을 사는 글쓰는 흰머리 개발자. (백세코딩)

데이터 과학이 데이터량에 밀리다

빅데이터 '분석가''전문가'가 부족한 이유

데이터 과학이 데이터량에 밀리다

0개의 댓글