통계학이란 어떤 학문인가 일목요연하게 잘 설명한 교수님의 글을 가져왔다.
통계학이 갖는 철학적 의미를 서술하고, 그다음 과학으로서 통계학의 발전을 이야기 한 후에, 앞으로 기대되는 공학으로서 통계학의 미래를 말씀해주셨다.
(윤수 생각: 프란시스 베이컨과 데카르트를 여기에서 볼 줄이야.)
경험주의 철학자 프란시스 베이컨에서 근간을 찾을 수 있다.
경험주의(empiricism)는 감각의 경험을 통해 얻은 증거들로부터 비롯된 지식을 강조하는 이론.
즉, 감각 경험이란 현실 데이터를 지칭한다.
베이컨은 경험주의를 창시했고 이는 귀납적 사고를 중시하는 반면 데카르트는 합리주의를 창시했고 이는 연역적 사고를 중시하는 철학적 기조이다.
두 대표적인 근대 철학자에서 알 수 있듯이 근대에서는 경험과 이성을 통해서 새롭게 지식 체계를 세우고자 경험(데이터)와 이성(논리)를 통해 새로운 지식의 체계를 만들고자 했다.(중세에는 종교적 영향력과 권위와 관습에 많이 의존했으니까.)
올바른 지식은 감각적 경험으로 유래된다는 견해에서 비롯된 경험주의 단점은 자칫하면 회의주의에 빠진다는 것이다. 왜냐하면 지식이 데이터로부터 얻어진다고해서 우리가 모든 데이터를 다 관측할 수는 없기에 관측된 데이터를 통해 도출해낸 그 지식을 결코 확신할 수 없다는 난관에 부딪히고, 따라서 확신하지 못하는 지식을 얼마나 신뢰할 수 있겠느냐하는 회의주의에 빠질 수 있다. 이러한 회의주의를 수리적인 방법으로 해결하고자 한 것이 바로 통계학이다.
통계학은 제한된 관측으로 얻어지는 결론에 대한 확실성의 정도를 확률이라는 개념으로 설명한다.
확률을 계산하는 과정에서 수리적 논리가 부여되기 때문에 확률은 보편성을 획득한다.
따라서 경험주의자 입장에서는 100% 확신하는 지식은 없지만 통계학을 통해서 어떤 지식이 상대적으로 더 확실한 것인지에 대해 합리적인 진술을 할 수 있게 된다.
통계적 가설검정은 일종의 귀류법으로 볼 수 있는데 어떤 가설을 데이터로 증명하기보다는 그 가설을 일단 부정한 후에 (이를 귀무가설이라고 합니다) 데이터가 그 귀무가설을 확률적으로 강하게 반증하는 경우 처음 가설을 채택하는 논리(H1에 내가 원하는 주장을 하고 H0에 그와 반대되는 일반적인 주장을 넣고 H0가 옳을 확률을 구한다라고 해석할 수 있을 듯.)
통계학은 과학의 문법이라고 할 수 있다.
과학으로서의 위상을 가지려면 현실 속의 문제를 실질적으로 해결해야한다.
20세기 전반에 걸쳐 통계학적 방법론들이 각 도메인에 적용되어 경험적 지식들이 늘어나고 체계를 갖추게 되었다.
통계학을 사용했다고 해서 결론이 다 타당하거나 과학적인 것은 아니다.
1) 통계학적 지식 체계가 논리적으로 오류가 없어야한다.
(통계학적 지식 체계 = 통계학에 사용되는 분석 방법론들이 다루고 있는 가정에서 결론으로까지의 수리적인 논리)
2)통계학적 지식에서 사용되는 가정들이 현실에 부합해야한다.
순수수학은 그 자체의 아름다움을 추구한다고 한다면 통계학은 그보다는 유용성과 적용 가능성에 더 가치를둔다.
통계학에 사용되는 가정은 크게 두 가지로 나뉜다.
하나는 데이터에 대한 가정이고 다른 하나는 모델에 대한 가정이다.
논거는 데이터이고, 전제는 모델이며, 논리는 통계 방법론이다.
논거의 중요성은 GIGO와 같다.
1) 질 좋은 데이터
결론이 포함하고자 하는 타당성의 범위를 이해해야한다.
질 좋은 데이터의 두 속성;
(1)자료의 대표성 (원하는 결론이 지칭하고자 하는 집단을 자료가 충분히 대표하고 있는지에 대한 판단)
(2)측정의 정확성 (얻어진 측정 방식이 원하는 개념을 정확하게 반영하고 있는지에 대한 판단)
데이터 자체를 얻어내는 과정 자체를 과학적으로 설계할 필요가 있는데 이는 자료 수집 비용의 증가를 의미한다.
그런 양질의 데이터를 얻기가 힘들다면 적어도 사용하고자 하는 데이터의 증거 적절성 여부를 우선 판단해야한다.
2) 모델의 적절성
모형은 현실에 대한 이해의 틀이다.
모형의 적절성은 결국 그 모형이 데이터의 현실을 얼마나 잘 반영하느냐에 따라 판단할 수 있다.
즉, 자료의 구조를 이해해야 한다.
현실(데이터의 구조)을 제대로 반영하는 모형을 사용할수록 그로부터 얻어지는 결론의 정확성은 높아지게 되고 과학적 근거로서의 가치가 높아진다.
컴퓨터와 인터넷의 보급으로 전산학의 머신 러닝(Machine Learning)과의 경쟁을 하게 되었다.
통계학은 데이터를 통해 지식을 발견하는 과정의 주체가 인간임을 전제로 하는 것이기에 전문지식을 가진 인간의 끊임없는 개입과 해석을 요구한다. 반면 전산학에서는 학습의 주체가 사람이 아닌 컴퓨터(기계)이기에 인간의 개입을 최소화한다.
따라서 통계학은 과학적 우위를 점령하고 있는 대신, 자동화를 통한 대량생산을 추구하는 공학적 측면에서는 열위에 있다고 할 수 있다.
공학적 측면을 보완할 수 있는 통계학의 활용
머신러닝 방법론이 확장되는 과정에 통계학적 시각이나 방법론들이 기여할 수 있다.
기계 학습에서 데이터의 편견 문제는 사실 통계학의 대표성이나 측정 문제와 밀접한 연관이 있고, 따라서 데이터 편견을 보정할 때 인간의 개입이 필요할 경우 통계학적인 접근법이 사용될 수 있다.
도메인 지식과 데이터 기반 지식을 결합하는 문제 역시 일종의 통계학적 관점으로 이해될 수 있다.
즉, 기계학습이나 인공지능을 컴퓨터가 스스로 학습하는 것으로 국한하는 것이 아니라 인간이 인공지능을 탑재하여 강화된 판단의 도구로 사용하는 개념으로 사용한다면 인간 중심의 통계학이 강력한 도구로 보완될 수 있다. 두 학문 분야가 로 경계가 허물어지고 융합되고 있다.
통계학이라는 것이 현실과 유리된 것이 아니고 데이터를 통해서 얻어지는 수많은 현실 문제들을 어떻게 바라보고 어떻게 해결할 수 있을지에 대한 접근법을 제공한다.
통계학은 다른 도메인 학문을 도와주는 도구학문이므로 도메인 전문가와 통계 전문가의 협업을 통해 발전할 수 있다. 따라서 협업이 장려되는 문화에서 통계학은 커뮤니케이션 툴이자 근거로서 활용될 수 있다.
데이터라는 것이 측정을 바탕으로 숫자화된 것이고 그 측정이라는 것은 해당 개념을 전제로 하는 것이다.
데이터로 변환되지 않는 것은 컴퓨터에서 학습되지 못하는 것이고 그것으로부터 어떤 예측이나 지식을 쌓지 못하게 된다. 그래서 측정은 해당 속성에 대한 것을 숫자로 그 강도를 표현할 수 있어야 하는데 이것이 가능하려면 해당 개념을 바탕으로 얻어지는 것이다. 후각이 시각보다 측정이 더 어려운 것도 후각자료에 대한 이해도가 시각자료에 대한 이해도보다 더 어렵기 때문이다.
많은 사회적 과제들이 사실은 개념의 세분화를 바탕으로 인식되고 그에 대한 조작적 정의와 측정의 타당성을 논의하는 것이 필요한데 그러한 문제들이 통계 전문가들의 힘만으로 해결될 수 있지 않다.
주어진 데이터를 분석하는 것은 머신러닝이나 통계학으로 해결될 수 있을지 모르겠지만, 필요한 문제를 해결하기 위해 문제를 어떻게 정의하고 데이터를 어떻게 수집할 것인가는 지식산업의 성숙도에 따라 결정될 수 있다. 즉, 지식 생태계가 성숙한 곳에서 지식산업은 더 잘 발달할 수 있다.