* 본 글은 서울대학교 산업공학과 DSBA 연구실 강필성 교수님의 "다변량데이터분석" 학부강의의 review 입니다.
Data-driven Decision Making | Experience-driven Decision Making | |
---|---|---|
의사결정 방식 | 데이터를 분석하고, 통계 및 모델을 활용하여 최적의 의사결정을 수행 | 개인의 경험, 직관, 과거 사례를 바탕으로 의사결정을 수행 |
기반 자료 | 정량적 데이터(실측 데이터, 통계 분석, 기계학습 모델 등) | 정성적 데이터(경험, 직감, 관찰, 도메인 지식) |
분석 방법 | 최적화, 예측 모델링, 통계적 분석 등(첨부된 이미지 참고) | 경험적 판단, 휴리스틱(Heuristics), 과거 사례 비교 |
신뢰성 | 데이터가 충분하고 정확하면 높은 신뢰성을 가짐 | 개인의 경험과 직관이 정확하면 유용하지만, 편향(Bias)이 개입될 가능성이 큼 |
주요 문제점 | 데이터가 잘못되거나 편향된 경우 잘못된 결론을 도출할 가능성이 있음 | 경험이 부족한 경우 잘못된 판단을 내릴 가능성이 높음 |
데이터 기반의 의사결정은 설명, 예측, 최적화의 단계를 거친다.
1) 설명(Descriptive Analytics) - What has happened?
Standard reports → "무슨 일이 일어났는가?"
Ad hoc reports → "얼마나 많이, 자주, 어디에서 발생했는가?"
Query drilldown → "문제가 정확히 어디에 있는 것인가?"
Alerts → "이 상황에 필요한 액션이 무엇인가?"
2) 예측(Predictive Analytics) - What could happened?
Statistical analysis → "왜 이런 일이 발생한 것인가?"
Forecasting → "현재의 트렌드가 계속될 것인가?"
Predictive modeling → "다음에는 무슨 일이 발생할 것인가?"
3) 최적화(Prescriptive Analytics) - What should happened?
Data Mining은 대규모 데이터셋에서 유용한 정보를 추출하고, 의미 있는 패턴을 발견하는 과정을 의미한다. 꼭 머신러닝이나 인공지능 알고리즘의 방법론일 필요는 없으며, 데이터를 통해서 그 안에 숨겨진 지식을 발견하자는 것이 그 목표이다.
데이터 마이닝에서 주로 사용되는 핵심 기법들을 간략하게 언급하고 넘어가고자 한다.
1) Association Rule Learning (연관 규칙 학습)
2) Classification (분류)
3) Clustering (군집화)
4) Regression (회귀 분석)
5) Anomaly Detection (이상 탐지)
데이터 사이언스를 적용할 수 있는 분야는 무궁무진하다. 여기서는 간단하게 영상에서 등장한 섹터들만 다뤄보도록 하겠다.
워드 클라우드를 이용한 분석
제품 및 브랜드 평가 분석
중앙은행 연설문 분석
주식 시장 & 경제 예측
반도체 공정 품질 예측 (삼성전자 사례)
전자상거래 & 엔터테인먼트
음악/영상 스트리밍 서비스
다변량 데이터 분석은 크게 다섯가지의 카테고리로 나눌 수 있다.
- Data Reduction / Structural Simplification
- Sorting and Grouping
- Investigation of the dependence among variables
- Prediction
- Hypothesis construction and testing
각 항목에 대해서는 이후 강의들에서 자세하게 다룰 것이므로, 여기서는 간단하게만 다루고 넘어갈 것이다. 아래에서 하나하나 요약하여 살펴보겠다.
데이터의 본질적인 정보를 유지하면서 차원을 줄이는 기법이다. 복잡한 데이터셋을 보다 단순한 형태로 변환하여 해석가능성을 높이면서도, 중요한 정보의 손실없이 최대한 단순하게 정보를 표현하자는 것이다.
대표적인 방법으로는 PCA(Principal Component Analysis, 주성분 분석)가 있다. PCA는 원래 변수들 간의 상관관계를 활용하여 새로운 직교 축인 주성분을 찾아내는 것이 핵심 원리이다.
PCA의 방법을 간단하게 설명하자면, 먼저 데이터 행렬 X에 대한 공분산 행렬을 계산한다. 그 다음 공분산 행렬의 고유벡터를 찾아내는데, 이 고유벡터가 바로 주성분이 된다. 각 주성분은 원래 변수들의 선형 결합으로 표현되며, 주성분들 간에는 서로 독립적이다. 따라서 PCA를 통해 데이터의 주요 특성을 효과적으로 요약할 수 있게 되는 것이다!
유사한 데이터끼리 묶는 기법으로, 특정 패턴을 찾아내는데 사용한다. '묶었다'라는 표현은 비슷한 객체들을 하나의 군집으로 정의하고, 각각의 서로다른 군집들이 어떤 특징을 지니고 있는지 확인하는 것이다.
주요 방법으로는 계층적 군집 분석(Hierarchical Clustering)과 K-means 군집 분석이 있다.
변수들이 서로 어떤 관계를 갖고 있는지 그 본질적인 특성을 파악하는 기법이다.
주요 방법으로는 연관 규칙 분석(Association Rule Analysis)과 요인분석(Factor Analysis) 등이 있다.
데이터마이닝이나 응용통계시간에 배우기 때문에 해당 강의에서는 따로 다루지 않는다고 한다. 따라서 아래는 내가 찾아본 내용이다.
- 연관규칙분석은 데이터 항목 간의 관계를 찾아내는 데이터 마이닝 기법이며, 주로 대규모 거래 데이터에서 특정 항목들이 함께 등장하는 패턴을 발견하는데 사용된다.
- 연관규칙은 보통 의 형태로 표현되며, 다음 세 가지 주요 측정 지표가 사용된다.
- 지지도: 전체 거래 중 와 가 함께 등장한 비율
- 신뢰도: 가 발생했을 때 도 함께 발생할 조건부 확률
- 향상도: 와 가 독립적이지 않고 강한 상관관계를 가지는지 판단. 이면 양의 상관관계를 갖고, 이면 서로 무관, 이면 음의 상관관계를 가진다.
- 요인분석은 다수의 변수들이, 단 몇 개의 숨겨진(잠재적인) 요인으로 설명될 수 있는지 찾는 통계 기법이다. 예를 들어, 심리 검사에서 "집중력, 기억력, 판단력"이 사실상 '인지 능력'이라는 공통 요인에 의해 결정된다는 개념을 찾는 과정이다.
- 공통요인은 여러 변수들에 공통적으로 영향을 미치는 숨겨진 변수이고, 특수요인은 특정 변수에만 영향을 주는 개별적 요인이다.
- 요인부하량은 각 변수가 특정 요인에 대해 얼마나 강한 상관관계를 가지는지 나타내며, 값이 클수록 해당 변수와 요인이 밀접한 관련이 있는 것이다.
회귀라는 말은 공부를 해도해도 직관적으로 와닿지 않는 것 같다. 기억 저장용으로 회귀의 어원에 대해서 찾아보았다.
"'회귀'라는 용어는 1885년 영국의 과학자 갈톤(F. Galton)이 발표한 '유전에 의하여 보통사람의 신장으로 회귀(Regression toward Meiocrity in Hereditary Stature'라는 논문에서 비롯되었다. 그는 아들의 키와 부모의 평균 키와의 관계를 분석하였는데, 부모의 키가 매우 클 때(또는 작을 때) 아들의 키는 일반적으로 평균키보다는 크지만(작지만) 그들의 부모만큼 크(작)지는 않다는 결론이다. 즉 부모의 키가 크(작)더라도 그 자식들은 결국 보통키로 회귀(돌아간다)한다는 뜻이다."
데이터 사이언스의 절차는 크게 다섯 단계로 구분지을 수 있다. 아래에서 간단하게 살펴 볼 것이며, 앞으로의 수업에서는 모델링 단계를 집중적으로 공부하게 될 것이다.
- 문제 정의 및 질문 생성
- 데이터 수집
- 데이터 탐색
- 모델링
- 결과 적용 및 운영
1) 문제 정의 및 질문 설정
좋은 질문 즉, 흥미로운 질문을 던지는 것이 중요하다. 문제를 해결하면 시스템, 조직, 기업 운영 등에 실질적인 가치가 있는지 판단해야 한다. 연구적 의미뿐만 아니라 비즈니스적으로 효과적인 문제인가도 고려해야 함.
사례: 반도체 제조 공정에서의 품질 예측
반도체 공정에서 센서 데이터(X) 를 활용해 품질 지표(Y) 를 예측한다면, 계측 데이터를 활용하지 않고도 불량을 판별하여 생산성 향상 가능하게 될 것이다.
2) 데이터 수집
Garbage In, Garbage Out (GIGO) 원칙을 명심해야 한다. 데이터가 부정확하면 좋은 알고리즘을 사용해도 잘못된 결과가 나오므로 input 데이터의 품질이 가장 중요하다.
데이터는 많을수록 좋지만, 단 현실적으로 가용한 컴퓨팅 자원 내에서 처리할 수 있어야 함.
3) 데이터 탐색 (데이터랑 친해지는 과정!)
데이터 탐색은 분석 전 가장 중요한 과정 중 하나이다. 그냥 raw data를 때려박는 것은 모델의 이해와 실용적인 활용에 굉장히 치명적인 악영향을 끼친다.
모델링 전에 데이터의 특성을 충분히 이해해야 하고, 다양한 시각화 도구(예: Tableau, Python 라이브러리) 를 활용하여 데이터를 직관적으로 분석한다.
4) 모델링
데이터의 특성에 따라 적절한 알고리즘을 선택해야 함.
모델 선택 시 고려해야 할 요소:
5) 결과 적용 및 운영
[1] Korea University - Multivariate Data Analysis 01_part_1 ~ 01_part_4
[2] 회귀분석의 유래
[3] 연관규칙분석
[4] 요인분석