[Class Review](MDA_강필성) 1. Introduction to Multivariate Data Analysis Part

minbrass·2025년 2월 5일

Multivariate Data Analysis _강필성교수님

목록 보기

1/8

* 본 글은 서울대학교 산업공학과 DSBA 연구실 강필성 교수님의 "다변량데이터분석" 학부강의의 review 입니다.

Data-driven Decision Making VS. Experience-driven Decision Making

	Data-driven Decision Making	Experience-driven Decision Making
의사결정 방식	데이터를 분석하고, 통계 및 모델을 활용하여 최적의 의사결정을 수행	개인의 경험, 직관, 과거 사례를 바탕으로 의사결정을 수행
기반 자료	정량적 데이터(실측 데이터, 통계 분석, 기계학습 모델 등)	정성적 데이터(경험, 직감, 관찰, 도메인 지식)
분석 방법	최적화, 예측 모델링, 통계적 분석 등(첨부된 이미지 참고)	경험적 판단, 휴리스틱(Heuristics), 과거 사례 비교
신뢰성	데이터가 충분하고 정확하면 높은 신뢰성을 가짐	개인의 경험과 직관이 정확하면 유용하지만, 편향(Bias)이 개입될 가능성이 큼
주요 문제점	데이터가 잘못되거나 편향된 경우 잘못된 결론을 도출할 가능성이 있음	경험이 부족한 경우 잘못된 판단을 내릴 가능성이 높음

데이터 기반의 의사결정은 설명, 예측, 최적화의 단계를 거친다.

1) 설명(Descriptive Analytics) - What has happened?

Standard reports → "무슨 일이 일어났는가?"
Ad hoc reports → "얼마나 많이, 자주, 어디에서 발생했는가?"
Query drilldown → "문제가 정확히 어디에 있는 것인가?"
Alerts → "이 상황에 필요한 액션이 무엇인가?"

2) 예측(Predictive Analytics) - What could happened?

Statistical analysis → "왜 이런 일이 발생한 것인가?"
Forecasting → "현재의 트렌드가 계속될 것인가?"
Predictive modeling → "다음에는 무슨 일이 발생할 것인가?"

3) 최적화(Prescriptive Analytics) - What should happened?

Optimization → "실행할 수 있는 최적의 선택은 무엇인가?"

Overview of Data Mining

Data Mining은 대규모 데이터셋에서 유용한 정보를 추출하고, 의미 있는 패턴을 발견하는 과정을 의미한다. 꼭 머신러닝이나 인공지능 알고리즘의 방법론일 필요는 없으며, 데이터를 통해서 그 안에 숨겨진 지식을 발견하자는 것이 그 목표이다.

데이터 마이닝에서 주로 사용되는 핵심 기법들을 간략하게 언급하고 넘어가고자 한다.

1) Association Rule Learning (연관 규칙 학습)

데이터 간의 연관성을 찾는 기법 (예: 장바구니 분석)
대표 알고리즘: Apriori, FP-Growth

2) Classification (분류)

특정 레이블을 가진 데이터를 학습하여 새로운 데이터를 분류
대표 알고리즘: Decision Tree, Random Forest, Naïve Bayes, SVM

3) Clustering (군집화)

데이터 간의 유사도를 기반으로 그룹을 형성하는 기법
대표 알고리즘: K-Means, Hierarchical Clustering, DBSCAN

4) Regression (회귀 분석)

연속적인 값을 예측하는 모델
대표 알고리즘: Linear Regression, Logistic Regression, Ridge/Lasso Regression

5) Anomaly Detection (이상 탐지)

정상적인 패턴과 다른 이상치를 찾아내는 기법
대표 알고리즘: Isolation Forest, Local Outlier Factor (LOF)

Data Science Application

데이터 사이언스를 적용할 수 있는 분야는 무궁무진하다. 여기서는 간단하게 영상에서 등장한 섹터들만 다뤄보도록 하겠다.

1. 데이터 시각화 및 요약

워드 클라우드를 이용한 분석

특정 문서에서 자주 등장하는 단어를 강조하여 표현하는 기법이다.
예시: 두 전직 대통령(이명박, 노무현)의 취임 연설 분석
이명박 대통령: "위기", "경제", "일자리" 등의 단어가 강조되었다.
노무현 대통령: "정치", "평화", "경제" 등의 단어가 강조되었다.
이러한 시각화를 통해 정부의 국정 방향을 직관적으로 이해할 수 있게 된다.

제품 및 브랜드 평가 분석

소셜 미디어, 뉴스, 블로그 등에서 소비자의 반응을 분석하여 긍정/부정 감정을 파악할 수 있다.
현대자동차와 경쟁사의 차량에 대한 긍·부정 감정 비율 비교 사례를 확인할 수 있으며, 분석 결과를 통해 기업이 제품의 강점과 약점을 쉽게 파악 가능하다.

중앙은행 연설문 분석

각국 중앙은행 총재들의 연설문을 분석하여 경제 정책 방향성 파악할 수 있다.
국가별 통화 정책의 유사성 및 차이점을 시각적으로 비교한다. 예를 들어, 한국은 캐나다와 유사한 경제 정책을 보였고, 일본과 스웨덴은 독자적인 정책을 펼쳤음을 확인할 수 있다.

2. 미래 예측 및 진단

주식 시장 & 경제 예측

데이터 사이언스를 활용하여 주식시장, 경제 지표, 날씨 등의 변동성을 예측 가능하다.
영화 산업에서도 활용: 영화 기생충의 흥행 여부를 사전에 예측하는 데에 사용할 수 있다.

반도체 공정 품질 예측 (삼성전자 사례)

기존에는 웨이퍼 품질 검사를 샘플링 방식으로 진행했지만, 데이터분석을 통해 전체 웨이퍼의 품질을 예측하는 시스템 도입했다.
장비의 센서 데이터(온도, 압력 등)를 활용하여 품질 지표를 추정하는 기법이 등장하였으며, 이 기법을 통해 불량품을 미리 예측하고 공정 효율성을 높였다.

3. 추천 시스템

전자상거래 & 엔터테인먼트

사용자의 구매 이력을 기반으로 제품을 추천할 수 있다. 예를들어, 아이패드 프로를 구매한 사용자에게 애플 펜슬, 키보드 등 아이패드 프로와 어울리는 제품(혹은 아이패드 프로의 생산성을 향상시킬 수 있는 시너지가 나는 제품)을 추천해준다.

음악/영상 스트리밍 서비스

스포티파이, 멜론, 넷플릭스, 유튜브 등의 플랫폼에서 사용자 취향을 분석해 콘텐츠 추천해준다.
넷플릭스는 데이터 분석을 활용한 추천 시스템을 통해 사용자의 만족도를 극대화시킨 사례가 있음. (흔히 알고리즘이라고 불리는 시스템)

Multivariate Data Analysis for Data Science

다변량 데이터 분석은 크게 다섯가지의 카테고리로 나눌 수 있다.

Data Reduction / Structural Simplification

Sorting and Grouping

Investigation of the dependence among variables

Prediction

Hypothesis construction and testing

각 항목에 대해서는 이후 강의들에서 자세하게 다룰 것이므로, 여기서는 간단하게만 다루고 넘어갈 것이다. 아래에서 하나하나 요약하여 살펴보겠다.

1. Data Reduction / Structural Simplification (데이터 차원 축소)

데이터의 본질적인 정보를 유지하면서 차원을 줄이는 기법이다. 복잡한 데이터셋을 보다 단순한 형태로 변환하여 해석가능성을 높이면서도, 중요한 정보의 손실없이 최대한 단순하게 정보를 표현하자는 것이다.
대표적인 방법으로는 PCA(Principal Component Analysis, 주성분 분석)가 있다. PCA는 원래 변수들 간의 상관관계를 활용하여 새로운 직교 축인 주성분을 찾아내는 것이 핵심 원리이다.
PCA의 방법을 간단하게 설명하자면, 먼저 데이터 행렬 X에 대한 공분산 행렬을 계산한다. 그 다음 공분산 행렬의 고유벡터를 찾아내는데, 이 고유벡터가 바로 주성분이 된다. 각 주성분은 원래 변수들의 선형 결합으로 표현되며, 주성분들 간에는 서로 독립적이다. 따라서 PCA를 통해 데이터의 주요 특성을 효과적으로 요약할 수 있게 되는 것이다!

2. Sorting and Grouping (데이터 그룹핑)

유사한 데이터끼리 묶는 기법으로, 특정 패턴을 찾아내는데 사용한다. '묶었다'라는 표현은 비슷한 객체들을 하나의 군집으로 정의하고, 각각의 서로다른 군집들이 어떤 특징을 지니고 있는지 확인하는 것이다.
주요 방법으로는 계층적 군집 분석(Hierarchical Clustering)과 K-means 군집 분석이 있다.

3. Investigation of the dependence among variables (변수 간 관계 분석)

변수들이 서로 어떤 관계를 갖고 있는지 그 본질적인 특성을 파악하는 기법이다.
주요 방법으로는 연관 규칙 분석(Association Rule Analysis)과 요인분석(Factor Analysis) 등이 있다.
~~데이터마이닝이나 응용통계시간에 배우기 때문에 해당 강의에서는 따로 다루지 않는다고 한다. 따라서 아래는 내가 찾아본 내용이다.~~

연관규칙분석은 데이터 항목 간의 관계를 찾아내는 데이터 마이닝 기법이며, 주로 대규모 거래 데이터에서 특정 항목들이 함께 등장하는 패턴을 발견하는데 사용된다.

연관규칙은 보통 $X->Y$ 의 형태로 표현되며, 다음 세 가지 주요 측정 지표가 사용된다.

지지도: 전체 거래 중 $X$ 와 $Y$ 가 함께 등장한 비율
$Support(X->Y) = \frac{X와 Y를 모두 포함하는 거래 수}{전체 거래 수}$

신뢰도: $X$ 가 발생했을 때 $Y$ 도 함께 발생할 조건부 확률
$Confidence(X->Y) = \frac{X와 Y를 함께 구매한 거래 수}{X를 구매한 거래 수}$

향상도: $X$ 와 $Y$ 가 독립적이지 않고 강한 상관관계를 가지는지 판단. $Lift>1$ 이면 양의 상관관계를 갖고, $Lift=1$ 이면 서로 무관, $Lift<1$ 이면 음의 상관관계를 가진다.
$Lift(X->Y) = \frac{Confidence(X->Y)}{Support(Y)}$

요인분석은 다수의 변수들이, 단 몇 개의 숨겨진(잠재적인) 요인으로 설명될 수 있는지 찾는 통계 기법이다. 예를 들어, 심리 검사에서 "집중력, 기억력, 판단력"이 사실상 '인지 능력'이라는 공통 요인에 의해 결정된다는 개념을 찾는 과정이다.

공통요인은 여러 변수들에 공통적으로 영향을 미치는 숨겨진 변수이고, 특수요인은 특정 변수에만 영향을 주는 개별적 요인이다.

요인부하량은 각 변수가 특정 요인에 대해 얼마나 강한 상관관계를 가지는지 나타내며, 값이 클수록 해당 변수와 요인이 밀접한 관련이 있는 것이다.

4. Prediction (예측 모형)

어떠한 목적을 가지고 하나의 변수를 다른 변수들의 관측치로부터 예측하는 것이다. 즉, 미래를 예측하는 분석 기법으로, 대표적인 방법으로는 분류(Classification)와 회귀(Regression)가 있다.

회귀라는 말은 공부를 해도해도 직관적으로 와닿지 않는 것 같다. 기억 저장용으로 회귀의 어원에 대해서 찾아보았다.
"'회귀'라는 용어는 1885년 영국의 과학자 갈톤(F. Galton)이 발표한 '유전에 의하여 보통사람의 신장으로 회귀(Regression toward Meiocrity in Hereditary Stature'라는 논문에서 비롯되었다. 그는 아들의 키와 부모의 평균 키와의 관계를 분석하였는데, 부모의 키가 매우 클 때(또는 작을 때) 아들의 키는 일반적으로 평균키보다는 크지만(작지만) 그들의 부모만큼 크(작)지는 않다는 결론이다. 즉 부모의 키가 크(작)더라도 그 자식들은 결국 보통키로 회귀(돌아간다)한다는 뜻이다."

5. Hypothesis construction and testing (가설 검정 및 테스트)

데이터에서 특정 가설을 검정하는 기법이다.

Data Science Procedure

데이터 사이언스의 절차는 크게 다섯 단계로 구분지을 수 있다. 아래에서 간단하게 살펴 볼 것이며, 앞으로의 수업에서는 모델링 단계를 집중적으로 공부하게 될 것이다.

문제 정의 및 질문 생성

데이터 수집

데이터 탐색

모델링

결과 적용 및 운영

1) 문제 정의 및 질문 설정

좋은 질문 즉, 흥미로운 질문을 던지는 것이 중요하다. 문제를 해결하면 시스템, 조직, 기업 운영 등에 실질적인 가치가 있는지 판단해야 한다. 연구적 의미뿐만 아니라 비즈니스적으로 효과적인 문제인가도 고려해야 함.
사례: 반도체 제조 공정에서의 품질 예측
반도체 공정에서 센서 데이터(X) 를 활용해 품질 지표(Y) 를 예측한다면, 계측 데이터를 활용하지 않고도 불량을 판별하여 생산성 향상 가능하게 될 것이다.

2) 데이터 수집

Garbage In, Garbage Out (GIGO) 원칙을 명심해야 한다. 데이터가 부정확하면 좋은 알고리즘을 사용해도 잘못된 결과가 나오므로 input 데이터의 품질이 가장 중요하다.
데이터는 많을수록 좋지만, 단 현실적으로 가용한 컴퓨팅 자원 내에서 처리할 수 있어야 함.

3) 데이터 탐색 (데이터랑 친해지는 과정!)

데이터 탐색은 분석 전 가장 중요한 과정 중 하나이다. 그냥 raw data를 때려박는 것은 모델의 이해와 실용적인 활용에 굉장히 치명적인 악영향을 끼친다.
모델링 전에 데이터의 특성을 충분히 이해해야 하고, 다양한 시각화 도구(예: Tableau, Python 라이브러리) 를 활용하여 데이터를 직관적으로 분석한다.

4) 모델링

데이터의 특성에 따라 적절한 알고리즘을 선택해야 함.
모델 선택 시 고려해야 할 요소:

정답(Label)이 있는가? → 지도학습 (Supervised Learning)
정답 없이 패턴을 찾아야 하는가? → 비지도학습 (Unsupervised Learning)
출력 변수가 범주형인가? → 분류(Classification)
출력 변수가 연속형인가? → 회귀(Regression)

5) 결과 적용 및 운영

모델이 만들어진 후에도 지속적인 유지 보수가 필요하다. 결국 상업적으로 사용되어야 하기 때문에, 결과를 시각화하여 비전공자도 쉽게 이해할 수 있도록 제공하는 것이 유리하고, 모델의 정확도를 지속적으로 개선하기 위해 새로운 데이터로 업데이트도 필요하다.

Reference

[1] Korea University - Multivariate Data Analysis 01_part_1 ~ 01_part_4

[2] 회귀분석의 유래

https://blog.naver.com/definitice/220983804060

[3] 연관규칙분석

https://hezzong.tistory.com/entry/python-%EC%97%B0%EA%B4%80%EA%B7%9C%EC%B9%99%EB%B6%84%EC%84%9DA-Priori-Algorithm

[4] 요인분석

https://kerpect.tistory.com/150

minbrass

인공지능 대학원 진학을 희망하는 학부생의 정리노트

다음 포스트