해당 포스트에서는 머신러닝이 무엇인지, 선형대수학이 왜 머신러닝에서 중요한지를 알아보고 나아가 데이터 분석의 정의와 방법들을 간단하게 정리할 것이다.
선형대수학의 명확한 정의를 찾지는 못했다. 대학교재로 사용되는 선형대수학 서적들을 찾아보았으나 대부분 벡터가 무엇인지 문제를 어떻게 푸는지가 1장이었다. 가끔 보이는 서론에서도 선형대수학의 정의에 대해서는 명확한 설명이 부족했다.
하지만 이런 문서들에서 공통적으로 설명하는 것은 선형대수학이란 선형 방정식을 다루는 학문 이라는 것이다.
조금 더 선형대수학 책들을 뒤지다보니 선형 계(system) 에 대해 설명을 해주는 서적을 찾았다. Jim Hefferon. Linear Algebra (4th ed.) 의 첫번째 쳅터에서는 선형 방정식 시스템은 수학과 과학에서 일반적이다 라고 시작하며 지렛대에서 서로 다른 두개의 물체간의 균형을 잡는 방법과 TNT(폭탄 원료) 합성법에서 원료 및 결과물의 비율을 알아내는 방법을 예시로 들며 선형 방정식이 수학 및 과학 분야에서 어떻게 사용되는지를 설명한다.


[그림1] 출처: Jim Hefferon. Linear Algebra (4th ed.). chapter 1
이렇게 봐도 잘 와닿지가 않는다. 선형 방정식과 일반 방정식의 차이가 뭔데?
개인적으로 선형대수학 이라는 명칭이 애매해서 한번에 와닿지가 않는 것 같다. 그래서 옥스퍼드 사전에 linear 를 검색해봤다
(mathematics) able to be represented by a straight line on a graph
linear equations
찾았다. 선형방정식은 (직)선형 방정식이라는 것이다.
방정식에서 차수가 1보다 큰 식을 그래프로 나타내면 이 그래프들은 더이상 (직)선형적이지 않다. 추가로 한국에서는 1차식 그래프, 2차식 그래프, 3차식 그래프라고 표현하는 것이 영어로는 말 그대로 Linear equation graph, Quadratic equation graph, Cubic equation graph 이다. 표현방식과 뉘앙스가 달라서 1차식 계(system) = linear system 이라는 것을 연결시키지 못했던 것.
2차 방정식 그래프 (y = x^2)

3차 방정식 그래프 (y = x^3)

이제야 위키피디아의 선형대수학 정의가 이해가 가는 것 같다. 선형대수학(線型代數學, 영어: linear algebra)은 벡터 공간, 벡터, 선형 변환, 행렬, 연립 선형 방정식 등을 연구하는 대수학의 한 분야이다.
머신러닝은 컴퓨터라는 도구로 경험을 활용해 시스템 자체를 개선해 나가는 방법을 연구하는 학문입니다. 컴퓨터 시스템에서 일반적으로 경험은 데이터라는 형식으로 존재하고, 따라서 머신러닝이 연구하는 주요 내용은 학습 알고리즘, 즉 컴퓨터를 활용해 데이터에서 하나의 모델을 만들어내는 알고리즘이라 할 수 있습니다.[^1]
하지만 데이터의 모양은 천차만별일 수 있다. 왜 하필 선형 방정식 - 행렬 - 벡터의 모양으로 사용할까?
| 구 | 동 | 계약일 | 거래금액(만원) | 전용면적(㎡) | 층 | 건축년도 | 건물유형 |
|---|---|---|---|---|---|---|---|
| 동작구 | 신대방동 | 2025-12-31 | 73,000 | 59.76 | 4 | 1997 | 아파트 |
| 송파구 | 문정동 | 2025-12-31 | 17,050 | 19.74 | 7 | 2016 | 오피스텔 |
| 양천구 | 신정동 | 2025-12-31 | 122,800 | 113.91 | 16 | 2000 | 아파트 |
그냥 이렇게 특성마다 각각의 데이터로 저장해도 상관없는 것 아닌가?
WHEN two or more populations have been measured in several characters, xl, ... , x8, special interest attaches to certain linear functions of the measurements by which the populations are best discriminated.(Fisher, 1936, p. 179)
두 개 이상의 모집단이 여러 특성(변수)들로 측정되었을 때 그 측정값들의 특정 선형결합(linear function) 에 특별한 관심이 생긴다, 그 선형결합을 통해 모집단을 가장 잘 구분할 수 있기 때문이다.
(2026-02-13 기준 내 이해) ※ 이후 학습 후 수정 필요
특성마다 각각의 데이터로 비교를 하면 column 단위로는 비교가 되지만 해당 관측값의 row 컨텍스트를 연관짓기 힘들다. 이를 선형 결합하면 측정 값들을 전체 맥락을 이용한 비교가 가능하게 된다.
경험을 통해 시스템을 개선해나갈 때 개선하기 위한 데이터와 그 데이터들을 적절하게 분류하기 위한 기준이 필요한데 그 선형 결합 된 데이터 집단이 이 기준에 적합하기때문에 머신러닝에 선형대수학이 필요하다 라는것이 나의 결론이다.
데이터 분석의 정의를 찾아보았을 때 위키피디아에서 아래의 논문을 인용하여 설명하고 있었다.
All in all, I have come to feel that my central interest is in data analysis, which I take to include, among other things: procedures for analyzing data, techniques for interpreting the results of such procedures, ways of planning the gathering of data to make its analysis easier, more precise or more accurate, and all the machinery and results of (mathematical) statistics which apply to analyzing data.(Tukey, 1962, p. 2)
저자는 나열되는 것들이 data analysis에 포함된다고 설명한다.
하지만 데이터의 질(quality)이 낮으면 분석 결과 역시 부정확할 수 밖에 없다. 실제 세상(real-world) 에서 수집된 정제되지 않은 데이터들은 많은 결측값, 이상치, 중복값등을 포함하고 있으며 이런 데이터의 질을 상승시키기 위해서는 여러가지 전처리를 수행해야한다. (data cleaning)
Missing Value. 데이터에서 값이 누락되거나 기록되지 않은 경우
| 구분 | MCAR | MAR | MNAR |
|---|---|---|---|
| 용어 의미 | Missing Completely At Random | Missing At Random | Missing Not At Random |
| 정의 | 결측 발생 확률이 어떤 변수의 값에도 의존하지 않음 | 결측 발생 확률이 관측된 다른 변수에는 의존하지만, 결측된 값 자체에는 의존하지 않음 | 결측 발생 확률이 결측된 값 자체에 의존함 |
| 결측 예측 가능? | 불가능 | 다른 변수로 예측 가능 | 해당 값을 알지 못하면 설명 불가능 |
| 예시 | 데이터 수집 프로그램 오류로 일부 거래금액이 무작위 누락 | 3월에 계약 건수가 많아 업무 과부하로 거래금액 누락 증가 (계약일로 설명 가능) | 일정 금액 이상의 고가 거래는 신고 회피로 거래금액 누락 |
결측값을 처리하는 대표적인 방법은 아래와 같다
| 구 | 동 | 계약일 | 거래금액(만원) | 전용면적(㎡) | 층 | 건축년도 | 건물유형 |
|---|---|---|---|---|---|---|---|
| 동작구 | 신대방동 | 2025-03-17 | NA | 59.76 | 4 | 1997 | 아파트 |
| 송파구 | 문정동 | 2025-12-31 | 17,050 | 19.74 | 7 | 2016 | 오피스텔 |
| 양천구 | 신정동 | 2025-12-31 | 122,800 | 113.91 | 16 | 2000 | 아파트 |
위의 데이터를 예시로 들었을 때 첫번째 row 의 거래금액이 결측값이기때문에 해당 row 전체를 삭제한다
| 구 | 동 | 계약일 | 거래금액(만원) | 전용면적(㎡) | 층 | 건축년도 | 건물유형 |
|---|---|---|---|---|---|---|---|
| 송파구 | 문정동 | 2025-12-31 | 17,050 | 19.74 | 7 | 2016 | 오피스텔 |
| 양천구 | 신정동 | 2025-12-31 | 122,800 | 113.91 | 16 | 2000 | 아파트 |
위의 모델들을 검증하기위해 시뮬레이션을 통한 테스트 (추가 정보 & 수정 필요)
데이터 세트에서 예상되는 관측 항목에서 격차가 있는 값. 많은 데이터에서 일반적으로 관측되지 않는 값
anomaly : 예상되는 행동을 따르지 않는 패턴. outlier 를 포함하는 더 넓은 개념 (추후 보충학습 필요, 이 포스팅에서는 다루지 않음)
평균이나 최소제곱선(least squares line = line of best fit = regression line)등에 큰 영향을 미치기 때문에 이상치를 발견하고 다른 주요 지표에 미치는 영향을 최소화하기 위한 방법들이 필요함
그림2. 출처: 위키피디아
그림3
그림4. 출처: 위키피디아
출처: statisticshowto