Machine Learning
아서 사무엘의 정의 : 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야
머신러닝의 목표는 관측된 데이터를 기반으로 현실을 가장 잘 설명할 수 있는(일반화 성능이 좋은) 함수(시스템)을 찾는 것이다.
우리가 볼 수 있는 데이터는 시스템에 의해 관측된 것이며, 데이터의 왜곡, 노이즈, outlier가 있을 수 있다.
동굴의 비유(Alloegory of the Cave)와 머신러닝

지하의 동굴에 살고 있는 사람들을 상상해 보자.
빛으로 향한 동굴의 좁은 통로가 입구까지 달하고 있다.
사람들은 어릴 적부터 손과 발, 목이 속박되고 있어 움직이지도 못하고,
쭉 동굴의 안쪽을 보면서,되돌아 보는 것도 할 수 없다.
입구의 아득한 위쪽에 불이 불타고 있고, 사람들을 뒤로부터 비추고 있다.
불과 사람들의 사이에 길이 있어, 길을 따라서 낮은 벽이 만들어져 있다.
…… 벽을 따라서, 여러가지 종류의 도구, 나무나 돌 등으로 만들어진 인간이나 동물의 상이 벽 위에 옮겨져 간다.
옮겨 가는 사람들 속에는 소리를 내는 것도 있으며, 입 다물고 있는 것도 있다. ……
플라톤은 동굴의 비유를 통해 우리가 현실에 보고 있는 것은 실체(이데아)의 '그림자'에 지나지 않다고 플라톤은 주장하며, 인간은 동굴 밖의 실체(이데아)를 보아야 한다고 주장했다.
머신러닝에 해당 비유를 적용해 보자
비유를 통해 생각나는 포인트를 몇개 짚어보자.
머신러닝의 종류
지도학습 (Supervised Learning) : 정답 레이블 정보를 활용하여 알고리즘을 학습하는 방법론
준지도 학습 (Semi-Supervised Learning) : 일부의 데이터만 정답이 존재하고, 다수의 데이터에는 레이블이 없는 상황에서 알고리즘을 학습하는 학습 방법론
자기 지도 학습 (Self-Supervised Learning) : 정답이 없는 데이터에서 정답을 강제로 생성 후 학습하는 방법론.
비지도 학습 (Un-Supervised Learning) : 정답 레이블 정보가 없이, 입력 데이터만을 활용하여 알고리즘을 학습하는 학습 방법론
강화 학습 (Reinforcement Learning) : 어떤 환경(Enviornment)에서 에이전트(Agent)가 보상(Reward)을 이용해 특정 행동을 하도록 유도하는 학습 방법론.
분산
분산도 (degree of dispersion) : 관찰된 자료가 흩어져 있는 정도를 말한다
범위 (range) : 관찰값들 중에서 가장 큰 수치와 가장 작은 수치의 차 (MAX(X) - MIN(X))
평균편차 (average deviation) : 관측값이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값의 평균

분산 (variance) : 관측값이 평균값을 기준으로 얼마나 흩어져 있는지를 나타낸다.

표준편차 (standard deviation) :
분산의 특성
분산의 정의 :
상수(a) 곱하기 :
상수(a) 더하기 :
확률변수의 선형결합
정보량
평소에 화를 잘 내지 않는 A라는 사람을 생각해보자. 우리는 ~ 의 사건 중 에 대해 A는 화를 내지 않을 것으로 예측해 볼 수 있다. 하지만, 사건 에 의해 A가 화가 났다면, 이는 일반적인 예측과 다르며(놀라움의 정도가 크며), 우리는 를 통해 A에 대한 정보를 더 얻을 수 있을 것이다.
한 사건(event)에서 기대되는 정보량(quantity of information, I)을 수량화 해보기 위해 확률(P)와 정보량(I)을 중요성과 가법성의 관점에서 살펴보자
정보량
중요성 조건은 어떤 사건의 확률이 높을수록 이 사건으로 알려지는 정보량이 적어짐을 나타내므로, 중요성에 따른 정보량을 아래와 같이 나타낼 수 있다
하지만, 이므로, (1.1)은 가법성의 조건이 충족되지 못한다.
두 독립 사건의 확률값은 곱으로 이루어지지만, 두 사건의 결합된 정보 내용은 더해져야 한다. 우리는 log를 도입하여 해당 문제를 해결할 수 있다.
계산된 정보량은 밑이 2인 로그로 계산되기 때문에 그 단위는 bit가 된다. 해당 값은 그 사건에 의해 생성되는 놀라움의 정도(amount of surprise)라고 할 수 있다. 예를 들어, 로또 1등에 당첨되는 경우(확률값이 작은 경우)는 매우 놀랍지만, 꽝인 경우(확률값이 큰 경우)는 놀라움의 정도가 작다.
엔트로피
엔트로피(H) : 확률 변수의 표본 공간에서 나타나는 모든 사건들의 정보량의 평균적인 기댓값
(= 평균 정보량 = 확률분포에서의 정보량을 정량화)
분포의 크기와 엔트로피
분포가 크다는 것은 데이터가 더 넓게 퍼져 있다는 것을 의미한다. 즉, 각 사건의 발생 가능성이 더 균등하게 분포될 수 있음을 알려준다.
분포가 작을 경우는 데이터가 평균에 가까이 모여 있다는 것을 의미한다. 이는 특정 사건의 발생 가능성이 더 높음을 알려준다.
결국 분포가 크면 데이터의 변동성이 크고, 엔트로피가 높아지며, 이는 더 많은 정보량을 의미한다. 반면 분포가 작으면 데이터의 변동성이 적고, 엔트로피가 낮아지며, 이는 정보량이 적다는 것을 의미한다.
분산과 엔트로피
분산은 주로 수치 데이터의 변동성을 측정하고, 데이터 값이 평균에서 얼마나 멀리 떨어져 있는지를 나타낸다. 반면, 엔트로피는 확률분포의 불확실성을 측정하며, 이는 사건의 발생 확률 분포에 따라 달라집니다.
데이터 포인트들이 평균에서 멀리 떨어져 있어도, 그 분포가 예측 가능하거나 균일하지 않을 수 있다. 예를 들어, 매우 높은 분산을 가진 데이터 분포도 평균 근처에 많은 데이터가 집중되어 있고 극단적인 값을 가진 소수의 이상치에 의해 분산이 높아질 수 있다. 이 경우 엔트로피는 반드시 높지는 않다.
엔트로피는 예측이 어렵고 결과의 분포가 균일할 때(가 일정할수록) 높게 나타나므로, 분산이 높다고 해서 반드시 엔트로피가 높은 것은 아니다.
공분산
결합확률분포 : 두 개 이상의 확률변수가 관련된 확률분포
공분산(Covariance) : 결합확률분포(확률변수 2개)의 분산
공분산의 해석
피어슨 상관계수(Correlation, Coefficient)
공분산의 특성
상수(a, b) 곱하기
상수(a, b) 더하기
확률변수의 선형결합 (상수항은 무시됨)
추론의 접근 방법
Deterministic approach
Probabilistic approach
보통 머신러닝(ML)에서 결정론적 방법으로 해결할 수 있는 문제는 제한적인데, 이유는 아래와 같다.
추정
우리가 사용하는 데이터는 현실(모수)에서 추출된 일부분(표본)이다. ML의 목표는 표본을 사용하여 현실을 가장 잘 설명하는 모델을 만드는 것이기 때문에, 우리는 표본을 통해 모집단의 특성을 알아내야 한다.
추정 : 표본의 특성을 기초로 하여 모집단의 특성을 파악하는 것
추정값(estimate) : 모수를 추정하여 나온 결괏괎 그 자체
추정치/추정량(estimator) : 추정값을 구하기 위하여 사용되는 추정방법, 혹은 추정값 계산을 위한 통계량
MSE(Mean Squared Error)를 사용하여 최적 추정치를 찾아보자 -> Deterministic
: 각 데이터 포인트 || : 추정치 || : 데이터 포인트의 수
에 대해 미분하면
위 식이 0일 경우 MSE가 최소가 된다
결국 MSE를 최소화하는 추정치는 평균이고, 이것이 최적 추정치이다.
MLE(Maximum Likelihood Estimation) : 주어진 데이터에 대해 특정한 확률 모델(분포)의 파라미터(모수)를 추정하는 통계적 방법





Simple Liner function
이처럼, 서로 선형 독립인 변수들(과자와 우유의 개수)이 파라미터(가격) 만큼 일정한 비율로 종속 변수(total cost)에 영향을 미치는 관계를 표현한 것이 liner function이다.
이를 일반화 시키면 아래와 같다
feature가 하나인 단순한 경우 (y = ) MSE를 사용하여 에러가 최소화되는 값을 찾아보자



최적 추정치는 평균이므로, 위 식의 값들은 아래와 같이 나타낼 수 있다.
결국, 최적 와 는 다음과 같다.