[단단한 머신러닝] 1장 서론

환공지능·2022년 3월 22일
0

1장 서론

1.1 들어가며...

1.2 머신러닝 기본 용어

  • Dataset : 기록들의 집합
  • Instance & Sample : 하나의 기록 자체
  • Attribute & Feature : 기록의 성질을 반영하는 것
  • Attribute Value : 속성에 관하여 취할 수 있는 값
  • Attribute Space & Sample Space : 속성이 위치하는 공간
  • Feature Vector : 속성 공간 내 좌표 벡터

mm개의 샘플을 가진 데이터 세트
: D=x1,x2,x3,...,xmD = {x_1, x_2, x_3,...,x_m}

각 샘플, dd차원의 샘플 공간 위 하나의 벡터
: xi=(xi1;...;xid)x_i = (x_i1; ...; x_id)

  • Learning & Training : 데이터를 통해 모델을 만들어가는 과정
  • Training Data : 훈련 과정에서 사용되는 데이터
  • Training Sample : 훈련 데이터의 샘플
  • Training Set : Training Sample의 집합
  • Hypothesis : 학습 모델이 데이터 속에 잠재된 어떠한 규칙에 대응되는 것
  • Ground Truth : 학습 모델이 대응되는 대응 규칙 및 진상
  • Classification : 분류, 예측하려는 값이 이산값일 경우
  • Regression : 회귀, 예측하려는 값이 연속값일 경우
  • Clustering : Training Set를 몇 개의 집단으로 나누고, 각 집단을 하나의 Cluster로 설정하여 데이터 내에 잠재되어 있는 어떠한 패턴을 찾는 것
  • Supervised Learning & Unsupervised Learning : 훈련 데이터가 레이블 데이터를 보유하고 있는 경우 지도 학습, 그렇지 않은 경우 비지도 학습
  • Generalization : 학습된 모델이 새로운 데이터에 적용되고 좋은 퍼포먼스를 내는 것
  • I.I.D : Independent and Identically Distributed, 샘플 공간의 모든 샘플이 미지의 분포 DD를 보인다고 가정할 때, 우리가 얻는 샘플이 모두 독립적으로 이러한 분포에서 채집한 것이라는 가정

1.3 가설 공간

귀납은 특수에서 일반으로 일반화하는 과정이며, 구체적인 사실에서 일반성을 가지는 규칙을 발견하는 것입니다. 반면, 연역은 일반에서 특수로 특화하는 과정이며, 기초 원리로부터 구체적인 정황을 추론하는 것입니다.

학습이란 모든 가설로 이루어진 공간에서 탐색하는 과정이며, 탐색 목표는 훈련 데이터세트와 가장 잘 Fit하는 가설을 찾는 것

1.4 귀납적 편향

학습을 통해 얻은 모델은 가설 공간 중에서 하나의 가설에 대응함. 구체적인 학습 알고리즘은 반드시 하나의 모델을 생성해야 하며, 이때 학습 알고리즘의 본연의 편향이 중요하게 작용함.

머신 러닝 알고리즘이 학습 과정에서 특정한 유형에 가설에 대해 편향적이라면 그것을 귀납적 편향(Inductive Bias) 혹은 편향(Bias)이라고 부름. 모든 유효한 머신러닝 알고리즘은 귀납적 편향을 가지고 있으며 그렇지 않을 경우 매번 예측할 때마다 효과가 같아 보이는 가설들에 대해 임의로 선택해야 하는 상황이 올 것.

귀납적 편향은 학습 알고리즘이 방대한 가설 공간에서 가설들을 선택할 때 가지는 휴리스틱한 방법 혹은 가치관으로 해석할 수 있으나, 편향에 대해서 옳고 그름을 판단할 수 있는 일반적인 원칙으로 오컴의 면도날(Occam's Razor)을 들 수 있을 것임.

오컴의 면도날
"만약 다수의 가설이 관측된 것과 일치한다면, 그 중 가장 간단한 것을 선택해야 한다."

NFL(No Free Lunch) Theorm
"학습 알고리즘이 얼마나 똑똑하고, 알고리즘이 얼마나 멍청하건 상관없이 그들의 기대 성능이 같다." 다만 모든 문제가 출현하는 기회가 같거나, 모든 문제가 똑같이 중요하다는 것을 전제로 함

NFL 정리의 가장 큰 교훈은 구체적인 문제를 떠나서 어떤 알고리즘이 가장 좋은가라는 논의는 무의미하다는 것임. 존재하는 모든 잠재적인 문제를 고려한다면 모든 학습 알고리즘이 동등하게 좋을 것이기 때문!

1.5 발전 과정

1.6 응용 현황

1.7 더 읽을 거리

.
.
.

Reference

  • 단단한 머신러닝 - 머신러닝 기본 개념을 제대로 정리한 인공지능 교과서, Zhou Zhihua
profile
데이터사이언티스트 대학원생

0개의 댓글