01. 서론

maro·2023년 12월 24일

단단한 머신러닝-스터디

목록 보기

1/8

'단단한 머신러닝' 책과 스터디 내용을 기반으로 작성하였습니다.

1.1 머신러닝이란

AI (인공지능)
- 사람처럼 학습하고 추론할 수 있는 지능을 가지는 컴퓨터 시스템을 만드는 기술
- 영화에 나타나는 것과 현실에 적용된 인공지능 기술은 강/약으로 차이점을 보입니다.
- 현실에 사용되는 인공지능 기술들은 약 인공지능에 해당합니다.
- 약 인공지능은 사람을 보조적으로 돕는 역할까지만 가능한 경우 입니다.
머신러닝
- 여러 학습 방법 중 컴퓨터라는 도구로 경험(데이터)을 활용하여 시스템 자체를 개선해 나가는 방법을 연구하는 학문
- 명시적인 규칙을 일일이 학습시키지 않아도 자동으로 데이터에서 규칙을 찾아 학습하는 방법을 말합니다.
딥러닝
- 기계학습(ML)의 여러 방법 중 인공신경망을 기반으로 하는 학습 방법
- 인공신경망은 인간의 뇌 신경세포인 뉴런을 수학적으로 모델링한 것입니다.
- 자체적으로 특징으로부터 학습하기 때문에 사람의 개입이 상대적으로 적습니다.
결과적으로 위 세 개념은 다음과 같은 관계를 가진다고 할 수 있습니다.

1.2 머신러닝의 기본 용어(책에 사용되는 용어)

데이터 세트: 데이터(기록)들의 집합
샘플 or 사례: 개별적인 기록은 사물 or 대상에 대한 묘사
속성 or 특성: 사물 or 대상의 특정 부분 or 성질을 반영
특성값: 속성 or 특성이 취할 수 있는 값
샘플 공간: 속성을 속성 공간으로 확장한 공간
특성 벡터: 공간의 각 점은 하나의 좌표 벡터에 상응
차원수
- m개의 샘플들 중 각 샘플이 가지는 d개의 속성이 있다고 가정, 이 때의 d
  ex) $D = \{x_{1}, x_{2}, ..., x_{m}\}$ , $x_{i} = (x_{i1}; x_{i2}; ...; x_{id})$
학습 or 훈련: 데이터를 통해 모델을 만들어가는 과정
훈련 데이터: 훈련 과정에서 사용되는 데이터
훈련 샘플: 훈련 데이터의 각 샘플
훈련 세트: 훈련 샘플의 집합
가설
- 어떠한 사실을 설명하거나 증명하기 위한 가정
- 크게 연구 가설(대립 가설), 귀무 가설로 나뉩니다.
- 연구 가설은 연구자가 검증하려는 가설로 귀무 가설을 부정함으로 가설을 증명하려는 가설입니다.
- 귀무 가설은 처음부터 버릴 것을 예상하는 가설로 변수 간의 차이나 관계가 없음을 통계학적 증거를 통해 증명하려는 가설입니다.
- 기계 학습에서의 가설은 데이터 속의 잠재된 규칙에 학습 모델이 대응하는 것입니다.
- 즉, 데이터 안의 변수 간의 관계 여부를 확률적으로 설명하는데 사용됩니다.
- 학습의 목표는 데이터를 통해 가설을 세우고 잠재되어 있는 규칙을 찾아내기 위함입니다.
진실: 잠재적인 규칙 – 인스턴스, 애트리뷰트
- 학습 알고리즘은 일반적으로 파라미터 설정이 필요한데, 서로 다른 파라미터값과 훈련 데이터를 사용함에 따라 다른 결과를 생성합니다.
  (파라미터는 모델 내부에서 확인이 가능한 변수)
- 데이터를 통해 확인이 가능하며, 모델 외적으로 존재하는 하이퍼파리미터와는 별개의 개념입니다.
레이블(label)
- 결과를 나타내는 정보, 일반적으로 $(𝑥_{𝑖},𝑦_{𝑖})$ 와 같은 형식으로 i번째 샘플을 표현
- Y: 레이블 공간, 출력 공간
분류와 회귀
- 분류: 예측하려는 값이 이산값(명확한 구분이 가능한 값 ex) 물건의 갯수 등) – 이진 분류, 다항 분류
- 회귀: 예측하려는 값이 연속값(연속된 값, 명확한 구분이 불가능한 값 ex) 키, 온도, 몸무게 등)
- 분류도 회귀입니다. 연속된 값을 기반으로 sigmoid를 취해 특정 값에 가깝게 분포되는 값들을 임계값을 기준으로 이산형으로 만들어낸 것이기 때문입니다.
예측
- 훈련 세트에 대해 학습하여 입력 공간 X에서 출력 공간 Y를 투영하는 식을 찾는 과정
검증
- 학습을 통해 모델을 만들고 해당 모델을 활용하여 예측하는 과정
- 테스트 샘플: 검증 과정에 사용되는 샘플

학습 후 모델을 f, 샘플을 x라고 할 때 $y=f(x)$ 으로 표현 가능

클러스터링
- 훈련 세트를 몇 가지 집단으로 분할, 각 집단이 하나의 클러스터입니다.
  자동으로 형성된 클러스터링은 데이터 내에 잠재되어 있는 어떠한 패턴에 대응하여 형성됩니다.
- 데이터에 잠재된 규칙을 발견할 수 있도록 도와주며 더 깊이 분석할 수 있는 기초를 제공해 줍니다.
  cf) 우리가 사전에 알지 못했던 것들, 즉 사전에 레이블이 존재하지 않습니다.
지도학습 vs 비지도 학습
- 지도학습: 회귀, 분류 – 훈련 데이터가 레이블을 보유
- 비지도학습: 클러스터링 – 훈련 데이터가 레이블을 미보유
- 기계학습의 목표는 학습된 모델이 새로운 샘플에 대해 좋은 성능을 내보이는 것입니다.
일반화
- 학습된 모델이 새로운 데이터에 적용되고 좋은 퍼포먼스를 내는 것
- 범용성을 갖추었으며 무한한 샘플 중 일부를 사용하였더라도 전체적인 샘플 공간의 특성을 잘 반영하였다고 기대합니다.
- 반대(일반화 능력 X): 새로운 샘플에 적용하기 힘듭니다.
독립항등분포(i.i.d)
- 샘플 공간의 모든 샘플들이 미지의 분포를 보인다고 가정, 독립적으로 각 분포에서 채집됩니다.
- 전제되지 않는다면 통계적 이론들이 성립되지 않습니다.

1.3 가설공간

귀납
- 특수에서 일반으로 일반화하는 과정(inductive)
- 구체적인 사실에서 일반성을 가지는 규칙을 찾는 것
연역
- 일반에서 특수로 특화하는 과정(deductive)
- 기초 원리로부터 구체적인 정황을 추론
- 수학적 공리, 추론 규칙에 기반을 두고 수학적 정리를 유도
  (*수학적 공리: 명백한 진실)

샘플을 통해 학습하는 것은 명백한 귀납 과정

귀납 학습
좁은 의미: 훈련 데이터에서 개념을 배울 것
넓은 의미: 샘플을 통해 배우는 것

cf) 개념학습기술은 현재 연구되거나 응용되는 것이 비교적 많지 않습니다. 일반화 성능이 좋으면서 의미가 명확한 개념의 습득이 쉽지 않기 때문입니다. 따라서 현실에 자주 사용되는 모델은 대부분 블랙박스 기술입니다.

가설공간
- 고려가능한 속성의 갯수에 의해 가능한 샘플의 갯수
- 따라서 $속성1^{속성값의 수+1}*속성2^{속성값의 수+1}* ... + 1$ 가 고려 가능한 가설공간이 됩니다.
- 학습 과정은 한정적인 훈련 데이터만으로 진행되므로 이 중 일부만 이용합니다.
버전 공간
- 훈련 데이터 세트와 가설들이 일치하는 가설들의 집합

1.4 귀납적 편향

학습을 통해 얻은 모델은 가설 공간 중 하나의 가설에 대응
버전 공간의 문제
- 훈련 데이터 세트와 일치하는 가설들이 대응하는 모델이 새로운 샘플을 만났을 때 서로 다른 출력을 생산한다는 것
- 구체적인 학습 알고리즘은 반드시 하나의 모델을 생성해 내야 합니다.

어떤 것이 더 좋은 가설인지 모르는 경우 학습 알고리즘 본연의 '편향'이 중요하게 작용합니다.

귀납적 편향
- 머신러닝 알고리즘의 학습과정에서 특정한 가설에 대한 편향
- 모든 유효한 알고리즘이 귀납적 편향을 보유
- 귀납적 편향은 기본적인 가정을 가지고 있다.
  - CNN은 기본적으로 Sparse한 데이터가 존재할 것
  - RNN은 시퀀스 데이터가 있을 것
  - Transformer: 모든 층이 Feed Forward 식으로 구성
    - 단순한 완전 연결층으로만 구성
    - 따라서 inductive bias에 약합니다.
    - inductive bias가 약하면 많은 데이터가 학습에 필요합니다.
  - Bias/Variance trade off
    - 샘플링 과정 크기 – Bias가 높으면 적은 샘플로도 충분한 학습이 가능합니다.
오컴의 면도날
- 다수의 가설이 관측된 것과 일치하다면 가장 간단한 것을 선택해야 한다는 자연과학 연구에서 가장 기본이 되는 원칙입니다.
- 유일한 원칙은 아니며 어떤 모델이 간단한지 판별이 어렵다는 문제도 있습니다.
- NFL(공짜 점심은 없다.)
  - 학습 알고리즘들이 얼만큼 똑똑한지에 관계없이 기대 성능은 동일하다는 말입니다.
  - 전제 조건은 '문제'가 출현하는 기회가 같거나. 모든 문제가 똑같이 중요하다는 것입니다.

maro

다음 포스트

01. 서론

단단한 머신러닝-스터디

1.1 머신러닝이란

1.2 머신러닝의 기본 용어(책에 사용되는 용어)

1.3 가설공간

1.4 귀납적 편향

02. 모델 평가 및 선택

0개의 댓글