[ Supervised Machine Learning : Regression and Classification ] What is Machine Learning?

인화·2025년 1월 2일
2

ML 강의 정리

목록 보기
1/4

 이 글은 Coursera에서 제공하는 Andrew Ng 교수님의 Supervised Machine Learning : Regression and Classification 강의를 듣고 기록한 것입니다.


What is Machine Learning?

 머신러닝이란, 명확한 프로그래밍 없이 컴퓨터에게 학습하는 능력을 부여하는 연구 분야이다. 이러한 머신러닝 알고리즘에는 지도학습(Supervised learning)과 비지도학습(Unsupervised learning), 강화학습(Reinforcement learning) 등 다양한 유형들이 있다.

 이번 강의에선 두 가지 주요 알고리즘 유형인 Supervised learning과 Unsupervised learning이 무엇인지에 대해 다룬다.

Supervised learning vs Unsupervised learning

Supervised Learning

 Supervised learning이란, input에 대한 output(right answer)의 쌍으로 이뤄진 데이터셋을 통해 모델을 훈련시키고, 훈련된 결과를 통해 이전에 없던 새로운 input이 들어왔을 때, 적절한 output을 추측하는 것이다.

 이러한 Supervised Learning의 종류에는 Regression과 Classification이 있다.

Regression (회귀)

 Regression은 무한히 많은 가능성을 예측하고자 하는 방법이다. 데이터를 그래프에 표시하고, 이 위에 직선을 표시한다든지, 복잡한 함수나 곡선을 표시한다든지 하는 방식으로 데이터에 맞는 선을 만들어 output을 예측한다. 이러한 회귀에서는 예측 결과가 연속적이며, 1.7, 0.5와 같은 실수를 output으로 지닐 수 있다.

 대표적인 Regression의 예시는 집의 크기를 통해 가격을 예측하는 것이 있다.
 여기에서도 보듯이, 데이터를 그래프에 표시하고 데이터에 맞는 선을 그려 그 선을 기반으로 결과를 예측한다.

Classification (분류)

 Classification이란, 예측하고자 하는 결과가 categories인 경우를 의미한다. 예를 들어 사진을 통해 사진에 있는 동물이 고양이인지 개인지 예측하는 것이 이에 해당한다. Classification는 회귀와는 달리 유한하고 제한된 output categories를 지니며, 이산값(0/1)을 가질 수 있다는 특징이 있다.

 아래의 사진은 종양 사이즈를 통해 유방암 여부를 탐지하는 예시이다.
 종양 사이즈에 따라 종양이면 1, 종양이 아니면 0으로 분류된다.

Unsupervised Learning

 Unsupervised Learning이란, output과 관련 있는 어떠한 정보도 받지 않고 데이터셋에서 구조나 패턴, 특징을 찾는 방법을 의미한다. 이때, 데이터에 어떤 특징이 있는지 이야기해 주는 것이 아니라 그저 많은 데이터를 주고, 데이터로부터 구조를 찾도록 하는 것이 Unsupervised Learning이다.

 강의에서는 Unsupervised Learning의 일종인 Clustering, Anomaly Detection, Dimensionality Reduction에 대해 다룬다.

Clustering

 Clustering이란, 데이터에 대한 label 없이 데이터를 통해 클러스터로 그룹화하는 것을 의미한다. 즉, 데이터셋에서 유사한 특성을 지닌 데이터들을 묶는 알고리즘이라고 생각하면 된다. 구글 뉴스에서 비슷한 단어가 언급된 기사를 클러스터로 그룹화하고, 어떠한 뉴스를 검색했을 때 유사한 기사들이 검색되도록 하는 것이 이에 해당한다.

 아래의 사진은 커뮤니티를 사용하는 사용자들이 어떠한 목적으로 커뮤니티를 사용하는지 클러스터링한 것이다. 많은 회사들은 고객에게 더 나은 서비스를 제공하기 위해 이러한 클러스터링을 사용한다.

Anomaly Detection (이상 탐지)

 Anomaly Detection은 말 그대로 이상을 탐지하는 것을 의미한다. 예를 들어 금융 시스템에서 사기를 탐지하기 위해 이상한 움직임을 탐지하는 것이 이에 해당한다.

Dimensionality Reduction (차원 축소)

 Dimensionality Reduction는 엄청나게 큰 데이터셋을 손실을 줄이면서 작게 압축하기 위해 사용하는 것으로, 비슷한 특징들을 하나로 묶어 차원을 축소시키는 것을 의미한다.

profile
얼렁뚱땅 바보 학부생...

0개의 댓글