[ML] 머신러닝이란? 머신러닝의 종류

김희정·2024년 1월 30일

머신러닝 정의

머신러닝 (Machine Learning, ML)은
기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리
데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론을 말한다.

데이터 분석의 4단계 과정

1단계) 문제 정의 및 목표 설정

분석을 통해 해결하고자 하는 문제를 명확하게 정의한다.
회사에 어떤일이 발생했고, 여기서 어떻게 하고자 하는지 목표를 설정해 그에 맞게 데이터 분석의 범위와 방향을 설정한다.

2단계) 데이터 수집 및 전처리

정의된 문제에 대한 해답을 찾기 위해 필요한 데이터를 수집한다. 데이터는 다양한 소스에서 나올 수 있으며, 이를 적절한 형태로 가공하는전처리 작업이 필요하다.
누락된 값 처리, 이상치 제거, 데이터 형식 표준화 등

3단계) 예측 분석(분석 및 모델링)

수집된 데이터를 기반으로 다양한 통계 및 머신러닝 기법을 사용해서 분석을 수행한다.
이 과정에서 데이터의 패턴, 상관관계, 트렌드 등을 발견하고 모델을 구축하여 예측이나 분류를 수행한다.

4단계) 처방 분석(결과 해석 및 의사결정)

분석된 결과를 비즈니스 또는 연구 목적에 맞게 해석하고, 이를 기반으로 의사결정을 내린다.
이 과정에서 시각화 도구를 활용하여 결과를 명확하게 전달하고, 다양한 이해관계자와 소통한다. 결정된 내용은 문제 정의 및 목표 설정에서 설정했던 목표와 일치하는지 확인할 수 있다.

여기서 머신러닝의 영역은

3단계, 4단계에 해당한다.

인공지능 / 머신러닝 / 딥러닝 관계

인공지능

인간의 지능을 요구하는 업무를 수행하기 위한 시스템

머신러닝

관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘
머신러닝은 컴퓨터가 데이터로부터 학습하는 경우

딥러닝

패턴과 추론에 기반하여 예측하는 방법
그림이나 텍스트, 사운드 및 기타 데이터의 복잡한 방식을 인식하여 정확한 예측
딥 러닝은 인간 두뇌의 생물학적 신경망에서 영감을 얻어 뛰어난 학습 프로세스를 가지고 있다는 점이 특징

머신러닝의 세가지 종류

1. 지도학습 (Supervised Learning)

지도학습은 레이블이 지정된 학습 데이터를 사용하여 모델을 학습시키는 알고리즘.
이 알고리즘은 입력값과 그에 상응하는 결과값을 매핑하는 함수를 학습하며, 이 함수는 새로운 입력 데이터에 대한 예측값을 제공한다.

분류 (Classification)

분류는 주어진 데이터를 클래스 별로 구별해 내는 과정으로, 다양한 분류 알고리즘을 통해 데이터와 데이터의 레이블 값을 학습시키고 모델을 생성한다.
ex.

스팸 필터

회귀분석 (Regression analysis)

회귀분석을 통해 우리가 실제로 관측하지 못한 값이 어떤 값이 될 것인지 대강 예측할 수 있다.
ex

설탕 섭취량에 따른 혈당 수치
평균연령과 연간 독서량 간 상관관계
평소 식습관과 연령 및 내년 혈당 수치 간 상관분석을 통한 혈당치 예측 등

2. 비지도 학습 (Unsupervised Learning)

비지도 학습은 지도 학습과 달리 사람이 답을 알려주지 않는다.
비지도 학습은 꼭 답을 찾지 않아도 되는 문제에 사용한다.

군집화 (Clustering)

영어단어 그대로 클러스터링이라고도 한다.
추천 알고리즘 등 고객 세분화하는 경우에 사용된다.

차원 축소(Dimentionality reduction)

차원이 많으면 많을 수록 데이터 간의 거리가 너무 멀어지게되어, 오히려 모델의 성능이 떨어질 우려가 있다. 이러한 문제를 과적합(overfitting) 이라고 한다.
차원 축소는 여러가지 특성으로 구성된 다차원 데이터의 차원 갯수를 줄여서 과적합 문제를 해결하고 인공지능 모델의 예측 성능을 높이는 방법을 말한다.

3. 강화 학습 (Reinforcement Learning)

강화 학습은 강화물(Reinforcement)이 주어지는 학습을 말한다.
강화 학습은 앞서 말한 지도학습과 비지도 학습의 경우와 달리, 어떤 값이 입력되고 출력되어야 하는지 지정할 필요가 없다.

강화 학습에서는 학습의 주체를 에이전트(agent)라고 한다.
에이전트는 어떤 환경에서 어떤 행동을 수행하고, 그 수행이 잘한 행동인지 잘못한 행동인지에 대해 보상(reinforcement)을 받는다. 일반적으로 잘한 행동에 대해서는 양수 값을, 잘못한 행동에 대해서는 음수 값을 보상으로 합니다. 이때 에이전트는 현재 상태에 대한 정보를 함께 받는다.

강화 학습의 주체인 에이전트의 목표는 최대한 많은 보상을 받는 것이다. 그래서 에이전트는 주어진 환경에서 반복을 통해 스스로 학습한다.

강화 학습과 관련된 키워드는 다음과 같은 것들이 있다.

로보틱스
재고 관리 자동화
알파고 (바둑, 체스)
자율주행

참고

AI 인공지능 이란 무엇인가? - 정의, 역사, 유형, 응용 분야
머신 러닝의 종류
머신러닝(Machine Learning) 정의 및 종류
패스트캠퍼스 강의자료

김희정

데이터 애널리스트가 되고 싶은

이전 포스트

[Python]_코딩테스트_수박수박수박수박수박수?

다음 포스트