머신 러닝 개요 - 1

김찬울·2021년 8월 4일
0

머신러닝의 정의

머신러닝의 정의는 머신러닝이란 기계학습으로 프로그래밍을 통해 원하는 결과를 도출해내는 것이다.

이때 if문 같은 조건문은 없는 것이 일반적이며 기본적으로 데이터를 통해서 해당 데이터를 분석하고 그 결과로

데이터를 분류하여 원하는 결과를 도출해낸다.

머신러닝에 유용한 분야 4가지

머신러닝에 유용한 분야 4가지는 데이터가 방대한 경우, 주로 전산 데이터 분류,
이미지 인식,
음성 인식,
과거의 데이터를 통한 미래에 대한 특정 분야 예측등에 유용하다.

또한 문자 판독기, 스팸필터, 선거 결과 예상, 도로 상태에 따른 신호등 조절.

레이블된 훈련세트

레이블은 분류가 이미 정해져 있음을 의미한다 이로 지도학습을 할 수 있다.

가장 많이 사용되는 지도 학습

가장 많이 사용되는 지도 학습으로는 분류와 회귀가 있고
주로 쓰이는 것은 k 최근접이웃 과 선형회귀등이 있다

이외에도 로지스틱 회귀 결정트리 등이 있지만 해당 두개가 주로 사용된다.

k 최근접 이웃은 해당 값을 그 값과 유사한 값이라고 보고 평균을 내거나, 유사한 값의 결과를 도출한다.

선형회귀는 비례하는 결과를 통해 ex) 소득이 높으면 행복도가 높을 것이다. 정도의 예측이다
비례되는 특성이 많으면 많을 수록 좋은 결과를 도출한다.

많이 사용되는 비지도 학습

많이 사용되는 비지도 학습으로는 군집과 차원 축소, 이상치 탐색, 연관규칙학습이 있다.

군집은 scatter같은 유형으로 데이터를 나타내면 비슷한 특징을 가지는 데이터끼리 뭉쳐있는 경향을 볼 수 있는데 이를 통해 집단단위로 분류하는 것이다.

차원 축소는 선형회귀와 비슷하지만 다르다. 차량의 마모와 차량의 연식을 특정 함수를 통해 엮어서 새롭게 차량의 마모도 라는 특성을 만드는 것. 이렇게 차원을 축소해 나갈 수 있다.

이상치 탐색은 군집단위의 데이터가 일반적이나 혼자 값이 튀는 데이터일 경우 필요 없다고 판단하여 삭제하거나 이상치로 지정한다.

연관 규칙 학습은 성향을 보는 것인데 예로 소스와 감자를 산 사람이 스테이크를 살 가능성이 높다고 판단하는 것이다.

고객을 그룹으로 분활할 때의 알고리즘

고객을 여러 단위로 분류한다면 군집을 통해 골라낼 수 있다.

스팸 감지의 알고리즘

스팸 감지의 문제는 지도 학습으로 분류를 통해 스팸메일에서 주로 사용되는 단어들을 골라내서 이에 많이 사용될 수록 스팸문자라는 군집으로 기울어진다.

온라인 학습 시스템

온라인 학습 시스템은 한번에 모든 데이터를 학습시키기 어려운 경우에 주로 사용되는데
학습 데이터를 나누거나 미니 배치단위로 학습시켜 성능이 뛰어나지 않더라도 학습을 시키기에 충분하다

또한, 빠르게 변하는 주식같은 경우에서 데이터를 빠르게 학습시킬 수 있으므로 선호한다.

profile
코린코린이

0개의 댓글