경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이다. 인공지능의 한 분야로 간주된다. 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이다. 가령, 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있다.기계 학습의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. 이는 전산 학습 이론 분야이기도 하다. 다양한 기계 학습의 응용이 존재한다. 문자 인식은 이를 이용한 가장 잘 알려진 사례이다. "위키백과"
기계학습과 데이터마이닝
기계 학습은 훈련 데이터(Training Data)를 통해 학습된 알려진 속성을 기반으로 예측에 초점을 두고 있다.
데이터 마이닝은 데이터의 미처 몰랐던 속성을 발견하는 것에 집중한다. 이는 데이터베이스의 지식 발견 부분의 분석 절차에 해당한다.
머신러닝과 그 구성요소인 딥러닝, 신경망은 모두 AI의 세부 하위집합이다. AI는 의사결정과 예측을 수행하기 위해 데이터를 처리한다. AI는 머신러닝 알고리즘으로 데이터를 처리할 뿐 아니라 추가 프로그래밍 없이도 데이터를 학습하면서 지능화한다. 인공지능은 모든 머신러닝 관련 하위집합을 포괄하는 상위집합입이다. 첫 번째 하위집합은 머신러닝이며, 그 안에 딥러닝이 있고 딥러닝 안에는 신경망이 있다.
머신러닝은 다양한 알고리즘 기법을 적용하는 여러 유형의 머신러닝 모델로 구성된다. 데이터의 특성과 원하는 결과에 따라 지도, 비지도, 준지도, 강화 등 네 가지 학습모델 중 하나를 적용할 수 있다. 사용 중인 데이터 세트와 원하는 결과에 따라 각 모델 내에서 하나 이상의 알고리즘 기법을 적용할 수 있다. 머신러닝 알고리즘은 기본적으로 사물 분류, 패턴 발견, 결과 예측, 정보 기반 의사결정 등을 수행하도록 설계된다. 알고리즘은 하나씩 사용할 수도 있고 복잡하고 보다 예측 불가능한 데이터가 포함된 경우에는 정확도를 극대화하기 위해 여러 알고리즘을 결합할 수도 있다.
지도형 학습 알고리즘에서는 예시를 통해 머신을 훈련한다. 지도형 학습 모델은 '입력'과 '출력' 데이터 쌍으로 구성되며, 원하는 값으로 출력 레이블을 지정할 수 있다. 예를 들어 머신을 데이지꽃과 팬지꽃의 차이를 식별할 수 있도록 훈련하려고 한다. 하나의 이진 입력 데이터 쌍에는 데이지꽃의 이미지와 팬지꽃의 이미지가 모두 포함된다. 해당 특정 쌍에 원하는 결과는 데이지꽃을 선택하는 것이기 때문에, 이것이 올바른 결과로 사전 식별한다. 시스템은 알고리즘을 통해 시간에 따라 이 훈련 데이터를 모두 컴파일한 다음 상관관계가 있는 유사성, 차이점, 기타 논리 지점을 결정하기 시작하며, 이 작업은 데이지꽃인지 팬지꽃인지 묻는 질문에 대한 답을 스스로 예측할 수 있을 때까지 계속된다. 이는 어린 아이에게 일련의 문제를 정답 키와 함께 준 다음, 그들이 한 작업을 보여주고 논리를 설명하도록 하는 것과 같다. 지도형 학습 모델은 제품 추천 엔진이나 교통량 분석 앱(예: 하루 중 다른 시간대에 가장 빠른 이동 경로를 예측하는 웨이즈(Waze)) 등 일상생활의 다양한 분야에서 사용된다.
비지도 학습 모델에는 정답 키가 없다. 머신이 입력 데이터(대부분 레이블이 없는 비정형 데이터)를 학습한 다음 관련성이 있고 액세스 가능한 데이터를 모두 사용해 패턴과 상관관계를 인식하기 시작한다. 비지도 학습은 사람이 세상을 관찰하는 방식을 기반으로 다양하게 모델링한다. 사람은 직관과 경험에 의존해 사물을 그룹화한다. 어떤 사물에 대해 경험하는 예시의 수가 많을수록 그것을 분류하고 인식하는 능력이 더욱더 정확해진다. 머신에 있어서 '경험'은 '이용 가능한 입력 데이터의 양'이다. 비지도 학습 모델이 사용되는 대표적인 예는 안면 인식, 유전자 서열 분석, 시장 조사, 사이버 보안 등이다.
모든 데이터가 시스템에 입력되기 전에 정형화되고 레이블이 지정되어 있다면 더할 나위 없이 완벽할 것아다. 그러나 실제에서는 이러한 일이 불가능하기 때문에, 대량의 원시 비정형 데이터를 처리해야 하는 경우 준지도 학습은 유효한 해결책이 될 수 있다. 이 모델은 소량의 레이블이 지정된 데이터를 입력해 레이블이 없는 데이터 세트를 증강한다. 이 모델의 핵심은 레이블이 지정된 데이터를 통해 시스템이 학습을 시작하게 하며, 학습 속도와 정확성을 상당한 수준으로 개선하도록 하는 것이다. 준지도 학습 알고리즘은 레이블이 지정된 데이터를 분석해 레이블이 없는 데이터에 적용 가능한 상관관계가 있는 속성을 찾도록 머신을 훈련한다.
지도형 학습에서는 머신에 정답 키를 제공해 모든 올바른 결과 중에서 상관관계를 찾아 학습하도록 한다. 강화학습 모델에서는 정답 키는 제공되지 않지만 일련의 허용 가능한 행동, 규칙, 잠재적 최종 상태가 입력된다. 알고리즘의 원하는 목표가 고정되어 있거나 양자택일인 경우 머신은 예시를 통해 학습할 수 있다. 그러나 원하는 목표가 변동 가능한 경우에는 경험과 보상을 통해 학습해야 한다. 강화학습 모델에서 '보상'은 숫자이며, 시스템에서 수집하려는 항목으로 알고리즘에 프로그래밍된다.
데이터 과학은 머신러닝에 비해 하위집합. 데이터 과학은 통계와 알고리즘에 초점을 맞추고 회귀 및 분류 기법을 적용하며 결과를 해석하고 전달한다. 머신러닝은 프로그래밍, 자동화, 확장, 결과의 반영 및 웨어하우징에 초점을 맞춘다.
머신러닝은 패턴과 상관관계를 찾고 이를 통해 학습하며 시간이 갈수록 최적화한다. 데이터 마이닝은 머신러닝의 정보 소스로 사용된다. 데이터 마이닝 기법에는 복잡한 알고리즘이 적용되어 머신러닝 애플리케이션에 더 체계적으로 구성된 데이터 세트를 제공할 수 있다.
[출처: https://www.sap.com/korea/insights/what-is-machine-learning.html}