머신 러닝의 선구자 Tom Mitchell CMU 교수가 정의한 머신 러닝
"A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E."
"어떤 컴퓨터 프로그램이 특정 작업(T)에 대해, 성능 지표(P)로 측정했을 때, 경험(E)을 통해 성능이 향상된다면, 그 프로그램은 학습한다고 말할 수 있다.”
머신 러닝의 3가지 핵심 요소
스팸 메일을 분류하는 모델을 만드는 작업
: [데이터셋 → 스팸메일 분류 모델 실행 → 정확도 확인 → 정확도 향상을 위한 모델 업데이트] 의 반복
즉, 머신 러닝은 데이터를 활용하여 작업의 성능을 향상하기 위해 모델(머신)을 학습해나가는 과정을 말함!
☞ 출처
빅데이터란?
빅데이터의 특징: 5V
빅데이터와 머신 러닝 분야는 상호 보완적으로 함께 발전
역사적 발전 과정
☞ 출처
통계학
: 표본에서 모집단의 특성을 추론하는 것이 중점
머신 러닝
: 수집된 데이터를 활용해 예측과 일반화 성능을 향상시키는 것이 중점
두 분야의 접근 방법이나 지향점이 다르다는 것이지 좋다 나쁘다를 이야기 하는 것은 아님!
☞ 출처
초반에 다소 추상적이었던 데이터 분석이라는 개념이 최근에는 점점 구체화 및 세분화되고 있음
위 다이어그램에서 머신 러닝은 데이터 과학자와 데이터 엔지니어의 공통 요구 스킬임!
학습한 내용에 관련해서 참고할만한 자료들