🤖 머신러닝이란?
- 스팸 메일 분류 프로그램
- 인간이 정해주는 규칙에는 한계가 있다
- 규칙을 코드에 명시
- 스팸 메일 기준 다양함
- 설명할 수 없는 기준들
- 머신러닝은 스스로 규칙을 찾는다
- 규칙을 코드에 명시X
- 새로운 데이터를 통해 학습
- 80%의 정확도 >> 92%의 정확도
- 톰 미첼(Tom Mitchell)의 정의
- 기계 학습
- 프로그램이 특정 작업(T)을 하는 데 있어서 경험(E)을 통해 작업의 성능(P)을 향상시키는 것
- 스팸 메일 분류 프로그램
- 작업(T): 스팸 분류
- 경험(E): 새로운 이메일 분류
- 성능(P): 분류 정확도
- 새로운 이메일 분류를 반복함에 따라 분류 정확도가 향상하면 머신러닝 프로그램에 해당
🤖 머신러닝이 핫해진 이유
- 사용 가능한 데이터의 증가
- 경험 = 데이터
- 데이터가 충분하지 않으면 경험할 수 없다
- 인터넷의 발달과 스마트폰의 보급
- 데이터양 기하급수적 증가
- 머신러닝에 필요한 데이터 양 충족
- 머신러닝 활용성 증명
- 예:) 유튜브
- 시청자들 수가 많을 수록, 많은 시간을 시청할 수록 더 많은 데이터가 쌓이는 구조
- 수집된 데이터를 통해 콘텐츠 추천 및 개인 맞춤형 광고
- 광고 효율 증가에 따른 광고주들의 투자 증가
- 사용자의 서비스 만족도 증가
- 머신러닝을 통해 좋은 서비스 제공과 수익 창출 효과
🤖 인공지능/빅데이터/딥러닝
- 인공지능
- 프로그램이 인간처럼 생각/행동하게 하는 학문
- 머신러닝은 인공지능의 수단 중 하나
- 딥러닝

- 머신러닝 기법 중 하나
- 깊어지는 층 >> 딥(Deep)러닝
- 정리
🤖 학습의 유형
- 지도 학습(Supervised Learning)
- 답이 있고 답을 맞추는 게 학습의 목적
- 프로그램에 수많은 문제와 그 문제에 대한 답을 가르침(지도)
- 예:) 스팸 메일 분류 프로그램
- 예:) 아파트 가격 예측 프로그램
- 분류(Classification)
- 주어진 옵션 중에서 고르는 것
- 스팸 메일 분류 프로그램
- 회귀(Regression)
- 결괏값이 무수히 많고 연속적
- 아파트 가격 예측 프로그램
- 직관적, 더 많이 사용되는 학습 방법
- 비지도 학습(Unsupervised Learning)
- 답이 없으나 답을 맞추는 게 학습의 목적
- 프로그램이 정답 없이 '비슷한' 기준대로 묶음
- 예:) 기사 분류 프로그램
- 날짜, 주제, 언론사 등의 기준을 사람이 정해주지 않고 기계 스스로 정의하여 분류
- 수학적으로 복잡한 내용이 담긴 학습 방법
🤖 k-NN 알고리즘
- 타이타닉 생존자 예측 프로그램

- 지도 학습
- 분류 학습
- 가로(x축)
- 세로(y축)
- 새로운 탑승자(yellow)
- k-최근접 이웃(k-Nearest Neighbors) 알고리즘

- 대상 데이터에서 가장 가까운 이웃 데이터 k개를 찾음
- 가장 가까운 데이터들 중 4개가 blue, 1개가 red
- kNN이 머신러닝 기법에 속하는 이유
- 데이터 양이 많을수록 결과에 대한 신뢰성 향상
🤖 머신러닝의 수학
- 머신러닝에 수학이 필요한 이유
- 머신러닝은 컴퓨터 과학과 수학의 분야
- 상황에 맞는 알고리즘 선택과 최적화를 위해 이론 공부 필요
- 선형대수학
- 행렬
- 많은 정보를 한 번에 묶음
- 효율적 계산 가능
- 데이터를 행렬로 묶어서 사용
- 미적분학
- 머신러닝의 최적화에 필요
- 그래프 양상에 따른 최적의 알고리즘 파악 가능
- 통계
- 데이터에서 큰 흐름을 파악하는 데 필요
- 결과 예측에 용이
- 확률
- 가능성을 공부하는 학문
- 예:) 생존 확률이 70%이면, 확률적으로 50%를 넘으므로 생존자로 분류
* 출처: CODEIT - 데이터 사이언스 입문