머신러닝이란?
컴퓨터가 인간의 개입없이(또는 최소한) 데이터를 학습하여 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행.
머신러닝의 3대요소
1) 데이터(양과 질 모두 중요)
2) 알고리즘(=모델)
3) 컴퓨팅 파워
머신러닝,AI,딥러닝의 관계
학습 하는것머신러닝의 역할 및 중요성
통계분석 :
가설검증, 추론(변수와의 관계), 주로 왜? 라는 질문에 집중
표본수가 커지면 정교한 추론이 가능하지만 가설자체는 사람이 세움
머신러닝 :
예측(얼마나 정확하게 미래나 미지의 데이터를 예측할수 있는가), '얼마나 잘' 에 집중(정확도, 재현율)
데이터가 많을수록 학습에유리, 더 좋은 모델을 만들수 있음
머신러닝의 종류

지도학습 : 우리가 맞다고 알고 있는 결과값(레이블)이 있는 데이터를 학습하는 방식
=> 분류, 회귀
비지도학습 : 레이블 없이 데이터 패턴을 스스로 찾음
=> 군집화, 차원축소(데이터의 변수가 너무 많아 핵심 정보만 남기고 압축하는 기법)
강화학습 : 에이전트가 환경과 상호작용하여 보상을 최대화 하도록 학습
에이전트-> 학습을 수행하는 주인공, 게임으로 치면 플레이어
환경-> 에이전트가 움직이고 상호작용하는 무대
ex) 알파고, 로보틱스, 게임ai

로우데이터에서 불필요 하거나 손실있는 부분을 처리하고, 분석 목적에 맞는 형태로 만드는 과정
import numpy as np
import pandas as pd
# 1) 가상 데이터 생성
# - 일부 값들을 np.nan으로 지정해 결측값을 만듭니다.
data = {
'A': [1, 2, np.nan, 4, 5, np.nan, 7],
'B': [5, 4, 2, np.nan, np.nan, 3, 1],
'C': [2, np.nan, np.nan, 6, 7, 8, 9]
}
df = pd.DataFrame(data)
df