TIL _251212 본캠프 40일차

wldus·2025년 12월 12일

🔍 머신러닝

  • 머신러닝이란?
    컴퓨터가 인간의 개입없이(또는 최소한) 데이터를 학습하여 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행.

  • 머신러닝의 3대요소
    1) 데이터(양과 질 모두 중요)
    2) 알고리즘(=모델)
    3) 컴퓨팅 파워

  • 머신러닝,AI,딥러닝의 관계

    • 인공지능(AI) : 사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념
    • 머신러닝 : AI 를 실현하기 위한 방법 중 하나로 데이터로부터 특징이나 규칙을 찾아내 학습 하는것
    • 딥러닝 : 머신러닝의 하위분야로 사람의 뇌신경을 본떠 만든 인공신경망으로 이루어져 있음(알파고,챗지피티 등)
  • 머신러닝의 역할 및 중요성

  • 대규모 데이터를 빠르고 정확하게 분석하여 복잡한 상관관계를 발견하고 예측
  • 다양한 산업분야에서의 활용 (제조,금융,헬스케어,마케팅,자율주행)

머신러닝 VS 기존 통계분석

  • 통계분석 :
    가설검증, 추론(변수와의 관계), 주로 왜? 라는 질문에 집중
    표본수가 커지면 정교한 추론이 가능하지만 가설자체는 사람이 세움

  • 머신러닝 :
    예측(얼마나 정확하게 미래나 미지의 데이터를 예측할수 있는가), '얼마나 잘' 에 집중(정확도, 재현율)
    데이터가 많을수록 학습에유리, 더 좋은 모델을 만들수 있음

  • 머신러닝의 종류

지도학습 : 우리가 맞다고 알고 있는 결과값(레이블)이 있는 데이터를 학습하는 방식
=> 분류, 회귀

비지도학습 : 레이블 없이 데이터 패턴을 스스로 찾음
=> 군집화, 차원축소(데이터의 변수가 너무 많아 핵심 정보만 남기고 압축하는 기법)

강화학습 : 에이전트가 환경과 상호작용하여 보상을 최대화 하도록 학습
에이전트-> 학습을 수행하는 주인공, 게임으로 치면 플레이어
환경-> 에이전트가 움직이고 상호작용하는 무대
ex) 알파고, 로보틱스, 게임ai

  • 머신러닝 모델링 프로세스
    데이터 수집(웹 크롤링,설문조사.DB추출 등) -> 전처리(결측치,이상치,스케일링,범주형 변환) -> 모델링 -> 평가 -> 최적화 -> 배포

🎯데이터 전처리

로우데이터에서 불필요 하거나 손실있는 부분을 처리하고, 분석 목적에 맞는 형태로 만드는 과정

  • 결측치 처리
    삭제 - 행 또는 열 제거,데이터 손실 발생
    대체 - 평균 또는 중앙값으로 대체(수치형)
    최빈값(범주형)
    예측모델(회귀/분류 모델 이용)
import numpy as np
import pandas as pd

# 1) 가상 데이터 생성
#   - 일부 값들을 np.nan으로 지정해 결측값을 만듭니다.
data = {
    'A': [1, 2, np.nan, 4, 5, np.nan, 7],
    'B': [5, 4, 2, np.nan, np.nan, 3, 1],
    'C': [2, np.nan, np.nan, 6, 7, 8, 9]
}
df = pd.DataFrame(data)
df
profile
재밌게 사는사람

0개의 댓글