코멘토 청년취업사관학교 전Z전능 데이터 분석가 DAY13

·2025년 1월 9일

AI와 머신러닝 개념 및 주요 분석 기법

#1 인공지능의 정의와 개념

신경망 모델

  • 데이터를 입력만 하면 사용 가능
    (자동으로 패턴 학습, 예측 수행 가능하기 때문)
  • 추상화를 이용해 모델의 깊은 이해 없이도 사용 가능

데이터 구성 요소

  • 샘플: 데이터 집합에서의 데이터 요소
  • 특징/특성: 각각 샘플이 가지고 있는 속성
  • 레이블/타깃: 모델이나 분류 작업에서 예측하고자 하는 변수

정형 데이터에서 각 샘플은 특징 값들을 가짐.
각 데이터 샘플에 목표 변수(레이블)를 부여 (레이블링)



#2 머신러닝, 딥러닝 기초

feature Vector: 샘플의 특징을 구분할 수 있는 중요한 특성(요소)의 집합

머신러닝: 딥러닝에 비해 비교적 적은 데이터에도 성능 확보 가능 (학습을 시키는 인간의 개입 때문)

딥러닝: 대규모 데이터에서 성능 발휘 가능



#3 주요 분석 기법(1)

머신러닝의 종류

  • 지도 학습: 레이블이 있고, 레이블을 예측함
    ex) 분류, 회귀
  • 비지도 학습: 레이블이 없고, 숨겨진 구조(패턴)을 발견해 인사이트 도출
    ex) 군집화, 차원축소

1. 지도 학습

분류

  • 이산적인 범주
    ex) 남/여

  • 분류 학습: 훈련 데이터 + 테스트 데이터
    -> 잘 분류하는 규칙을 학습시키는 함수 찾기

회귀

  • 연속적인 범주
    ex) 주택 가격 예측

2. 비지도 학습

군집화

  • 명확한 기준 없이 유사한 데이터를 묶음.

  • 군집 과정 원리: 군집 내 응집도 최대화, 군집 간 분리도 최대화

차원축소

  • 차원 = 피처의 개수

  • 차원 수가 많으면 학습 속도, 성능 저하 발생
    -> 이를 방지하기 위해 차원축소로 불필요한 특징(노이즈) 제거



#4 주요 분석 기법(2)

전처리: 가장 중요한 과정, 성능을 좌지우지함

  • 데이터 분할: 학습/검증/테스트셋으로 나눔 -> 신뢰도 높임

검증이 필요한 이유: 과소 적합, 과적합 방지


손실함수

  • 손실, 비용을 최소화하는 모델을 만들어야함

탐색적 데이터 분석 EDA - 수집, 정제, 탐색, 모델링

확증적 데이터 분석 CDA


느낀점

크롤링도 노가다 아님.. 진짜 직접 수집하기

0개의 댓글