[머신러닝] 머신러닝 빌드업 01

Data_Student·5일 전
0

머신러닝

목록 보기
1/6

Python 머신러닝 빌드업 - 1회차

  • 머신 러닝에 대한 개념 이해
  • 머신 러닝과 통계학 / 빅데이터와의 관계
  • 데이터 분석과 머신 러닝의 관계 이해

1. 머신 러닝에 대한 정의

  • 데이터를 활용하여 작업의 성능을 향상하기 위해 모델(머신)을 학습해나가는 과정

  • 머신 러닝의 3가지 핵심 요소

    • 작업(T) : 프로그램이 수행햐아 할 임무
    • 성능 지표(P) : 프로그램이 해당 임무를 잘 수행하였는지 평가하기 위한 수치화된 값
    • 경험(E) : 작업의 대상, 즉 데이터
  • 머신 러닝 vs AI vs 딥러닝

    • AI > 머신 러닝 > 딥러닝 ( 좌에서 우로 범위가 작아짐 )
    • AI : 마치 인간처럼 학습 및 추론을 할 수 있도록 만들어진 프로그램
    • 머신 러닝 : 데이터를 활용해 명시적으로 프로그래밍되지 않고도 학습할 수 있는 알고리즘
    • 딥러닝 : 머신 러닝의 종류 중 하나로 인공 신경망을 이용해 거대한 데이터셋을 학습하는 방법

2. 빅데이터와 머신 러닝

  • 빅데이터와 머신 러닝은 상호보완적 관계

  • 빅데이터 : 과거와 비교가 안되는 엄청난 규모의 데이터를 칭하는 용어

    • 특징 - 5V
      • Volume(규모) : 데이터의 양
      • Velocity(속도) : 데이터가 생성되고 처리되는 속도
      • Variety(다양성) : 데이터의 형태와 종류의 다양함
      • Veracity(정확성) : 데이터의 품질과 신뢰성
      • Value(가치) : 데이터로부터 창출할 수 있는 가치
  • 빅데이터와 머신 러닝 분야는 상호 보완적으로 함께 발전

    • 머신 러닝의 핵심 요소 중 한가지가 바로 경험(E), 즉 데이터
    • 빅데이터의 활용성이 높아짐에 따라 머신 러닝 분야도 계속해서 발전
  • 역사적 발전 과정

    • 초기 단계 (1990년대 ~ 2000대 초반)
      • PC 및 메모리 기술의 발달로 데이터 저장 비용 감소
      • 인터넷의 보급화 → 데이터 마이닝 기술 발달
      • 컴퓨터를 활용한 통계적 분석 진행
    • 빅데이터 시대의 시작 (2000대 중반 ~ 2010년대 중반)
      • 인터넷 시대의 가속화 → 디지털 데이터 급중
      • 대규모 데이터 처리 기술 연구
      • 하둡(Hadoop)과 같은 분산 처리 시스템의 등장
      • 보다 많은 데이터를 활용한 머신 러닝 모델의 학습
    • 머신 러닝을 넘어 딥러닝의 시대 (2010년대 중반 ~ 2020년 초반)
      • AWS와 같은 클라우딩 컴퓨팅의 발전 → 데이터 저장 및 처리가 용이
      • SNS 발전으로 다양한 형태의 데이터 축적
      • 대규모 데이터를 이용해 학습하는 딥 러닝 모델의 등장
      • GPU의 발달로 딥 러닝 연구 가속화
    • AI 시대의 가속화(현재)
      • ChatGPT를 필두로 다양한 생성형 AI 서비스가 등장
      • 다양한 산업군에서 AI와 기존 머신러닝 기술의 결합한 유의미한 결과 도출 시도

3. 통계학과 머신 러닝

  • 공통점도 많지만 차이점이 많은 두 분야

  • 통계학 : 표본에서 모집단의 특성을 추론하는 것이 중점

    • 내가 수집한 데이터가 모집단을 얼마나 잘 반영하고 있는지
    • 데이터 셋이 작아도 통계적 유의성만 확인할 수 있으면 활용
    • 연역적 추론 : 가설 설정 → 수학적 검증
  • 머신 러닝 : 수집된 데이터를 활용해 예측과 일반화(분류) 성능을 향상시키는 것이 중점

    • 다른 데이터가 들어왔을 때 기존 모델로 얼마나 비슷하게 예측 / 분류
    • 데이터는 많으면 많을수록 유리
    • 귀납적 추론 : 데이터를 이용해 모델을 우선 돌려보고 결과를 해석
  • 두 분야의 접근 방법이나 지향점은 다르지만 데이터 분석을 위해서 둘 다 유용하게 활용됨


4. 데이터 분석과 머신 러닝

  • 다소 추장적이던 데이터 분석이라는 개념이 최근에 점점 구체화 및 세분화

    • 데이터 분석가(Data Analyst)
      • 데이터를 활용하고 분석하여 의사 결정을 위한 인사이트를 도출
    • 데이터 엔지니어(Data Engineer)
      • 분석의 기초가 되는 데이터를 수집, 저장, 처리 및 데이터 파이프라인 관리
    • 데이터 과학자(Data Scientist)
      • 머신 러닝 등을 활용해서 데이터를 이용한 문제 해결에 집중
  • 데이터 분석가가 머신 러닝을 학습해야 하는 이유

    • 깊이 있는 분석 가능
      • 통계적 분석만으로 확인하기 어려운 비선형ㅈ거 패턴이나 복잡한 관계를 발견 가능
    • 대규모 데이터 및 실시간 데이터를 분석
      • 학습한 모델을 바탕으로 대규모 데이터 및 실시간 데이터를 활용해 예측, 분류 등의 작업에 활용
    • 다양한 데이터 팀 구성원 및 유관 부서와 협업에 용이
      • 머신 러닝에 대한 이해를 바탕으로 데이터 과학자, 데이터 엔지니어 및 유관 부서에 필요한 데이터와 모델 요청 가능

0개의 댓글