머신러닝 개념(1)

이장훈·2021년 1월 16일
0

머신러닝

목록 보기
1/1

1. 머신러닝이란?

  • 복잡한 데이터에서 특정 규칙을 발견해내는데 특화
  • 유동적인 데이터에도 대응이 가능
  • 대량의 데이터를 읽은 뒤 패턴을 발견해내면서 대응하는 큰 특징이 있다.
  • 인간은 본인의 경험이나 책에 의존하지만, 머신러닝은 발생되는데이터에 대해서 즉각 변화한다. 그래서 유튜브 알고리즘이 계속 변화하는 이유이다

2. 학습구분

1) 비지도, 지도, 준지도, 강화학습 : 사람의 감독 여부

- 지도학습 : 답을 태깅하고 시작 (분류, 스팸필터, 속성attribute, 특성feature이라는 예측변수를 통해 target을 찾음)
	- 알고리즘 : k-최근접이웃, 선형회귀(예측값), 로지스틱회귀(확률값), 서포트 벡터 머신 - 결정트리, 랜덤포레스트 - 신경망
- 비지도 학습 : 레이블(답)이 없는 분류 시작
- 강화학습 : 행동에 대한 보상과 벌점을 통해서 학습

2) 온라인, 배치 : 실시간 점진적 학습

- 배치 학습 : 모든 데이터를 학습해 하나의 모델을 생성함
- 온라인 학습 : 순차적 또는 미니배치를 통해서 작은 단위 훈련시킴. 실시간으로 학습을 시작할 수 있음. 데이터를 다 모아놓고 시작할 필요도 없음

3) 사례기반, 모델 기반 : 기존과 새것을 비교, 기존 훈련데이터로 비교

- 사례 기반 학습 : 사례 간 유사도를 측정해서 유사도가 높은 것들을 비슷한 군집으로 묶음
- 모델 기반 학습 : 데이터 중 일부 샘플 데이터를 추출해서 그 데이터로 모델을 학습시키고 그 모델을 기반으로 다른 데이터를 분류

3. 사례분석

  • 예제 작업(분류)

    • 이미지 분류작업
    • 뇌 스캔 종양 진단
    • 자동 기사 뉴스 분석
    • 부정댓글 적발, 삭제
    • 긴 문서 요약
    • 챗봇
  • 예제(이상치 탐지)

    • 신용카드 부정 거래 감지
  • 예제 (예측모델)

    • 내년도 회사 수익 예측

4. 데이터에 대한 방안

  • 학습 데이터의 부족
  • 대표성이 없는 데이터
  • 낮은 품질의 데이터
  • 관련 없는 특성
  • 훈련 데이터의 과적합 : 훈련 데이터에 편향이 너무 심해서, 실제 데이터와 괴리감이 발생하는 현상 -> 하이퍼파라미터로 해결
  • 훈련 데이터의 과소적합
profile
개발자가 꿈입니다.

0개의 댓글