Machine Learning? Human?

JERRY·2025년 4월 1일
0

Machine Learning

목록 보기
1/31
post-thumbnail

머신러닝이란?

머신러닝의 교과서적 정의

머신러닝(딥러닝)의 역사 1

머신러닝(딥러닝)의 역사 2

휴먼 러닝

  • 머신러닝이 어떤 것인지, 어떤 절차를 수행하는 것인지를 알기 위해 우리가 직접 손으로 해봅시다.

Iris Classification

IRIS

  • 프랑스의 국화
  • 아이리스 Iris라는 이름은 그리스 신화의 무지개의 여신인 Iris에서 따온 것.
    헤라 여신이 Iris에게 내린 축복의 숨결이 땅으로 떨어져 핀 꽃
  • 꽃말은 좋은 소식, 잘 전해 주세요, 사랑의 메시지

Iris의 품종 분류

  • 꽃잎(petal), 꽃받침(sepal)의 길이/너비 정보를 이용해서 이 3종의 품종을 구분할 수 있을까?

  • 로널드 피셔의 iris 데이터

    • 1930년대에 통계학자이자 유전학자였던 로널드 피셔가 iris 데이터를 수집 정리해 두었다.
    • 로널드의 iris 데이터

데이터관찰 (python)

iris 데이터 탐색

  • iris 데이터를 불러보자

  • sklearn의 datasets은 Python의 dict 형과 유사하다

  • DESCR

  • target_names / target

  • feature_names / data

pandas

• 데이터를 바로 딥러닝에 적용하거나
• sklearn을 이용한 머신러닝에 적용할 때 꼭 필요한 것은 아니지만,
• 데이터를 정리해서 관찰할 때는 아주 유용한 도구가 pandas
• 미국식 농담으로 (pandas : 스테로이드 맞은 엑셀~)

  • 필요한 데이터만 DataFrame으로 생성 ()

시각화

  • boxplot (x='sepal length (cm) & 'sepal width (cm)')

  • boxplot (x='petal length (cm) & 'petal width (cm)')

  • pairplot

  • pairplot 중 일부만 집중적으로 확인

  • petal length (cm) x petal width (cm)







Decision Tree

  • 상황 설정 : setosa 구분은 잘 되지만 나머지 두 종의 구분선을 어떻게 찾을 것인가

  • 데이터 변경 : setosa 제외

  • 학습을 위해 두 개의 데이터에 집중

  • 저 경계선이 어디에 있는게 최선일까?


Decision Tree의 분할 기준 (Split Criterion)

정보 획득 Information Gain

  • 정보의 가치를 반환하는 데 발생하는 사전의 확률이 작을수록 정보의 가치는 커진다
  • 정보 이득이란 어떤 속성을 선택함으로 인해서 데이터를 더 잘 구분하게 되는 것

엔트로피


지니계수


Scikit Learn

  • 2007년 구글 썸머 코드에서 처음 구현

  • 현재 파이썬에서 가장 유명한 기계 학습 오픈 소스 라이브러리

  • sklearn을 이용한 결정나무의 구현

  • Accuracy 확인

0개의 댓글